CN117440209B - 一种基于演唱场景的实现方法及系统 - Google Patents
一种基于演唱场景的实现方法及系统 Download PDFInfo
- Publication number
- CN117440209B CN117440209B CN202311722903.6A CN202311722903A CN117440209B CN 117440209 B CN117440209 B CN 117440209B CN 202311722903 A CN202311722903 A CN 202311722903A CN 117440209 B CN117440209 B CN 117440209B
- Authority
- CN
- China
- Prior art keywords
- stream data
- video
- original video
- duration
- rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000005540 biological transmission Effects 0.000 claims abstract description 13
- 230000006835 compression Effects 0.000 claims description 17
- 238000007906 compression Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44004—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving video buffer management, e.g. video decoder buffer or video display buffer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440263—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440281—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44209—Monitoring of downstream path of the transmission network originating from a server, e.g. bandwidth variations of a wireless network
Abstract
本发明公开了一种基于演唱场景的实现方法及系统,属于视频播放优化技术领域,具体包括:获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据;设置缓存区,缓存区预存时长为T的原视频流数据,播放当前缓存区的视频并继续向缓存区内传输视频,计算时长t内,传输视频的网络速率均值并标记为V1;若网络速率均值V1小于码率,对接下来T‑t时长内所述原视频流数据的码率进行压缩;识别时长t内的原视频为表演视频或歌唱视频,并根据原视频的种类分别对原视频数据的帧率和分辨率进行调整,本发明通过根据网速变化动态调整传输视频码率并根据视频类型分别制定不同的优化策略,实现了视频的流畅播放,提升播放体验。
Description
技术领域
本发明涉及视频播放优化技术领域,具体涉及一种基于演唱场景的实现方法及系统。
背景技术
对于实际生活来说,经常会举行晚会、演唱会和音乐会等各种类型的演唱活动,而对于一些感兴趣却无法到达现场的观众来说,通过电视、网络等渠道观看实时转播是最为常见的方式。
现有的转播技术通常是将演唱场景的图像流和音频流传入到云数据服务器中,再由云数据服务器向用户进行视频流分发传输,其中,视频流传输需要占用大量的网络带宽,当用户的网络状况变差时,会出现转播画面卡顿、停顿的现象。
目前,现有技术在面对转播画面卡顿、停顿时,解决方法是音视频完全卡住,待网络正常后再继续播放,但这样的后果通常会丢失中间一段时间的音视频数据,使用户不能得到完整的内容,有的改进方案是优先保证音频传输,让用户能听到,但视频中断,待网络状况好的时候再传输视频,但这样仍然在这段时间无法让用户看到视频图像,破坏了用户的观看体验,导致用户实际体验感极低。
发明内容
本发明的目的在于提供一种基于演唱场景的实现方法及系统,解决以下技术问题:
现有技术在面对转播画面卡顿、停顿时,解决方法是音视频完全卡住,待网络正常后再继续播放,但这样的后果通常会丢失中间一段时间的音视频数据,使用户不能得到完整的内容,有的改进方案是优先保证音频传输,让用户能听到,但视频中断,待网络状况好的时候再传输视频,但这样仍然在这段时间无法让用户看到视频图像,破坏了用户的观看体验,导致用户实际体验感极低。
本发明的目的可以通过以下技术方案实现:
一种基于演唱场景的实现方法,包括以下步骤:
S1,获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据;所述参数包括码率、帧率和分辨率;
S2,设置缓存区,缓存区预存时长为T的原视频流数据,播放当前缓存区内预存的视频流数据,并继续向缓存区内传输视频,计算时长t内,传输视频的网络速率均值并标记为V1;所述时长t小于预存时长T;
S3,若网络速率均值V1小于码率,对接下来T-t时长内所述原视频流数据的码率进行压缩,预设网络余量,将压缩后码率的值设置为当前网络速率均值与所设网络余量的差值;
S4,提取时长t的音频流数据并进行分析,预测识别当前时长t内的原视频为表演视频或歌唱视频,并根据当前时长t内的原视频的种类,分别对接下来T-t时长内原视频流数据的帧率和分辨率进行调整。
作为本发明进一步的方案:对音频流数据的分析过程为:
提取时长t的音频流数据并标记为待测音频流数据,将所述待测音频流按预设帧长进行分帧处理得到若干音频帧并标记为Y1,Y2,...,Yn,n为正整数,采用线性预测编码分析处理后的每一帧音频流数据并提取音频特征,所述音频特征包括短时过零率、LPC预测系数和LPC预测残差幅度谱的偏度和峰度,根据所述音频特征形成特征向量,将所述特征向量带入预设识别支持向量模型,识别所述每一帧音频流数据中是否含有人声,若含有人声则将该音频帧标记为特殊音频帧并标记为Q1,Q2,...,Qm,m为正整数,若m/n大于预设阈值,则判定时长T内的原视频为歌唱视频,若m/n小于预设阈值,则判定时长T内的原视频为表演视频。
作为本发明进一步的方案:若当前时长t内的原视频种类为歌唱视频,则优先对接下来T-t时长内原视频流数据的分辨率进行降低。
作为本发明进一步的方案:若当前时长t内的原视频种类为表演视频,则优先对接下来T-t时长内原视频流数据的帧率进行降低。
作为本发明进一步的方案:若网络速率均值V1大于码率,则保持接下来T-t时长内所述原视频流数据的码率,并对下一T时长内的原视频流数据的码率进行增大。
作为本发明进一步的方案:具体调整过程为:
计算压缩后的视频流数据码率与原视频流数据码率的比值,并标记为压缩比值,若当前时长t内的原视频为表演视频,则根据所述压缩比值对接下来T-t时长内原视频流数据的帧率进行相应压缩,若当前时长t内的原视频为歌唱视频,则根据所述压缩比值对接下来T-t时长内原视频流数据的分辨率进行相应压缩。
作为本发明进一步的方案:所述增加原视频流数据的码率的过程为:
获取当前网络传输速率Vi和视频流数据的码率Ki,计算网络传输速率均值Vi与视频流数据的码率Ki的差值并标记为P,在t时长内将当前视频流数据码率逐渐增加为Ki+P。
一种基于演唱场景的实现系统,包括:
数据获取模块,用于获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据;所述参数包括码率、帧率和分辨率;
数据处理模块,用于设置缓存区,缓存区预存时长为T的原视频流数据,播放当前缓存区的视频流,并继续向缓存区内传输视频,计算时长t内,传输视频的网络速率均值并标记为V1;所述时长t小于预存时长T;
结果生成模块,用于判断是否对当前视频码率进行修正,若网络速率均值V1小于码率,对接下来T-t时长内所述原视频流数据的码率进行压缩,预设网络余量,将压缩后码率的值设置为当前网络速率均值与所设网络余量的差值;
参数调整模块,用于提取时长t的音频流数据并进行分析,识别时长t内的原视频为表演视频或歌唱视频,并根据当前时长t内的原视频的种类,分别对接下来T-t时长内原视频数据的帧率和分辨率进行调整。
本发明的有益效果:本发明通过设置缓存区,提前获取并缓存一定时长的原视频流数据,得到缓存播放时间T,并计算时长t内的网络速率均值与当前视频流数据码率进行比较,若当前网络速率小于码率,则用户网络速率不足以支持当前直播视频流数据码率,则降低视频数据的码率,并根据提取的音频流数据进行分析,并识别当前时长t内的原视频是否为表演视频或歌唱视频,并根据预测结果,可以对接下来T-t时长内的原视频数据的帧率和分辨率进行调整,既确保了视频的流畅播放,又能够根据视频内容的特点,优化视频的展示效果,提升用户观看体验。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明一种基于演唱场景的实现方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于演唱场景的实现方法,包括以下步骤:
S1,获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据;所述参数包括码率、帧率和分辨率;
S2,设置缓存区,缓存区预存时长为T的原视频流数据,播放当前缓存区内预存的视频流数据,并继续向缓存区内传输视频,计算时长t内,传输视频的网络速率均值并标记为V1;所述时长t小于预存时长T;
S3,若网络速率均值V1小于码率,对接下来T-t时长内所述原视频流数据的码率进行压缩,预设网络余量,将压缩后码率的值设置为当前网络速率均值与所设网络余量的差值;
S4,提取时长t的音频流数据并进行分析,预测当前时长t内的原视频为表演视频或歌唱视频,并根据当前时长t内的原视频的种类,分别对接下来T-t时长内原视频流数据的帧率和分辨率进行调整。
在本发明一种优选的实施例中,对音频流数据的分析过程为:
提取时长t的音频流数据并标记为待测音频流数据,将所述待测音频流数据按预设帧长进行分帧处理得到若干音频帧并标记为Y1,Y2,...,Yn,n为正整数,采用线性预测编码分析处理后的每一帧音频流数据并提取音频特征,所述音频特征包括短时过零率、LPC预测系数和LPC预测残差幅度谱的偏度和峰度,根据所述音频特征形成特征向量,将所述特征向量带入预设识别支持向量模型,识别所述每一帧音频流数据中是否含有人声,若含有人声则将该音频帧标记为特殊音频帧并标记为Q1,Q2,...,Qm,m为正整数,若m/n大于预设阈值,则判定时长T内的原视频为歌唱视频,若m/n小于预设阈值,则判定时长T内的原视频为表演视频。
本发明通过设置缓存区,提前获取并缓存一定时长的原视频流数据,得到缓存播放时间T,并计算时长t内的网络速率均值与当前视频流数据码率进行比较,若当前网络速率小于码率,则用户网络速率不足以支持当前直播视频流数据码率,则降低视频数据的码率,并根据提取的音频流数据进行分析,并预测下一时长T内的原视频是否为表演视频或歌唱视频,并根据预测结果,可以对接下来T-t时长内的原视频数据的帧率和分辨率进行调整,既确保了视频的流畅播放,又能够根据视频内容的特点,优化视频的展示效果,提升用户观看体验。
在本发明一种优选的实施例中,若当前时长t内的原视频种类为歌唱视频,则优先对接下来T-t时长内原视频流数据的分辨率进行降低。
在歌唱视频中,如歌唱、相声等,音频通常是用户主要关注的内容,尤其是歌手的声音和演唱技巧。相比之下,视频的画面细节对于观看体验的重要性较低。因此,在网速有限的情况下,优先保证音频质量,而对视频分辨率进行降低可以节省带宽资源降低解码和渲染负担,较低的视频分辨率意味着需要处理的像素数量较少,这可以减轻解码器和渲染器的负担能够加快视频的解码速度和渲染速度,提高播放的流畅性,减少卡顿和缓冲时间,提供更快的响应和即时播放
在本发明一种优选的实施例中,若当前时长t内的原视频种类为表演视频,则优先对接下来T-t时长内原视频流数据的帧率进行降低。
在表演视频中,表演内容是用户的主要关注内容,如魔术、舞蹈、杂技表演等,观众更关注动作和细节,因此可以通过压缩帧率来降低数据量,同时保持视觉质量,保证画质的情况较高的帧率意味着需要更多的数据传输量,降低帧率可以减少数据传输量,在网速有限的情况下,降低帧率可以减少视频文件的大小,节约存储空间,又能够减少解码和渲染的计算负载,从而提高播放的流畅性,提高了用户提供更好的观看体验。
在本发明一种优选的实施例中,若网络速率均值V1大于码率,则保持接下来T-t时长内所述原视频流数据的码率,并对下一T时长内的原视频流数据的码率进行增大。
当网络速率大于当前视频码率,则说明当前网络质量良好,但是网络通常会存在波动,若根据当前网络速率调整当前视频码率,若下一时刻产生网络波动,则有可能导致用户播放卡顿,影响用户实际观看体验,因此,保持当前视频传输码率,并对下一时长T的原视频传输码率进行增大,既确保了视频播放的流畅又提供更好的视频质量,提高了用户的观看体验。
在本发明一种优选的实施例中,具体调整过程为:
计算压缩后的视频流数据码率与原视频流数据码率的比值,并标记为压缩比值,若当前时长t内的原视频为表演视频,则根据所述压缩比值对接下来T-t时长内原视频流数据的帧率进行相应压缩,若当前时长t内的原视频为歌唱视频,则根据所述压缩比值对接下来T-t时长内原视频流数据的分辨率进行相应压缩。
通过计算压缩比值并根据不同的视频类型进行相应的压缩处理,可以使压缩后的视频流数据更加紧凑,从而达到更高的压缩效果。对于表演视频,压缩帧率可以降低数据传输量,节省带宽和存储空间;对于歌唱视频,压缩分辨率可以减小视频文件大小,同时保持音频质量。不同类型的视频有不同的特点和用户需求。对于表演视频,观众更关注动作和细节,因此可以通过压缩帧率来降低数据量,同时保持视觉质量。而对于歌唱视频,音频表现力更为重要,因此可以通过压缩分辨率来减少文件大小,同时不影响音频质量,能够根据视频特点和用户需求,灵活地调整压缩策略,既保证了视频的流畅播放,也提高了用户的观看体验。
在本发明一种优选的实施例中,所述增加原视频流数据的码率的过程为:
获取当前网络传输速率Vi和视频流数据的码率Ki,计算网络传输速率均值Vi与视频流数据的码率Ki的差值并标记为P,则将原视频流数据的码率增加为Ki+P。
当缓存区存储值达到预设阈值,说明此时网络速率均值是大于当前视频流带宽,因此计算网络传输速率与视频流码率之间的差值P,并将其用于调整视频流的码率,既平滑了视频码率变化,提升了直播视频质量,又能够确保直播视频流畅,增加了用户的实际观看体验。
一种基于演唱场景的实现系统,包括:
数据获取模块,用于获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据;所述参数包括码率、帧率和分辨率;
数据处理模块,用于设置缓存区,缓存区预存时长为T的原视频流数据,播放当前缓存区的视频流,并继续向缓存区内传输视频,计算时长t内,传输视频的网络速率均值并标记为V1;所述时长t小于预存时长T;
结果生成模块,用于判断是否对当前视频码率进行修正,若网络速率均值V1小于码率,对接下来T-t时长内所述原视频流数据的码率进行压缩,预设网络余量,将压缩后码率的值设置为当前网络速率均值与所设网络余量的差值;
参数调整模块,用于提取时长t的音频流数据并进行分析,识别时长t内的原视频为表演视频或歌唱视频,并根据当前时长t内的原视频的种类,分别对接下来T-t时长内原视频数据的帧率和分辨率进行调整。
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (5)
1.一种基于演唱场景的实现方法,其特征在于,包括以下步骤:
S1,获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据;所述参数包括码率、帧率和分辨率;
S2,设置缓存区,缓存区预存时长为T的原视频流数据,播放当前缓存区内预存的视频流数据,并继续向缓存区内传输视频,计算时长t内,传输视频的网络速率均值并标记为V1;所述时长t小于预存时长T;
S3,若网络速率均值V1小于码率,对接下来T-t时长内所述原视频流数据的码率进行压缩,预设网络余量,将压缩后码率的值设置为当前网络速率均值与所设网络余量的差值;
S4,提取时长t的音频流数据并进行分析,识别当前时长t内的原视频为表演视频或歌唱视频,并根据当前时长t内的原视频的种类,分别对接下来T-t时长内原视频流数据的帧率和分辨率进行调整;
调整的过程为:
若当前时长t内的原视频种类为歌唱视频,则对接下来T-t时长内原视频流数据的分辨率进行降低;
若当前时长t内的原视频种类为表演视频,则对接下来T-t时长内原视频流数据的帧率进行降低;
对音频流数据的分析过程为:
提取时长t的音频流数据并标记为待测音频流数据,将所述待测音频流数据按预设帧长进行分帧处理得到若干音频帧并标记为Y1,Y2,...,Yn,n为正整数,采用线性预测编码分析处理后的每一帧音频流数据并提取音频特征,所述音频特征包括短时过零率、LPC预测系数和LPC预测残差幅度谱的偏度和峰度,根据所述音频特征形成特征向量,将所述特征向量带入预设识别支持向量模型,识别所述每一帧音频流数据中是否含有人声,若含有人声则将该音频帧标记为特殊音频帧并标记为Q1,Q2,...,Qm,m为正整数,若m/n大于预设阈值,则判定时长t内的原视频为歌唱视频,若m/n小于预设阈值,则判定时长t内的原视频为表演视频。
2.根据权利要求1所述的一种基于演唱场景的实现方法,其特征在于,若网络速率均值V1大于码率,则保持接下来T-t时长内所述原视频流数据的码率,并对下一T时长内的原视频流数据的码率进行增大。
3.根据权利要求1所述的一种基于演唱场景的实现方法,其特征在于,具体压缩调整过程为:
计算压缩后的视频流数据码率与原视频流数据码率的比值,并标记为压缩比值,若当前时长t内的原视频为表演视频,则根据所述压缩比值对接下来T-t时长内原视频流数据的帧率进行相应压缩,若当前时长t内的原视频为歌唱视频,则根据所述压缩比值对接下来T-t时长内原视频流数据的分辨率进行相应压缩。
4.根据权利要求2所述的一种基于演唱场景的实现方法,其特征在于,增大原视频流数据的码率的过程为:
获取当前网络传输速率Vi和视频流数据的码率Ki,计算网络传输速率均值Vi与视频流数据的码率Ki的差值并标记为P,则将原视频流数据的码率增加为Ki+P。
5.一种基于演唱场景的实现系统,其特征在于,包括:
数据获取模块,用于获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据;所述参数包括码率、帧率和分辨率;
数据处理模块,用于设置缓存区,缓存区预存时长为T的原视频流数据,播放当前缓存区的视频流,并继续向缓存区内传输视频,计算时长t内,传输视频的网络速率均值并标记为V1;所述时长t小于预存时长T;
结果生成模块,用于判断是否对当前视频码率进行修正,若网络速率均值V1小于码率,对接下来T-t时长内所述原视频流数据的码率进行压缩,预设网络余量,将压缩后码率的值设置为当前网络速率均值与所设网络余量的差值;
参数调整模块,用于提取时长t的音频流数据并进行分析,识别时长t内的原视频为表演视频或歌唱视频,并根据当前时长t内的原视频的种类,分别对接下来T-t时长内原视频数据的帧率和分辨率进行调整;
调整的过程为:
若当前时长t内的原视频种类为歌唱视频,则对接下来T-t时长内原视频流数据的分辨率进行降低;
若当前时长t内的原视频种类为表演视频,则对接下来T-t时长内原视频流数据的帧率进行降低;
对音频流数据的分析过程为:
提取时长t的音频流数据并标记为待测音频流数据,将所述待测音频流数据按预设帧长进行分帧处理得到若干音频帧并标记为Y1,Y2,...,Yn,n为正整数,采用线性预测编码分析处理后的每一帧音频流数据并提取音频特征,所述音频特征包括短时过零率、LPC预测系数和LPC预测残差幅度谱的偏度和峰度,根据所述音频特征形成特征向量,将所述特征向量带入预设识别支持向量模型,识别所述每一帧音频流数据中是否含有人声,若含有人声则将该音频帧标记为特殊音频帧并标记为Q1,Q2,...,Qm,m为正整数,若m/n大于预设阈值,则判定时长T内的原视频为歌唱视频,若m/n小于预设阈值,则判定时长T内的原视频为表演视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311722903.6A CN117440209B (zh) | 2023-12-15 | 2023-12-15 | 一种基于演唱场景的实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311722903.6A CN117440209B (zh) | 2023-12-15 | 2023-12-15 | 一种基于演唱场景的实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117440209A CN117440209A (zh) | 2024-01-23 |
CN117440209B true CN117440209B (zh) | 2024-03-01 |
Family
ID=89551785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311722903.6A Active CN117440209B (zh) | 2023-12-15 | 2023-12-15 | 一种基于演唱场景的实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117440209B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000244929A (ja) * | 1999-02-22 | 2000-09-08 | Toshiba Corp | 動画像再符号化装置 |
JP2004274184A (ja) * | 2003-03-05 | 2004-09-30 | Ntt Docomo Inc | 通信システム、無線通信装置、通信装置及び通信方法 |
CN105025351A (zh) * | 2014-04-30 | 2015-11-04 | 深圳Tcl新技术有限公司 | 流媒体播放器缓冲的方法及装置 |
CN105744299A (zh) * | 2014-12-08 | 2016-07-06 | 深圳Tcl数字技术有限公司 | 动态码率切换方法、服务器及系统 |
WO2018178748A1 (en) * | 2017-03-31 | 2018-10-04 | Dvr Llc | Terminal-to-mobile-device system, where a terminal is controlled through a mobile device, and terminal remote control method |
WO2018177165A1 (zh) * | 2017-03-30 | 2018-10-04 | 上海七牛信息技术有限公司 | 一种网络推流质量的优化方法及优化系统 |
CN110602519A (zh) * | 2019-09-20 | 2019-12-20 | 网易(杭州)网络有限公司 | 连麦视频处理方法及装置、存储介质、电子设备 |
CN112584083A (zh) * | 2020-11-02 | 2021-03-30 | 广州视源电子科技股份有限公司 | 视频播放方法、系统、电子设备和存储介质 |
CN114286132A (zh) * | 2021-12-22 | 2022-04-05 | 天翼视讯传媒有限公司 | 一种无线网络中视频传输容错的方法 |
CN114363553A (zh) * | 2021-12-17 | 2022-04-15 | 上海理想信息产业(集团)有限公司 | 视频会议中动态码流处理方法及装置 |
CN114866814A (zh) * | 2022-06-09 | 2022-08-05 | 上海哔哩哔哩科技有限公司 | 网络带宽分配方法及装置 |
JP2022161245A (ja) * | 2021-04-08 | 2022-10-21 | 株式会社ハート・オーガナイゼーション | 情報処理装置、ライブ配信システム、情報処理方法及びプログラム |
WO2023279978A1 (zh) * | 2021-07-09 | 2023-01-12 | 百果园技术(新加坡)有限公司 | 视频编码方法、装置、设备及存储介质 |
CN116962844A (zh) * | 2023-03-14 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 视频数据的传输控制方法、装置、设备及存储介质 |
-
2023
- 2023-12-15 CN CN202311722903.6A patent/CN117440209B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000244929A (ja) * | 1999-02-22 | 2000-09-08 | Toshiba Corp | 動画像再符号化装置 |
JP2004274184A (ja) * | 2003-03-05 | 2004-09-30 | Ntt Docomo Inc | 通信システム、無線通信装置、通信装置及び通信方法 |
CN105025351A (zh) * | 2014-04-30 | 2015-11-04 | 深圳Tcl新技术有限公司 | 流媒体播放器缓冲的方法及装置 |
CN105744299A (zh) * | 2014-12-08 | 2016-07-06 | 深圳Tcl数字技术有限公司 | 动态码率切换方法、服务器及系统 |
WO2018177165A1 (zh) * | 2017-03-30 | 2018-10-04 | 上海七牛信息技术有限公司 | 一种网络推流质量的优化方法及优化系统 |
WO2018178748A1 (en) * | 2017-03-31 | 2018-10-04 | Dvr Llc | Terminal-to-mobile-device system, where a terminal is controlled through a mobile device, and terminal remote control method |
CN110602519A (zh) * | 2019-09-20 | 2019-12-20 | 网易(杭州)网络有限公司 | 连麦视频处理方法及装置、存储介质、电子设备 |
CN112584083A (zh) * | 2020-11-02 | 2021-03-30 | 广州视源电子科技股份有限公司 | 视频播放方法、系统、电子设备和存储介质 |
WO2022088447A1 (zh) * | 2020-11-02 | 2022-05-05 | 广州视源电子科技股份有限公司 | 视频播放方法、系统、电子设备和存储介质 |
JP2022161245A (ja) * | 2021-04-08 | 2022-10-21 | 株式会社ハート・オーガナイゼーション | 情報処理装置、ライブ配信システム、情報処理方法及びプログラム |
WO2023279978A1 (zh) * | 2021-07-09 | 2023-01-12 | 百果园技术(新加坡)有限公司 | 视频编码方法、装置、设备及存储介质 |
CN114363553A (zh) * | 2021-12-17 | 2022-04-15 | 上海理想信息产业(集团)有限公司 | 视频会议中动态码流处理方法及装置 |
CN114286132A (zh) * | 2021-12-22 | 2022-04-05 | 天翼视讯传媒有限公司 | 一种无线网络中视频传输容错的方法 |
CN114866814A (zh) * | 2022-06-09 | 2022-08-05 | 上海哔哩哔哩科技有限公司 | 网络带宽分配方法及装置 |
CN116962844A (zh) * | 2023-03-14 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 视频数据的传输控制方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
封红旗 ; 王和 ; 杨长春 ; 顾寰 ; .基于PANDA算法的视频码率自适应切换算法.计算机工程与设计.2019,(06),全文. * |
王苍灵 ; 李泽平 ; .一种动态自适应HTTP流码率切换算法.计算机与现代化.2017,(04),全文. * |
黄沛杰 ; 朱立华 ; 刘学慧 ; 吴恩华 ; 王传铭 ; .针对实时视觉通信的图像序列自动提炼.电子学报.2009,(S1),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117440209A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11581017B2 (en) | Variable speed playback | |
Chen et al. | From QoS to QoE: A tutorial on video quality assessment | |
Huynh-Thu et al. | Temporal aspect of perceived quality in mobile video broadcasting | |
US20070217505A1 (en) | Adaptive Decoding Of Video Data | |
US10771823B1 (en) | Presentation of composite streams to users | |
CN110139113B (zh) | 视频资源的传输参数分发方法及装置 | |
CN110149555B (zh) | 视频处理方法和视频接收装置 | |
Yuan et al. | Spatial and temporal consistency-aware dynamic adaptive streaming for 360-degree videos | |
US20180077385A1 (en) | Data, multimedia & video transmission updating system | |
CN109792545A (zh) | 观众重要性自适应比特率传送 | |
US11265599B2 (en) | Re-encoding predicted picture frames in live video stream applications | |
US11451858B2 (en) | Method and system of processing information flow and method of displaying comment information | |
Devlic et al. | QoE-aware optimization for video delivery and storage | |
CN114286021A (zh) | 渲染方法、装置、服务器、存储介质及程序产品 | |
CN117440209B (zh) | 一种基于演唱场景的实现方法及系统 | |
CN113271496B (zh) | 一种网络直播中视频平滑播放方法、系统和可读存储介质 | |
Zeng et al. | A new architecture of 8k vr fov video end-to-end technology | |
CN113497932B (zh) | 测量视频传输时延的方法、系统及介质 | |
CN114938461A (zh) | 视频处理方法、装置、设备及可读存储介质 | |
Knoche | Quality of experience in digital mobile multimedia services | |
Zatloukal et al. | Optimized H. 264 compression of sign language video | |
CN110121080A (zh) | 虚拟现实视频传输和下载播放的方法、系统及计算机设备 | |
Nasrabadi | Improving Quality of Experience for HTTP Adaptive Video Streaming: From Legacy to 360° Videos | |
CN117714700A (zh) | 一种视频编码方法、装置、设备、可读存储介质及产品 | |
Taghavi Nasrabadi | Improving Quality of Experience for HTTP Adaptive Video Streaming: From Legacy to 360° Videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |