CN113766306B - 检测视频卡顿的方法、装置、计算机设备及存储介质 - Google Patents
检测视频卡顿的方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113766306B CN113766306B CN202110429063.9A CN202110429063A CN113766306B CN 113766306 B CN113766306 B CN 113766306B CN 202110429063 A CN202110429063 A CN 202110429063A CN 113766306 B CN113766306 B CN 113766306B
- Authority
- CN
- China
- Prior art keywords
- video
- sequence
- audio
- similar
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 120
- 238000003860 storage Methods 0.000 title claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims description 63
- 238000013507 mapping Methods 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 27
- 238000000605 extraction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000008439 repair process Effects 0.000 description 8
- 230000000903 blocking effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请提供检测视频卡顿的方法、装置、计算机设备及存储介质,可以应用于云计算领域或人工智能领域,用于解决检测视频卡顿的准确性较低的问题。该方法包括:获取待检测视频的视频帧序列,并获取所述待检测视频的音频帧序列;基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,以及所述音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列;对所述相似视频帧子序列和所述相似音频帧子序列进行匹配,并基于匹配结果,获得所述待检测视频的检测结果。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及检测视频卡顿的方法、装置、计算机设备及存储介质。
背景技术
随着科技的不断发展,越来越多的账号可以在各个流量平台上上传视频以供其他账号观看。然而,在一些情况下,例如,视频格式与流量平台的兼容性问题;又例如,在流量平台上上传视频时,数据传输的网络环境问题等,都容易造成上传到流量平台上的视频存在卡顿问题。
为了在向其他账号展示视频之前,避免视频存在卡顿问题,各个流量平台可以在获得视频时,先对视频进行检测。在确定视频不存在卡顿问题之后,再向其他账号展示视频。
在对视频进行检测的过程中,通常可以通过检测视频的清晰度的方式来对视频的质量进行判断。然而,视频卡顿的情况多种多样,既有可能在视频中模糊的过渡帧上出现卡顿,又有可能在视频中清晰的关键帧上出现卡顿。可见,检测视频的卡顿问题的准确性较低。
发明内容
本申请实施例提供检测视频卡顿的方法、装置、计算机设备及存储介质,用于解决检测视频的卡顿问题的准确性较低的问题。
第一方面,提供一种检测视频卡顿的方法,包括:
获取待检测视频的视频帧序列,并获取所述待检测视频的音频帧序列;
基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,以及所述音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列,其中,所述相似视频帧子序列包括所述视频帧序列中,视频相似度满足预设视频相似条件的多个视频帧,所述相似音频帧子序列包括所述音频帧序列中,音频相似度满足预设音频相似条件的多个音频帧;
对所述相似视频帧子序列和所述相似音频帧子序列进行匹配,并基于匹配结果,获得所述待检测视频的检测结果,其中,所述检测结果用于表征所述待检测视频是否卡顿。
第二方面,提供一种检测视频卡顿的装置,包括:
获取模块:用于获取待检测视频的视频帧序列,并获取所述待检测视频的音频帧序列;
处理模块:用于基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,以及所述音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列,其中,所述相似视频帧子序列包括所述视频帧序列中,视频相似度满足预设视频相似条件的多个视频帧,所述相似音频帧子序列包括所述音频帧序列中,音频相似度满足预设音频相似条件的多个音频帧;
所述处理模块还用于:对所述相似视频帧子序列和所述相似音频帧子序列进行匹配,并基于匹配结果,获得所述待检测视频的检测结果,其中,所述检测结果用于表征所述待检测视频是否卡顿。
可选的,所述获取模块具体用于:
获得待检测视频,并提取所述待检测视频的音频文件;
以预设抽帧时长为周期,对所述待检测视频进行抽帧处理,获得所述视频帧序列,其中,所述视频帧序列包括按照播放时刻排列的各个抽取出的视频帧;
对所述音频文件进行去噪处理,分离所述音频文件中的背景音和噪音,获得去噪后的音频文件;
提取所述去噪后的音频文件中,播放时刻与所述视频帧序列中的各个视频帧分别对应的音频帧,获得所述音频帧序列。
可选的,所述获取模块具体用于:
获得待检测视频,在内存中建立待更新的视频帧序列;
针对所述待检测视频包含的各个视频帧,分别执行以下操作:
基于预设的解码策略,对所述各个视频帧中的至少一个视频帧进行解码处理,获得解码后的至少一个视频帧,其中,所述至少一个视频帧包括多个视频帧时,所述多个视频帧在所述待检测视频中相邻;
基于所述解码后的至少一个视频帧,更新所述待更新的视频帧序列,获得所述视频帧序列。
可选的,所述处理模块还用于:
在所述基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,以及所述音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列之前,基于所述视频帧序列中的各个视频帧各自包含的像素点的颜色强度,确定所述各个视频帧各自的哈希差异值;
分别基于所述视频帧序列中每两个相邻视频帧的哈希差异值之间的距离,确定相应的每两个相邻视频帧之间的视频相似度;
确定所述音频帧序列中各个音频帧的频域信号;
分别基于所述音频帧序列中每两个相邻音频的频域信号之间的信号差异,确定相应的每两个相邻音频之间的音频相似度。
可选的,所述处理模块具体用于:
针对所述视频帧序列中的各个视频帧,分别执行以下操作:
基于所述视频帧序列中各个视频帧的目标视频帧,确定所述目标视频帧中每两个相邻像素点之间颜色强度的颜色差异值,其中,所述目标视频帧为所述各个视频帧中的任意视频帧;
基于预设的映射策略,将获得的各个颜色差异值映射到指定数值区间,获得各个映射后的颜色差异值;
基于获得的各个映射后的颜色差异值,确定所述目标视频帧的哈希差异值。
可选的,所述处理模块具体用于:
针对所述视频帧序列中的各个视频帧,分别执行以下操作:
基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,筛选出与所述视频帧序列中的目标视频帧之间的视频相似度,满足所述视频相似条件的相似视频帧,将所述目标视频帧和筛选出的相似视频帧按照播放时刻排列,获得相似视频帧子序列,其中,所述目标视频帧和筛选出的相似视频帧是所述视频帧序列中的相邻视频帧,所述目标视频帧为所述各个视频帧中的任意视频帧;
针对所述音频帧序列中的各个音频帧,分别执行以下操作:
基于所述音频帧序列中每两个相邻音频帧之间的音频相似度,筛选出与所述音频帧序列中的目标音频帧之间的音频相似度,满足所述音频相似条件的相似音频帧,将所述目标音频帧和筛选出的相似音频帧按照播放时刻排列,获得相似音频帧子序列,其中,所述目标音频帧和筛选出的相似音频帧是所述音频帧序列中的相邻音频帧,所述目标音频帧为所述各个音频帧中的任意音频帧。
可选的,所述处理模块具体用于:
基于所述待检测视频的时长,确定所述相似视频帧子序列对应的相似视频时间段,以及所述相似音频帧子序列对应的相似音频时间段;
确定所述相似视频时间段与所述相似音频时间段之间的重叠时间段;
若所述重叠时间段达到预设时间阈值,则确定所述检测结果为所述待检测视频卡顿。
可选的,所述处理模块具体用于:
基于所述待检测视频包含的视频帧的视频帧数量,建立序列元素位置数量与所述视频帧数量相应的数值元素序列;
基于所述相似视频帧子序列包含的视频帧在所述待检测视频包含的视频帧中的排列位置,将所述相似视频帧子序列包含的视频帧在所述数值元素序列中对应位置上映射为第三数值,将所述数值元素序列中的其他位置映射为第四数值,获得视频数值元素序列;
基于所述相似音频帧子序列包含的音频帧在所述待检测视频包含的音频帧中的排列位置,将所述相似音频帧子序列包含的音频帧在所述数值元素序列中对应位置上映射为第三数值,将所述数值元素序列中的其他位置映射为第四数值,获得音频数值元素序列;
对所述视频数值元素序列与所述音频数值元素序列做异或处理,确定所述视频数值元素序列与所述音频数值元素序列中第三数值的重叠位置;
若所述重叠位置达到预设位置阈值,则确定所述检测结果为所述待检测视频卡顿。
第三方面,提供一种计算机设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面所述的方法。
第四方面,提供一种计算机可读存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的方法。
本申请实施例中,在检测视频卡顿的过程中,基于相似视频帧子序列和相似音频帧子序列的匹配结果,确定待检测视频是否卡顿的检测结果。从视频和音频两个角度来对视频进行检测,丰富了判断视频卡顿的判断依据,相较于单一的判断依据来说,检测视频卡顿的准确性更高。且,本申请实施例中是从观看者的角度来检测视频的卡顿情况,而不是脱离实际的视频播放场景提出的技术方案,进一步提高了检测视频卡顿的准确性。
附图说明
图1为本申请实施例提供的检测视频卡顿的方法的一种应用场景;
图2为本申请实施例提供的检测视频卡顿的方法的一种原理示意图一;
图3为本申请实施例提供的检测视频卡顿的方法的一种流程示意图一;
图4a为本申请实施例提供的检测视频卡顿的方法的一种原理示意图二;
图4b为本申请实施例提供的检测视频卡顿的方法的一种原理示意图三;
图5为本申请实施例提供的检测视频卡顿的方法的一种流程示意图二;
图6为本申请实施例提供的检测视频卡顿的方法的一种效果示意图一;
图7a为本申请实施例提供的检测视频卡顿的方法的一种原理示意图四;
图7b为本申请实施例提供的检测视频卡顿的方法的一种原理示意图五;
图7c为本申请实施例提供的检测视频卡顿的方法的一种原理示意图六;
图8a为本申请实施例提供的检测视频卡顿的方法的一种流程示意图三;
图8b为本申请实施例提供的检测视频卡顿的方法的一种效果示意图二;
图8c为本申请实施例提供的检测视频卡顿的方法的一种效果示意图三;
图9为本申请实施例提供的检测视频卡顿的装置的结构示意图一;
图10为本申请实施例提供的检测视频卡顿的装置的结构示意图二。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
下面对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)视频卡顿:
视频卡顿可以是指视频播放不流畅的现象,可能是由于视频丢帧、格式转换错误或延时等因素造成的。视频卡顿会影响观看者的观看体验,影响视频播放率或推广效果等。
(2)傅里叶变换(fourier transform):
傅里叶变换表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。在不同的研究领域,傅立叶变换具有多种不同的变体形式,如连续傅立叶变换和离散傅立叶变换。傅里叶变换可以将信号从时域转变为频域,逆傅里叶变换可以将频域转换为时域信号,得到频谱。
本申请实施例涉及云技术(Cloud technology)和人工智能(ArtificialIntelligence,AI)。基于云技术中的云计算(cloud computing)和云存储(cloud storage)和语音技术(Speech Technology)等而设计。基于人工智能中的计算机视觉技术(ComputerVision,CV)等而设计。
云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为基础设施即服务(Infrastructure as a Service,IaaS)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS层上可以部署平台即服务(Platform as a Service,PaaS)层,PaaS层之上再部署软件即服务(Software as a Service,SaaS)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
云存储是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID entity,ID)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(Redundant Array of Independent Disk,RAID)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、机器学习以及深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能推荐系统、虚拟助理、智能音箱、智能营销、智能翻译、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
语音技术的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
下面对本申请实施例提供的检测视频卡顿的方法的应用领域进行简单介绍。
随着科技的不断发展,越来越多的账号可以在各个流量平台上上传视频以供其他账号观看。例如,账号可以通过终端设备在短视频平台上上传原创短视频;又例如,账号可以通过平板电脑在新闻平台上上传二次创作视频等。
由于制作视频和上传视频的门槛越来越低,各个流量平台需要加强视频审核力度,避免应用其他账号的观感体验。在一些情况下,例如,视频格式与流量平台的兼容性问题;又例如,在流量平台上上传视频时,数据传输的网络环境问题等,都容易造成上传到流量平台上的视频存在卡顿问题。
为了在向其他账号展示视频之前,避免视频存在卡顿问题,各个流量平台可以在获得视频时,先对视频进行检测。在确定视频不存在卡顿问题之后,再向其他账号展示视频。
在对视频进行检测的过程中,通常可以通过人工观看视频的方式对视频的卡顿情况进行判断,也可以通过检测视频的清晰度的方式来对视频的卡顿情况进行判断。然而,人工检测的方式需要大量的人工成本,且检测效率较低。而视频卡顿的情况多种多样,既有可能在视频中模糊的过渡帧上出现卡顿,又有可能在视频中清晰的关键帧上出现卡顿。可见,检测视频的卡顿问题的准确性较低。
为了解决检测视频卡顿的准确性较低的问题,本申请提出一种检测视频卡顿的方法。该方法在获得待检测视频的视频帧序列和音频帧序列之后,基于视频帧序列中每两个相邻视频帧之间的视频相似度,以及音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列。相似视频帧子序列包括视频帧序列中,视频相似度满足预设视频相似条件的多个视频帧,相似音频帧子序列包括音频帧序列中,音频相似度满足预设音频相似条件的多个音频帧。在获得相似视频帧子序列和相似音频帧子序列之后,对相似视频帧子序列和相似音频帧子序列进行匹配,并基于匹配结果,获得待检测视频的检测结果,检测结果用于表征待检测视频是否卡顿。
本申请实施例中,在检测视频卡顿的过程中,基于相似视频帧子序列和相似音频帧子序列的匹配结果,确定待检测视频是否卡顿的检测结果。从视频和音频两个角度来对视频进行检测,丰富了判断视频卡顿的判断依据,相较于单一的判断依据来说,检测视频卡顿的准确性更高。且,本申请实施例中是从观看者的角度来检测视频的卡顿情况,而不是脱离实际的视频播放场景提出的技术方案,进一步提高了检测视频卡顿的准确性。
下面对本申请提供的检测视频卡顿的方法的应用场景进行说明。
请参考图1,为本申请提供的检测视频卡顿的方法的一种应用场景。该应用场景中包括客户端101和服务端102。客户端101包括第一客户端1011和第二客户端1012。第一客户端1011和服务端102之间可以通信,第二客户端1012和服务端102之间可以通信。通信方式可以是采用有线通信技术进行通信,例如通过连接网线或串口线进行通信;也可以是采用无线通信技术进行通信,例如通过蓝牙或无线保真(wireless fidelity,WIFI)等技术进行通信,具体不做限制。
第一客户端1011泛指可以向服务端102提供待检测视频的设备,第二客户端1012泛指可以展示服务端102发送的不存在卡顿问题的视频的设备,例如,终端设备、终端设备可以访问的第三方应用程序或终端设备可以访问的网页等。终端设备例如是手机、平板电脑或个人计算机等。服务端102泛指可以对待检测视频的卡顿情况进行检测的设备,例如,终端设备或服务器等。客户端101和服务端102均可以采用云计算,以减少本地计算资源的占用;同样也可以采用云存储,以减少本地存储资源的占用。
作为一种实施例,第一客户端1011和第二客户端1012可以是同一个设备,客户端101和服务端102可以是同一个设备,具体不做限制。本申请实施例中,以第一客户端1011、第二客户端1012和服务端102分别为不同的设备为例进行介绍。
下面基于图1,对本申请实施例提供的检测视频卡顿的方法进行具体介绍。
请参考图2,为本申请实施例提供的检测视频卡顿的方法的一种原理示意图。在获得待检测视频的视频帧序列和音频帧序列之后,确定视频帧序列中每两个相邻视频帧之间的视频相似度,以及音频帧序列中每两个相邻音频帧之间的音频相似度。基于视频帧序列中每两个相邻视频帧之间的视频相似度,以及音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列。在获得相似视频帧子序列和相似音频帧子序列之后,对相似视频帧子序列和相似音频帧子序列进行匹配,并基于匹配结果,获得待检测视频是否卡顿的检测结果。
请参考图3,为本申请实施例提供的检测视频卡顿的方法的一种流程示意图,以服务端102为服务器为例进行介绍。
S301,服务器获取待检测视频的视频帧序列和音频帧序列。
账号可以通过第一客户端1011上传视频,第一客户端1011响应于账号上传操作,获得待检测视频。待检测视频可以是账号上传的视频中的一部分,第一客户端1011可以分段获得账号上传的视频,第一客户端1011在获得所有待检测视频之后,获得账号上传的视频。待检测视频可以是账号上传的视频,第一客户端1011在获得待检测视频之后,获得账号上传的视频等。
第一客户端1011可以向服务器发送待检测视频,服务器可以接收第一客户端1011发送的待检测视频。第一客户端1011也可以向服务器发送账号上传的视频,服务器可以接收第一客户端1011发送的账号上传的视频。服务器根据获得的账号上传的视频,可以将获得的账号上传的视频作为待检测视频,也可以将获得的账号上传的视频进行分段处理,依次将每段子视频作为待检测视频。
第一客户端1011可以以预设发送时长为周期,向服务器发送视频片段,视频片段可以是第一客户端1011在预设发送时长内,进行编码处理后的视频片段。服务器接收第一客户端1011发送的视频片段,将视频片段作为待检测视频。从而实现边编码边发送视频数据,不需要等待获得完整的视频数据之后,再进行视频数据的发送,提高了发送视频数据的效率。
S1.1,获取待检测视频的视频帧序列。
服务器在获得待检测视频之后,可以对待检测视频进行预处理,获得视频帧序列。服务器对待检测视频进行预处理,获得视频帧序列的方法有多种,下面以其中的两种为例进行介绍。
方法一:
对待检测视频进行抽帧处理,获得视频帧序列。
服务器在获得待检测视频之后,可以对待检测视频进行抽帧处理。对待检测视频进行抽帧处理的方法有多种,例如,以预设抽帧时长为周期,抽取待检测视频中的视频帧。又例如,根据待检测视频中各个视频帧的类型,抽取待检测视频中的关键视频帧。抽帧处理的方法不作具体限制。
服务器在对待检测视频进行抽帧处理之后,获得各个抽取出的视频帧。服务器可以按照视频帧对应的播放时刻,对各个抽取出的视频帧进行排序。基于排序后的各个抽取出的视频帧,获得待检测视频的视频帧序列。
作为一种实施例,抽帧处理可以采用多媒体处理框架(ffmpeg)进行处理,预设抽帧时长可以是0.2秒抽取一帧,相当于是每秒抽取5帧。
方法二:
基于预设的解码策略,对待检测视频中包含的各个视频帧中的至少一个视频帧进行解码处理,获得解码后的至少一个视频帧。基于解码后的至少一个视频帧,更新待更新的视频帧序列,获得视频帧序列。
服务器获得的待检测视频可以是经过了编码处理后的视频数据,因此,服务器在获得待检测视频之后,可以基于预设的解码策略,先对待检测视频进行解码处理。预设的解码策略可以是与编码处理时所采用的编码策略相对应的解码策略,也可以是预先指定的解码策略等,具体不做限制。
对待检测视频进行解码处理的方法有多种,例如,请参考图4a,服务器可以对待检测视频包含的各个视频帧同时进行解码处理,同时获得解码后的各个视频帧,从而基于获得的解码后的各个视频帧,按照视频帧对应的播放时刻,对各个解码后的视频帧进行排序。基于排序后的各个解码后的视频帧,获得待检测视频的视频帧序列。
又例如,请参考图4b,服务器可以对待检测视频包含的各个视频帧依次进行解码处理,依次获得每个解码后的视频帧。下面以服务器对待检测视频包含的各个视频帧依次进行解码处理为例,针对待检测视频包含的各个视频帧中的至少一个视频帧进行介绍,例如,至少一个视频帧包括按照播放时刻排列的各个视频帧中的排在第1个位置的视频帧到排在第n个位置的视频帧,n小于等于待检测视频包含的视频帧的总数量,其他视频帧的处理过程类似,不再赘述。
服务器在获得待检测视频时,可以在内存中建立一个待更新的视频帧序列,待更新的视频帧序列的长度可以与待检测视频的长度相应,也可以是预设的长度等,具体不做限制。待更新的视频帧序列用于存放解码后的视频帧,在服务器获得解码后的视频帧之后,可以对待更新的视频帧序列进行更新,获得视频帧序列。
服务器采用预设的解码策略,同时对至少一个视频帧进行解码处理,获得解码后的至少一个视频帧。服务器基于获得的解码后的至少一个视频帧,更新待更新的视频帧序列,获得视频帧序列。从而,服务器可以在对待检测视频进行解码的过程中,对待检测视频进行检测,不需要在获得完整的解码后的待检测视频之后,再对待检测视频进行检测,大大提高了检测视频的效率。
作为一种实施例,对待更新的视频帧序列进行更新的方法可以包括多种,例如,服务器对第一个视频帧进行解码处理之后,获得解码后的第一个视频帧。服务器可以将解码后的第一个视频帧存入待更新的视频帧序列。服务器对第二个视频帧进行解码处理之后,获得解码后的第二个视频帧。服务器可以将解码后的第二个视频帧存入待更新的视频帧序列,排在解码后的第一个视频帧之后。直到待更新的视频帧序列中排列的视频帧的数量达到预设数量(例如m),获得已更新的视频帧序列。服务器可以将获得的已更新的视频帧序列存入内存,以便服务器随时针对内存中的数据进行处理。服务器还可以重新建立一个待更新的视频帧序列,并继续对第m+1个视频帧进行解码处理之后,获得解码后的第一个视频帧。服务器可以将解码后的第m+1个视频帧存入新建立的待更新的视频帧序列,继续进行获得视频帧序列的过程。
又例如,服务器对前m个视频帧进行解码处理之后,获得解码后的m个视频帧。如果待更新的视频帧序列中不存在数据,那么服务器可以将解码后的m个视频帧存入待更新的视频帧序列,获得已更新的视频帧序列。如果待更新的视频帧序列中存在数据,那么服务器可以用解码后的m个视频帧替换待更新的视频帧序列中的数据,获得已更新的视频帧序列。
作为一种实施例,上述方法一和方法二可以结合使用来确定视频帧序列,例如,服务器在获得待检测视频时,可以通过依次接收多个数据包的形式获得,服务器可以依次对每个接收的数据包中的视频数据进行抽帧处理。服务器在内存中建立一个待更新的视频帧序列,并依次对每个抽取出的视频帧进行解码处理。服务器每获得至少一个解码后的视频帧之后,基于至少一个解码后的视频帧对待更新的视频帧序列进行更新,获得已更新的视频帧序列。具体过程可以参照前文介绍的方法一和方法二中的内容,在此不再赘述。
又例如,服务器在获得待检测视频时,可以在内存中建立一个待更新的视频帧序列,并依次对每个获得的视频帧进行解码处理。服务器每获得至少一个解码后的视频帧之后,基于至少一个解码后的视频帧对待更新的视频帧序列进行更新,获得已更新的视频帧序列。服务器对已更新的视频帧序列进行抽帧处理,获得抽帧处理后的视频帧序列。具体过程可以参照前文介绍的方法一和方法二中的内容,在此不再赘述。
本申请实施例采用各个处理过程依次处理每个视频帧的方式,代替在一个处理过程对所有视频帧处理完成之后,再进行下一个处理过程的方式,提高了检测视频卡顿的效率。
S1.2,获取待检测视频的音频帧序列。
服务器在获得待检测视频之后,可以提取待检测视频的音频文件。服务器在获得音频文件之后,可以对音频文件进行去噪处理。例如,服务器可以分离音频文件中的背景音和噪声等。服务器可以分离音频文件中的背景音和噪声方法有多种,例如,服务器可以对音频文件的频谱范围进行聚类,提取其中有效音频数据,获得去噪后的音频文件。
服务器可以在获得视频帧序列之后,可以根据视频帧序列中包括的各个视频帧对应的播放时刻,提取去噪后的音频文件中,相应播放时刻对应的音频帧。在获得提取出的音频帧之后,服务器可以按照播放时刻的顺序,排列每个音频帧,获得音频帧序列。服务器也可以根据音频文件包含的各个音频帧,按照播放时刻的顺序,排列每个音频帧,获得音频帧序列。服务器获得音频帧序列的方法不作具体限制。
作为一种实施例,获得视频帧序列和音频帧序列的顺序没有限制,本申请实施例中以先获得视频帧序列再获得音频帧序列的方式为例进行的介绍,也可以先获得音频帧序列再获得视频帧序列,例如,先获得音频帧序列,再根据音频帧序列中包括的各个音频帧对应的播放时刻,提取待检测视频中,相应播放时刻对应的视频帧。在获得提取出的视频帧之后,服务器可以按照播放时刻的顺序,排列每个视频帧,获得视频帧序列。又例如,视频帧序列和音频帧序列可以同步获取。
S302,服务器基于视频帧序列中每两个相邻视频帧之间的视频相似度,以及音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列。
S2.1,服务器基于视频帧序列中每两个相邻视频帧之间的视频相似度,确定相似视频帧子序列。
在服务器确定相似视频帧子序列之前,服务器可以先获得视频帧序列中每两个相邻视频帧之间的视频相似度。服务器确定视频帧序列中每两个相邻视频帧之间的视频相似度的方法有多种,例如,确定每两个相邻视频帧对应位置上的像素点之间像素值差异,基于像素值差异在预设差异范围内的像素点的数量,确定相应的每两个相邻视频帧之间的视频相似度。又例如,基于已训练的视频相似度检测模型,将每两个相邻视频帧作为已训练的视频相似度检测模型的输入,获得已训练的视频相似度检测模型输出的相应的每两个相邻视频帧之间的视频相似度。
又例如,基于视频帧序列中的各个视频帧各自包含的像素点的颜色强度,确定各个视频帧各自的哈希差异值。分别基于视频帧序列中每两个相邻视频帧的哈希差异值之间的距离,确定相应的每两个相邻视频帧之间的视频相似度。下面以该方法为例,针对视频帧序列中的两个相邻视频帧进行介绍,请参考图5,其他两个相邻视频帧之间的视频相似度的确定过程类似,在此不再赘述。
S501,服务器对两个相邻视频帧分别进行灰度处理。
服务器在对两个相邻视频帧进行灰度处理之前,可以先基于预设的缩放策略,对两个相邻视频帧分别进行缩放处理,从而服务器可以针对统一格式的视频帧进行检测,不需要针对不同格式设置不同的检测流程,提高了本申请实施例提供的检测视频卡顿方法的适用性。服务器可以在获得视频帧序列之后对视频帧序列中的各个视频帧分别进行缩放处理,也可以每当服务器获得解码后的视频帧之后,直接在内存中对该解码后的视频帧进行缩放处理,从而可以对视频帧执行边解码边缩放的处理过程,进一步提高了数据处理效率。
预设的缩放策略可以是根据实际使用场景进行预先设置的,例如,服务器可以将视频帧缩放为9*8的尺寸,从而,在进行像素点之间的比较时,可以获得8个比较结果,形成8bit的数据,8bit的数据可以组成一个byte,方便转换为16进制值。
在对两个相邻视频帧分别进行缩放处理之后,服务器可以对两个相邻视频帧分别进行灰度处理,将彩色图像转换为灰度图像。例如,视频帧是RGB格式时,像素点的R=255,G=255,B=255表示该像素点的颜色为白色,像素点的R=0,G=0,B=0表示该像素点的颜色为黑色。RGB的取值越大表示颜色越亮,取值越小表示颜色越暗。服务器可以将视频帧中各个像素点的RGB取值映射为灰度值,从而获得灰度处理后的视频帧。
S502,服务器分别确定两个相邻视频帧中相邻像素点的颜色强度之间的颜色差异值。
在分别对两个相邻视频帧进行灰度处理之后,服务器可以针对灰度处理后的两个相邻视频帧,分别确定相邻像素点的颜色强度之间的颜色差异值。以视频帧均缩放为9*8的尺寸,且均经过了灰度处理为例进行介绍。
针对视频帧的每一行像素点,确定每两个相邻像素点的颜色强度之间的颜色差异值。像素点的颜色强度可以是灰度处理后像素点的灰度值,也可以是像素点的亮度值等,具体不做限制。计算两个相邻像素点的颜色强度之间的颜色差异值的方法可以是,采用两个相邻像素点中,排列在右侧的像素点的颜色强度,减去排列在左侧的像素点的颜色强度,获得颜色差异值;也可以是采用两个相邻像素点中,排列在左侧的像素点的颜色强度,减去排列在右侧的像素点的颜色强度,获得颜色差异值。计算两个相邻像素点的颜色强度之间的颜色差异值的方法不做限制。
S503,服务器将获得的各个颜色差异值映射到指定数值区间,获得各个映射后的颜色差异值。
对于一个视频帧来说,服务器可以针对视频帧的每一行获得8个颜色差异值,请参考图6,为视频帧与视频帧每一行颜色差异值组成的图像。服务器在获得各个颜色差异值之后,可以将获得的各个颜色差异值映射到指定数值区间,获得各个映射后的颜色差异值。
如果两个相邻像素点之间,排列在左侧的像素点的颜色强度大于排列在右侧的像素点的颜色强度,那么可以将两个相邻像素点之间的颜色差异值映射为第一数值;如果两个相邻像素点之间,排列在右侧的像素点的颜色强度大于排列在左侧的像素点的颜色强度,那么可以将两个相邻像素点之间的颜色差异值映射为第二数值。例如,第一数值为1,第二数值为0。
如果两个相邻像素点之间,排列在左侧的像素点的颜色强度大于排列在右侧的像素点的颜色强度,那么可以将两个相邻像素点之间的颜色差异值映射为第一数值区间中的任意值;如果两个相邻像素点之间,排列在右侧的像素点的颜色强度大于排列在左侧的像素点的颜色强度,那么可以将两个相邻像素点之间的颜色差异值映射为第二数值区间中的任意值。
服务器还可以预先存储多个指定数值区间,以及每个指定数值区间对应的映射值,从而,服务器可以根据颜色差异值所属的数值区间,确定颜色差异值对应的映射值。具体映射方法不做限制。
S504,服务器基于获得的各个映射后的颜色差异值,分别确定两个相邻视频帧各自的哈希差异值。
对于一个视频帧来说,服务器可以针对视频帧的每一行获得8个映射后的颜色差异值。服务器可以将8个映射后的颜色差异值作为8bit数据,并将该8bit数据转换为一个十六进制的数值。从而,服务器可以针对视频帧的每一行获得一个十六进制的数值,服务器可以将视频帧每一行的十六进制数值,按照行顺序排列,形成字符串,并将该字符串作为视频帧的哈希差异值。从而,服务器可以获得两个相邻视频帧各自的哈希差异值。
S505,服务器基于两个相邻视频帧的哈希差异值之间的距离,确定两个相邻视频帧之间的视频相似度。
服务器在获得两个相邻视频帧各自的哈希差异值之后,可以计算两个相邻视频帧的哈希差异值之间的距离。计算两个相邻视频帧的哈希差异值之间的距离的方法有多种,例如,计算两个相邻视频帧的哈希差异值之间的汉明距离;又例如,计算两个相邻视频帧的哈希差异值之间的欧式距离;又例如,计算两个相邻视频帧的哈希差异值之间的余弦相似度等。
服务器可以将计算出的两个相邻视频帧的哈希差异值之间的距离,作为两个相邻视频帧之间的视频相似度。
基于前述的方法,服务器可以获得视频帧序列中每两个相邻视频帧之间的视频相似度。服务器在获得每两个相邻视频帧之间的视频相似度之后,可以基于每两个相邻视频帧之间的视频相似度,针对视频帧序列中的每个视频帧,筛选出与该视频帧之间的视频相似度满足视频相似条件的各个相似视频帧。服务器按照播放时刻排列该视频帧和各个相似视频帧,获得相似视频帧子序列。该视频帧和各个相似视频帧是视频帧序列中相邻的视频帧。从而,相似视频帧子序列中的每两个相邻视频帧之间的视频相似度分别满足视频相似条件。服务器基于视频帧序列可以确定出至少一个相似视频帧子序列。
例如,每两个相邻视频帧之间的视频相似度为每两个相邻视频帧之间的汉明距离,那么视频相似条件可以是,如果两个相邻视频帧之间的视频相似度大于5表示两个相邻视频帧不相似,如果两个相邻视频帧之间的视频相似度不大于5表示两个相邻视频帧相似。那么服务器确定视频帧序列中,第一个视频帧与第二个视频帧之间的视频相似度,如果第一个视频帧与第二个视频帧之间的视频相似度为3,那么将第一个视频帧和第二个视频帧确定为相似视频帧。服务器将第一个视频帧和第二个视频帧存入第一相似视频帧子序列。服务器继续确定第二个视频帧与第三个视频帧之间的视频相似度,如果第二个视频帧与第三个视频帧之间的视频相似度为2,那么将第二个视频帧和第三个视频帧确定为相似视频帧。服务器将第三个视频帧存入第一相似视频帧子序列,排在第二个视频帧的后面。服务器继续确定第三个视频帧与第四个视频帧之间的视频相似度,如果第三个视频帧与第四个视频帧之间的视频相似度为7,那么服务器获得第一相似视频帧子序列,不再继续确定第四个视频帧与第五个视频帧之间的视频相似度。服务器在获得第一相似视频帧子序列之后,可以继续确定第五个视频帧与第六个视频帧之间的视频相似度,继续获取第二相似视频帧子序列,直到视频帧序列中的最后一个视频帧。
作为一种实施例,获得相似视频帧子序列的过程可以采用差异哈希(differenthash,dhash)算法对视频帧序列进行计算,获得相似视频帧子序列。
S2.2,服务器基于音频帧序列中每两个相邻音频帧之间的音频相似度,确定相似音频帧子序列。
在服务器确定相似音频帧子序列之前,服务器可以先获得音频帧序列中每两个相邻音频帧之间的音频相似度。服务器确定音频帧序列中每两个相邻音频帧之间的音频相似度的方法有多种,例如,确定每两个相邻音频帧对应位置上的时域波形,基于时域波形之间的波形差异,确定相应的每两个相邻音频帧之间的音频相似度。又例如,基于已训练的音频相似度检测模型,将每两个相邻音频帧作为已训练的音频相似度检测模型的输入,获得已训练的音频相似度检测模型输出的相应的每两个相邻音频帧之间的音频相似度。又例如,服务器可以采用傅里叶变换算法,确定各个音频帧的频域信号。服务器基于音频帧序列中每两个相邻音频域信号之间的信号差异,确定相应的每两个相邻音频帧之间的音频相似度。
在获得音频帧序列中每两个相邻音频帧之间的音频相似度之后,服务器可以基于音频帧序列中每两个相邻音频帧之间的音频相似度,针对音频帧序列中的每个音频帧,在音频帧序列中,筛选出与该音频帧之间的音频相似度,满足音频相似条件的相似音频帧,服务器可以将该音频帧和筛选出的相似音频帧按照播放时刻排列,获得相似音频帧子序列。该音频帧和筛选出的相似音频帧是音频帧序列中相邻的音频帧。服务器基于音频帧序列确定出的相似音频帧子序列可以是一个,也可以是多个。获得相似音频帧子序列的过程与获得相似视频帧子序列的过程类似,在此不做赘述。
S303,服务器对相似视频帧子序列和相似音频帧子序列进行匹配,并基于匹配结果,获得待检测视频的检测结果。
服务器在获得各个相似视频帧子序列和各个相似音频帧子序列之后,可以对各个相似视频帧子序列和各个相似音频帧子序列进行匹配。匹配方法有多种,下面以其中的三种为例进行介绍。针对不同的匹配方法,可以对应不同的获得匹配结果的方法,基于不同的匹配结果可以对应有不同的获得检测结果的方法,下面分别进行介绍。
匹配方法一:
基于相似视频帧子序列对应的相似视频时间段,以及相似音频帧子序列对应的相似音频时间段,确定相似视频时间段与相似音频时间段之间的重叠时间段。
服务器可以确定获得的各个相似视频帧子序列各自对应的相似视频时间段,并确定获得的各个相似音频帧子序列各自对应的相似音频时间段。服务器确定各个相似视频时间段与各个相似音频时间段之间,是否存在时间段上的重叠。例如,请参考图7a,相似视频时间段为第1秒~第13秒,相似音频时间段为第4秒~第15秒,那么服务器可以确定相似视频时间段与相似音频时间段之间存在时间段上的重叠。
如果存在时间段上的重叠,那么服务器确定相似视频时间段与相似音频时间段之间的重叠时间段。服务器判断重叠时间段对应的时长是否达到预设时间阈值,获得匹配结果。如果匹配结果表示达到预设时间阈值,那么服务器确定检测结果为待检测视频存在卡顿情况。如果匹配结果表示未达到预设时间阈值,那么服务器确定检测结果为待检测视频不存在卡顿情况。
服务器可以确定出时间段上存在多处重叠,那么可以针对每组存在重叠的相似视频时间段和相似音频时间段,分别进行判断,并分别获得匹配结果。服务器可以分别获得每处重叠的匹配结果,如果存在一个匹配结果表示达到预设时间阈值,那么服务器确定检测结果为待检测视频存在卡顿情况。如果所有匹配结果均表示未达到预设时间阈值,那么服务器确定检测结果为待检测视频不存在卡顿情况。
作为一种实施例,如果服务器确定待检测视频存在卡顿情况,那么可以针对时间段重叠处进行卡顿修复处理,并对卡顿修复后的待检测视频重新进行卡顿检测,如果卡顿修复后的待检测视频不存在卡顿情况,那么服务器可以确定卡顿修复后的待检测视频通过审核,可以在对应的流量平台上进行播放。如果卡顿修复处理的次数达到预设修复次数之后,卡顿修复后的待检测视频仍然存在卡顿情况,那么服务器可以退回待检测视频,以使对应账号可以重新上传待检测视频。如果服务器确定待检测视频存在卡顿情况,那么可以针对每个时间段重叠处分别进行卡顿修复处理,在此不再赘述。
匹配方法二:
基于相似视频帧子序列映射后的视频数值元素序列,以及相似音频帧子序列映射后的音频数值元素序列,确定视频数值元素序列与音频数值元素序列之间的重叠位置。
服务器基于待检测视频包含的视频帧的视频帧数量,建立序列元素位置数量与视频帧数量相应的数值元素序列。服务器基于相似视频帧子序列包含的视频帧在待检测视频包含的视频帧中的排列位置,将相似视频帧子序列包含的视频帧在数值元素序列中对应位置上映射为第三数值,将数值元素序列中的其他位置映射为第四数值,获得视频数值元素序列。服务器基于相似音频帧子序列包含的音频帧在待检测视频包含的音频帧中的排列位置,将相似音频帧子序列包含的音频帧在数值元素序列中对应位置上映射为第三数值,将数值元素序列中的其他位置映射为第四数值,获得音频数值元素序列。服务器可以基于视频数值元素序列中各个第三数值所在位置,对视频数值元素序列与音频数值元素序列中的对应位置做异或处理,确定视频数值元素序列与音频数值元素序列中第三数值的重叠位置;服务器也可以基于音频数值元素序列中各个第三数值所在位置,对视频数值元素序列与音频数值元素序列中的对应位置做异或处理,确定视频数值元素序列与音频数值元素序列中第三数值的重叠位置。
例如,视频数值元素序列为0111100110000,音频数值元素序列为0111111110000。服务器可以基于视频数值元素序列中各个“1”所在的位置,分别与音频数值元素序列中的对应位置做异或处理,以第二个位置为例,视频数值元素序列中第二个位置为“1”,音频数值元素序列中第二个位置为“1”,那么可以获得第二个位置的异或结果为“1”,即表示第二个位置是一个重叠位置。
对数值元素序列进行的异或处理的过程,由于是字符之间的简单运算,因此异或处理的过程较为简单快捷,占用的计算资源较少,大大提升了检测视频卡顿的效率,节约了不必要的资源占用。
服务器可以判断重叠位置的数量是否达到预设位置阈值,获得匹配结果。其中的重叠位置的数量为连续的重叠位置的数量。服务器可以判断重叠位置的数量与序列元素位置数量之间的比值是否达到预设位置阈值,获得匹配结果。服务器也可以判断重叠位置是否包括指定位置,获得匹配结果。如果匹配结果表示重叠位置的数量达到预设位置阈值,那么确定检测结果为待检测视频卡顿。如果匹配结果为重叠位置未达到预设位置阈值,那么确定检测结果为待检测视频不卡顿。如果匹配结果表示重叠位置的数量与序列元素位置数量之间的比值达到预设位置阈值,表示视频和音频同时静止的时间在整个待检测视频中占比较大,那么确定检测结果为待检测视频卡顿。如果匹配结果为重叠位置未达到预设位置阈值,那么确定检测结果为待检测视频不卡顿。
例如,请参考图7b,视频数值元素序列为0111100110000,音频数值元素序列为0111111110000,那么第一重叠位置为第二个序列元素位置到第四个序列元素位置,第二重叠位置为第七个序列元素位置到第八个序列元素位置。如果预设位置阈值为3,那么第一重叠位置达到预设位置阈值,即待检测视频存在卡顿。
如果匹配结果表示重叠位置包括指定位置,那么确定检测结果为待检测视频卡顿。如果匹配结果为重叠位置不包括指定位置,那么确定检测结果为待检测视频不卡顿。
对卡顿处进行修复的过程与匹配方法一中介绍的过程类似,在此不再赘述。服务器确定视频数值元素序列与音频数值元素序列中第一数值的重叠位置时,重叠位置可以包括多处连续的重叠位置。那么可以针对没处重叠位置进行判断,在此不再赘述。
匹配方法三:
基于相似视频帧子序列对应的相似视频时间段,以及相似音频帧子序列对应的相似音频时间段,确定存在时间段重叠的相似视频时间段对应的视频统计时长,以及相似音频时间段对应的音频统计时长。
服务器采用匹配方法一中介绍的方法,获得了相似视频帧子序列对应的相似视频时间段,以及相似音频帧子序列对应的相似音频时间段,并确定了存在时间段上重叠的每组相似视频帧子序列和相似音频帧子序列之后,服务器可以针对每组相似视频帧子序列和相似音频帧子序列,统计相似视频帧子序列对应的视频统计时长,以及相似音频时间段对应的音频统计时长。如果视频统计时长达到预设视频时长阈值,且音频统计时长达到预设音频时长阈值,那么,服务器确定待检测视频存在卡顿问题,否则,确定待检测视频不存在卡顿问题。例如,请参考图7c,相似视频时间段为第1秒~第13秒,视频统计时长为12秒,相似音频时间段为第4秒~第15秒,音频统计时长为11秒。如果预设视频时长阈值为8秒,预设音频时长阈值为10秒,那么服务器可以确定视频统计时长达到了预设视频时长阈值,音频统计时长达到了预设音频时长阈值,即待检测视频存在卡顿问题。对卡顿处进行修复的过程与匹配方法一中介绍的过程类似,在此不再赘述。
服务器在针对不存在卡顿问题的视频,可以在流量平台上进行展示,从而第二客户端1012可以在浏览流量平台上展示的视频时,点击任意视频进行观看,避免了视频播放卡顿对观看账号造成的影响。
通过匹配相似视频帧子序列和相似音频帧子序列的方法,可以从视频和音频两个角度获得待检测视频的综合特征,相较于其他获得待检测视频的综合特征的方法来说,本申请实施例提供的匹配方法仅是数值上的匹配,计算效率较高,大大提高了检测视频卡顿的效率。
下面请参考图8a,对本申请实施例提供的检测视频卡顿的方法进行示例介绍。
S801,服务器获得待检测视频;
S802,服务器获取待检测视频的视频帧序列和音频帧序列;
S803,服务器基于视频帧序列中的各个视频帧各自包含的像素点的颜色强度,确定各个视频帧各自的哈希差异值;
S804,服务器分别基于视频帧序列中每两个相邻视频帧的哈希差异值之间的距离,确定相应的每两个相邻视频帧之间的视频相似度;
S805,服务器采用傅里叶变换算法,确定音频帧序列中各个音频帧的频域信号;
S806,服务器分别基于音频帧序列中每两个相邻音频的频域信号之间的信号差异,确定相应的每两个相邻音频之间的音频相似度;
S807,服务器筛选出与目标视频帧之间的视频相似度,满足视频相似条件的相似视频帧,将目标视频帧和筛选出的相似视频帧按照播放时刻排列,获得相似视频帧子序列,请参考图8b,第一个视频帧到第五个视频帧之间的各视频帧互为相似视频帧,那么相似视频帧子序列包括第一个视频帧到第五个视频帧;
S808,服务器筛选出与目标音频帧之间的音频相似度,满足音频相似条件的相似音频帧,将目标音频帧和筛选出的相似音频帧按照播放时刻排列,获得相似音频帧子序列,请参考图8c,第一个音频帧到第七个音频帧之间的各音频帧互为相似音频帧,那么相似音频帧子序列包括第一个音频帧到第七个音频帧;
S809,服务器确定相似视频帧子序列对应的相似视频时间段,与相似音频帧子序列对应的相似音频时间段之间的重叠时间段是否达到预设时间阈值,获得匹配结果,以一个视频帧对应1秒,一个音频帧对应1秒为例,相似视频帧子序列对应的相似视频时间段为5秒,相似音频帧子序列对应的相似音频时间段为7秒,重叠时间段为5秒,如果预设时间阈值为3秒,那么匹配结果为重叠时间段达到预设时间阈值;
S810,服务器基于匹配结果,获得待检测视频的检测结果,如果匹配结果为重叠时间段达到预设时间阈值,那么检测结果为待检测视频存在卡顿。
基于同一发明构思,本申请实施例提供检测视频卡顿的装置,该装置相当于前文论述的服务端102,能够实现前述的检测视频卡顿的方法对应的功能。
请参考图9,该装置包括获取模块901和处理模块902,其中:
获取模块901:用于获取待检测视频的视频帧序列,并获取待检测视频的音频帧序列;
处理模块902:用于基于视频帧序列中每两个相邻视频帧之间的视频相似度,以及音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列,其中,相似视频帧子序列包括视频帧序列中,视频相似度满足预设视频相似条件的多个视频帧,相似音频帧子序列包括音频帧序列中,音频相似度满足预设音频相似条件的多个音频帧;
处理模块902还用于:对相似视频帧子序列和相似音频帧子序列进行匹配,并基于匹配结果,获得待检测视频的检测结果,其中,检测结果用于表征待检测视频是否卡顿。
在一种可能的实施例中,获取模块901具体用于:
获得待检测视频,并提取待检测视频的音频文件;
以预设抽帧时长为周期,对待检测视频进行抽帧处理,获得视频帧序列,其中,视频帧序列包括按照播放时刻排列的各个抽取出的视频帧;
对音频文件进行去噪处理,分离音频文件中的背景音和噪音,获得去噪后的音频文件;
提取去噪后的音频文件中,播放时刻与视频帧序列中的各个视频帧分别对应的音频帧,获得音频帧序列。
在一种可能的实施例中,获取模块901具体用于:
获得待检测视频,在内存中建立待更新的视频帧序列;
针对待检测视频包含的各个视频帧,分别执行以下操作:
基于预设的解码策略,对各个视频帧中的至少一个视频帧进行解码处理,获得解码后的至少一个视频帧,其中,至少一个视频帧包括多个视频帧时,多个视频帧在待检测视频中相邻;
基于解码后的至少一个视频帧,更新待更新的视频帧序列,获得视频帧序列。
在一种可能的实施例中,处理模块902还用于:
在基于视频帧序列中每两个相邻视频帧之间的视频相似度,以及音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列之前,基于视频帧序列中的各个视频帧各自包含的像素点的颜色强度,确定各个视频帧各自的哈希差异值;
分别基于视频帧序列中每两个相邻视频帧的哈希差异值之间的距离,确定相应的每两个相邻视频帧之间的视频相似度;
确定音频帧序列中各个音频帧的频域信号;
分别基于音频帧序列中每两个相邻音频的频域信号之间的信号差异,确定相应的每两个相邻音频之间的音频相似度。
在一种可能的实施例中,处理模块902具体用于:
针对视频帧序列中的各个视频帧,分别执行以下操作:
基于视频帧序列中各个视频帧的目标视频帧,确定目标视频帧中每两个相邻像素点之间颜色强度的颜色差异值,其中,目标视频帧为各个视频帧中的任意视频帧;
基于预设的映射策略,将获得的各个颜色差异值映射到指定数值区间,获得各个映射后的颜色差异值;
基于获得的各个映射后的颜色差异值,确定目标视频帧的哈希差异值。
在一种可能的实施例中,处理模块902具体用于:
针对视频帧序列中的各个视频帧,分别执行以下操作:
基于视频帧序列中每两个相邻视频帧之间的视频相似度,筛选出与视频帧序列中的目标视频帧之间的视频相似度,满足视频相似条件的相似视频帧,将目标视频帧和筛选出的相似视频帧按照播放时刻排列,获得相似视频帧子序列,其中,目标视频帧和筛选出的相似视频帧是视频帧序列中的相邻视频帧,目标视频帧为各个视频帧中的任意视频帧;
针对音频帧序列中的各个音频帧,分别执行以下操作:
基于音频帧序列中每两个相邻音频帧之间的音频相似度,筛选出与音频帧序列中的目标音频帧之间的音频相似度,满足音频相似条件的相似音频帧,将目标音频帧和筛选出的相似音频帧按照播放时刻排列,获得相似音频帧子序列,其中,目标音频帧和筛选出的相似音频帧是音频帧序列中的相邻音频帧,目标音频帧为各个音频帧中的任意音频帧。
在一种可能的实施例中,处理模块902具体用于:
基于待检测视频的时长,确定相似视频帧子序列对应的相似视频时间段,以及相似音频帧子序列对应的相似音频时间段;
确定相似视频时间段与相似音频时间段之间的重叠时间段;
若重叠时间段达到预设时间阈值,则确定检测结果为待检测视频卡顿。
在一种可能的实施例中,处理模块902具体用于:
基于待检测视频包含的视频帧的视频帧数量,建立序列元素位置数量与视频帧数量相应的数值元素序列;
基于相似视频帧子序列包含的视频帧在待检测视频包含的视频帧中的排列位置,将相似视频帧子序列包含的视频帧在数值元素序列中对应位置上映射为第三数值,将数值元素序列中的其他位置映射为第四数值,获得视频数值元素序列;
基于相似音频帧子序列包含的音频帧在待检测视频包含的音频帧中的排列位置,将相似音频帧子序列包含的音频帧在数值元素序列中对应位置上映射为第三数值,将数值元素序列中的其他位置映射为第四数值,获得音频数值元素序列;
对视频数值元素序列与音频数值元素序列做异或处理,确定视频数值元素序列与音频数值元素序列中第三数值的重叠位置;
若重叠位置达到预设位置阈值,则确定检测结果为待检测视频卡顿。
基于同一发明构思,本申请实施例提供一种计算机设备,下面对该计算机设备1000进行介绍。
请参照图10,上述检测视频卡顿的装置可以运行在计算机设备1000上,检测视频卡顿的程序的当前版本和历史版本以及检测视频卡顿的程序对应的应用软件可以安装在计算机设备1000上,该计算机设备1000包括显示单元1040、处理器1080以及存储器1020,其中,显示单元1040包括显示面板1041,用于显示由用户交互操作界面等。
在一种可能的实施例中,可以采用液晶显示器(Liquid Crystal Display,LCD)或有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。
处理器1080用于读取计算机程序,然后执行计算机程序定义的方法,例如处理器1080读取检测视频卡顿的程序或文件等,从而在该计算机设备1000上运行检测视频卡顿的程序,在显示单元1040上显示对应的界面。处理器1080可以包括一个或多个通用处理器,还可包括一个或多个数字信号处理器(Digital Signal Processor,DSP),用于执行相关操作,以实现本申请实施例所提供的技术方案。
存储器1020一般包括内存和外存,内存可以为随机存储器(RAM),只读存储器(ROM),以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器1020用于存储计算机程序和其他数据,该计算机程序包括各客户端对应的应用程序等,其他数据可包括操作系统或应用程序被运行后产生的数据,该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1020中,处理器1080执行存储其中1020中的程序指令,实现前文图论述的任意的一种检测视频卡顿的方法。
上述显示单元1040用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势,以及产生与计算机设备1000的用户设置以及功能控制有关的信号输入等。具体地,本申请实施例中,该显示单元1040可以包括显示面板1041。显示面板1041例如触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板1041上或在显示面板1041的操作),并根据预先设定的程式驱动相应的连接装置。
在一种可能的实施例中,显示面板1041可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测玩家的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。
其中,显示面板1041可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1040,计算机设备1000还可以包括输入单元1030,输入单元1030可以包括图形输入设备1031和其他输入设备1032,其中其他输入设备可以但不限于包括物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
除以上之外,计算机设备1000还可以包括用于给其他模块供电的电源1090、音频电路1060、近场通信模块1070和RF电路1010。计算机设备1000还可以包括一个或多个传感器1050,例如加速度传感器、光传感器、压力传感器等。音频电路1060具体包括扬声器1061和麦克风1062等,例如计算机设备1000可以通过麦克风1062采集用户的声音,进行相应的操作等。
作为一种实施例,处理器1080的数量可以是一个或多个,处理器1080和存储器1020可以是耦合设置,也可以是相对独立设置。
作为一种实施例,图10中的处理器1080可以用于实现如图9中的获取模块901和处理模块902的功能。
作为一种实施例,图10中的处理器1080可以用于实现前文论述的服务端102对应的功能。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.一种检测视频卡顿的方法,其特征在于,包括:
获取待检测视频的视频帧序列,并获取所述待检测视频的音频帧序列;
基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,以及所述音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列,其中,所述相似视频帧子序列包括所述视频帧序列中,视频相似度满足预设视频相似条件的多个视频帧,所述相似音频帧子序列包括所述音频帧序列中,音频相似度满足预设音频相似条件的多个音频帧;
基于如下任一方式,对所述相似视频帧子序列和所述相似音频帧子序列进行匹配,并基于匹配结果,获得所述待检测视频的检测结果:
基于所述待检测视频的时长,确定所述相似视频帧子序列对应的相似视频时间段,以及所述相似音频帧子序列对应的相似音频时间段;并确定所述相似视频时间段与所述相似音频时间段之间的重叠时间段,若所述重叠时间段达到预设时间阈值,则确定所述待检测视频卡顿;
确定所述相似视频帧子序列映射后的视频数值元素序列,以及所述相似音频帧子序列映射后的音频数值元素序列之间的重叠位置;若所述重叠位置的数量达到预设位置阈值,则确定所述待检测视频卡顿;
基于所述相似视频帧子序列对应的相似视频时间段,以及所述相似音频帧子序列对应的相似音频时间段,确定存在时间段重叠的相似视频时间段对应的视频统计时长,以及相似音频时间段对应的音频统计时长;若所述视频统计时长达到预设视频时长阈值,且所述音频统计时长达到预设音频时长阈值,则确定所述待检测视频卡顿。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测视频的视频帧序列,包括:
获得待检测视频,在内存中建立待更新的视频帧序列;
针对所述待检测视频包含的各个视频帧,分别执行以下操作:
基于预设的解码策略,对所述各个视频帧中的至少一个视频帧进行解码处理,获得解码后的至少一个视频帧,其中,所述至少一个视频帧包括多个视频帧时,所述多个视频帧在所述待检测视频中相邻;
基于所述解码后的至少一个视频帧,更新所述待更新的视频帧序列,获得所述视频帧序列。
3.根据权利要求1所述的方法,其特征在于,在所述基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,以及所述音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列之前,还包括:
基于所述视频帧序列中的各个视频帧各自包含的像素点的颜色强度,确定所述各个视频帧各自的哈希差异值;
分别基于所述视频帧序列中每两个相邻视频帧的哈希差异值之间的距离,确定相应的每两个相邻视频帧之间的视频相似度;
确定所述音频帧序列中各个音频帧的频域信号;
分别基于所述音频帧序列中每两个相邻音频的频域信号之间的信号差异,确定相应的每两个相邻音频之间的音频相似度。
4.根据权利要求3所述的方法,其特征在于,所述基于所述视频帧序列中的各个视频帧各自包含的像素点的颜色强度,确定所述各个视频帧各自的哈希差异值,包括:
针对所述视频帧序列中的各个视频帧,分别执行以下操作:
基于所述视频帧序列中各个视频帧的目标视频帧,确定所述目标视频帧中每两个相邻像素点之间颜色强度的颜色差异值,其中,所述目标视频帧为所述各个视频帧中的任意视频帧;
基于预设的映射策略,将获得的各个颜色差异值映射到指定数值区间,获得各个映射后的颜色差异值;
基于获得的所述各个映射后的颜色差异值,确定所述目标视频帧的哈希差异值。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,以及所述音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列,包括:
针对所述视频帧序列中的各个视频帧,分别执行以下操作:
基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,筛选出与所述视频帧序列中的目标视频帧之间的视频相似度,满足所述视频相似条件的相似视频帧,将所述目标视频帧和筛选出的相似视频帧按照播放时刻排列,获得相似视频帧子序列,其中,所述目标视频帧和筛选出的相似视频帧是所述视频帧序列中的相邻视频帧,所述目标视频帧为所述各个视频帧中的任意视频帧;
针对所述音频帧序列中的各个音频帧,分别执行以下操作:
基于所述音频帧序列中每两个相邻音频帧之间的音频相似度,筛选出与所述音频帧序列中的目标音频帧之间的音频相似度,满足所述音频相似条件的相似音频帧,将所述目标音频帧和筛选出的相似音频帧按照播放时刻排列,获得相似音频帧子序列,其中,所述目标音频帧和筛选出的相似音频帧是所述音频帧序列中的相邻音频帧,所述目标音频帧为所述各个音频帧中的任意音频帧。
6.根据权利要求1~4任一项所述的方法,其特征在于,所述确定所述相似视频帧子序列映射后的视频数值元素序列,以及所述相似音频帧子序列映射后的音频数值元素序列之间的重叠位置,包括:
基于所述待检测视频包含的视频帧的视频帧数量,建立序列元素位置数量与所述视频帧数量相应的数值元素序列;
基于所述相似视频帧子序列包含的视频帧在所述待检测视频包含的视频帧中的排列位置,将所述相似视频帧子序列包含的视频帧在所述数值元素序列中对应位置上映射为第三数值,将所述数值元素序列中的其他位置映射为第四数值,获得视频数值元素序列;
基于所述相似音频帧子序列包含的音频帧在所述待检测视频包含的音频帧中的排列位置,将所述相似音频帧子序列包含的音频帧在所述数值元素序列中对应位置上映射为第三数值,将所述数值元素序列中的其他位置映射为第四数值,获得音频数值元素序列;
对所述视频数值元素序列与所述音频数值元素序列做异或处理,确定所述视频数值元素序列与所述音频数值元素序列中第三数值的重叠位置。
7.一种检测视频卡顿的装置,其特征在于,包括:
获取模块:用于获取待检测视频的视频帧序列,并获取所述待检测视频的音频帧序列;
处理模块:用于基于所述视频帧序列中每两个相邻视频帧之间的视频相似度,以及所述音频帧序列中每两个相邻音频帧之间的音频相似度,分别确定相似视频帧子序列和相似音频帧子序列,其中,所述相似视频帧子序列包括所述视频帧序列中,视频相似度满足预设视频相似条件的多个视频帧,所述相似音频帧子序列包括所述音频帧序列中,音频相似度满足预设音频相似条件的多个音频帧;
所述处理模块还用于:基于如下任一方式,对所述相似视频帧子序列和所述相似音频帧子序列进行匹配,并基于匹配结果,获得所述待检测视频的检测结果:
基于所述待检测视频的时长,确定所述相似视频帧子序列对应的相似视频时间段,以及所述相似音频帧子序列对应的相似音频时间段;并确定所述相似视频时间段与所述相似音频时间段之间的重叠时间段,若所述重叠时间段达到预设时间阈值,则确定所述待检测视频卡顿;
确定所述相似视频帧子序列映射后的视频数值元素序列,以及所述相似音频帧子序列映射后的音频数值元素序列之间的重叠位置;若所述重叠位置的数量达到预设位置阈值,则确定所述待检测视频卡顿;
基于所述相似视频帧子序列对应的相似视频时间段,以及所述相似音频帧子序列对应的相似音频时间段,确定存在时间段重叠的相似视频时间段对应的视频统计时长,以及相似音频时间段对应的音频统计时长;若所述视频统计时长达到预设视频时长阈值,且所述音频统计时长达到预设音频时长阈值,则确定所述待检测视频卡顿。
8.一种计算机设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1~6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110429063.9A CN113766306B (zh) | 2021-04-21 | 2021-04-21 | 检测视频卡顿的方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110429063.9A CN113766306B (zh) | 2021-04-21 | 2021-04-21 | 检测视频卡顿的方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113766306A CN113766306A (zh) | 2021-12-07 |
CN113766306B true CN113766306B (zh) | 2023-11-14 |
Family
ID=78787005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110429063.9A Active CN113766306B (zh) | 2021-04-21 | 2021-04-21 | 检测视频卡顿的方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113766306B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117640988B (zh) * | 2023-12-04 | 2024-09-24 | 书行科技(北京)有限公司 | 一种视频处理方法、装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102176758A (zh) * | 2011-03-07 | 2011-09-07 | 北京文安科技发展有限公司 | 一种视频质量诊断系统及其实现方法 |
WO2018166162A1 (zh) * | 2017-03-14 | 2018-09-20 | 广州视源电子科技股份有限公司 | 一种音视频直播中检测客户端播放状态的系统及方法 |
CN109150399A (zh) * | 2018-08-14 | 2019-01-04 | Oppo广东移动通信有限公司 | 数据传输方法、装置、电子设备及计算机可读介质 |
CN110049373A (zh) * | 2019-04-29 | 2019-07-23 | 宜通世纪科技股份有限公司 | 机顶盒卡顿检测方法、系统及存储介质 |
CN110430425A (zh) * | 2019-07-31 | 2019-11-08 | 北京奇艺世纪科技有限公司 | 一种视频流畅度确定方法、装置、电子设备及介质 |
CN111611973A (zh) * | 2020-06-01 | 2020-09-01 | 广州市百果园信息技术有限公司 | 目标用户识别的方法、装置及存储介质 |
CN112511818A (zh) * | 2020-11-24 | 2021-03-16 | 上海哔哩哔哩科技有限公司 | 视频播放质量检测方法、装置 |
CN112511821A (zh) * | 2021-02-03 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 视频卡顿检测方法、装置和存储介质 |
CN112560449A (zh) * | 2021-02-23 | 2021-03-26 | 北京远鉴信息技术有限公司 | 一种文本质量的检测方法、装置、电子设备及存储介质 |
-
2021
- 2021-04-21 CN CN202110429063.9A patent/CN113766306B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102176758A (zh) * | 2011-03-07 | 2011-09-07 | 北京文安科技发展有限公司 | 一种视频质量诊断系统及其实现方法 |
WO2018166162A1 (zh) * | 2017-03-14 | 2018-09-20 | 广州视源电子科技股份有限公司 | 一种音视频直播中检测客户端播放状态的系统及方法 |
CN109150399A (zh) * | 2018-08-14 | 2019-01-04 | Oppo广东移动通信有限公司 | 数据传输方法、装置、电子设备及计算机可读介质 |
CN110049373A (zh) * | 2019-04-29 | 2019-07-23 | 宜通世纪科技股份有限公司 | 机顶盒卡顿检测方法、系统及存储介质 |
CN110430425A (zh) * | 2019-07-31 | 2019-11-08 | 北京奇艺世纪科技有限公司 | 一种视频流畅度确定方法、装置、电子设备及介质 |
CN111611973A (zh) * | 2020-06-01 | 2020-09-01 | 广州市百果园信息技术有限公司 | 目标用户识别的方法、装置及存储介质 |
CN112511818A (zh) * | 2020-11-24 | 2021-03-16 | 上海哔哩哔哩科技有限公司 | 视频播放质量检测方法、装置 |
CN112511821A (zh) * | 2021-02-03 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 视频卡顿检测方法、装置和存储介质 |
CN112560449A (zh) * | 2021-02-23 | 2021-03-26 | 北京远鉴信息技术有限公司 | 一种文本质量的检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
A Real-Time Suspicious Stay Detection System Based on Face Detection and Tracking in Monitor Videos;Zihan Ren et al.;《2017 10th International Symposium on Computational Intelligence and Design (ISCID)》;全文 * |
利用奥维通5.8G无线数字微波对林火远程视频监控信号传输干扰卡顿拥塞的解决方法;向晓飞 等;《中国科技投资 》(第6期);全文 * |
高清时移卡顿故障信源码流层分析;夏浩;《有线电视技术》(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113766306A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070063B (zh) | 目标对象的动作识别方法、装置和电子设备 | |
CN111027419B (zh) | 一种视频无关内容检测的方法、装置、设备和介质 | |
CN112789650A (zh) | 检测半透明图像水印 | |
CN113395578A (zh) | 一种提取视频主题文本的方法、装置、设备及存储介质 | |
CN104866275B (zh) | 一种用于获取图像信息的方法和装置 | |
US20210382605A1 (en) | Systems and methods for augmented or mixed reality writing | |
EP4106337A1 (en) | Video processing method and apparatus, computer device, and storage medium | |
CN111225236A (zh) | 生成视频封面的方法、装置、电子设备以及计算机可读存储介质 | |
CN113766306B (zh) | 检测视频卡顿的方法、装置、计算机设备及存储介质 | |
CN114567693B (zh) | 视频生成方法、装置和电子设备 | |
CN116611491A (zh) | 目标检测模型的训练方法、装置、电子设备和存储介质 | |
CN106530377B (zh) | 用于操作三维动画角色的方法和装置 | |
CN113840177B (zh) | 直播互动方法、装置、存储介质与电子设备 | |
CN111274447A (zh) | 基于视频的目标表情生成方法、装置、介质、电子设备 | |
AU2013222959A1 (en) | Method and apparatus for processing information of image including a face | |
CN113762056A (zh) | 演唱视频识别方法、装置、设备及存储介质 | |
CN108921138B (zh) | 用于生成信息的方法和装置 | |
CN110636322B (zh) | 多媒体数据的处理方法、装置、智能终端及存储介质 | |
CN108874141B (zh) | 一种体感浏览方法和装置 | |
KR20230038164A (ko) | 신경망 기반의 특징점 학습 장치 및 방법 | |
CN113938739B (zh) | 信息显示方法、装置、电子设备及存储介质 | |
CN110288552A (zh) | 视频美化方法、装置及电子设备 | |
CN114220175B (zh) | 运动模式识别方法及其装置、设备、介质、产品 | |
CN115988262A (zh) | 用于视频处理的方法、装置、设备和介质 | |
JP7266688B2 (ja) | ユーザインタラクション方法、装置、機器および媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |