CN111163338B - 视频清晰度评估模型训练方法、视频推荐方法及相关装置 - Google Patents
视频清晰度评估模型训练方法、视频推荐方法及相关装置 Download PDFInfo
- Publication number
- CN111163338B CN111163338B CN201911380270.9A CN201911380270A CN111163338B CN 111163338 B CN111163338 B CN 111163338B CN 201911380270 A CN201911380270 A CN 201911380270A CN 111163338 B CN111163338 B CN 111163338B
- Authority
- CN
- China
- Prior art keywords
- video
- training
- original
- definition
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 285
- 238000013210 evaluation model Methods 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000002372 labelling Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 28
- 238000013441 quality evaluation Methods 0.000 claims description 24
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims 4
- 238000004364 calculation method Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical group C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明实施例公开了一种视频清晰度评估模型训练方法、视频推荐方法及相关装置,视频清晰度评估模型训练方法包括:获取多个原始视频;基于所述原始视频获得清晰度不同的训练视频对;对所述训练视频对中的视频进行标注,得到所述训练视频对的标签;采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型。本发明实施例基于原始视频生成用于模型训练的训练视频对后,在训练视频对中标注出清晰度较高的原始视频,在人工标注时仅需要确定训练视频对中清晰度更高的原始视频,无需对每个原始视频的清晰度打分,提高了人工标注的效率,节省人工标注训练数据的成本。
Description
技术领域
本发明实施例涉及视频推荐技术领域,尤其涉及一种视频清晰度评估模型训练方法、视频清晰度评估模型训练装置、视频推荐方法、视频推荐装置、设备和存储介质。
背景技术
随着网络技术的发展,如今短视频在人们的生活中无处不在,然而,短视频在拍摄、传输或者存储的过程中清晰度会受到不同程度的损伤,因此,如何评估视频的清晰度一直以来是一个较棘手的问题。
伴随着神经网络的兴起,无参考视频清晰度评估技术得到了长足进步,但是现有基于神经网络的无参考视频清晰度评估方法在训练神经网络时,需要大量的人工标注视频数据,需要对每个视频数据的清晰度进行明确的打分,在神经网络加深、神经网络参数量急剧增加的情况下,需要人工对训练用的视频数据进行大量的标注,非常消耗人力。
发明内容
本发明实施例提供一种视频清晰度评估模型训练方法、视频清晰度评估模型训练装置、视频推荐方法、视频推荐装置、设备和存储介质,以解决现有技术中训练视频清晰度评估模型时需要大量人力标注视频数据的问题。
第一方面,本发明实施例提供了一种视频清晰度评估模型训练方法,包括:
获取多个原始视频;
基于所述原始视频获得清晰度不同的训练视频对;
对所述训练视频对中的视频进行标注,得到所述训练视频对的标签;
采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型。
第二方面,本发明实施例提供了一种视频推荐方法,包括:
获取多个待推荐视频;
将多个待推荐视频输入视频清晰度评估模型中获得每个待推荐视频的清晰度得分;
基于所述清晰度得分从所述多个待推荐视频中确定出目标视频;
将所述目标视频推送至所述用户;
其中,所述视频清晰度评估模型通过本发明任一实施例所述的视频清晰度评估模型训练方法所训练。
第三方面,本发明实施例提供了一种视频清晰度评估模型训练装置,包括:
原始视频获取模块,用于获取多个原始视频;
训练视频对获取模块,用于基于所述原始视频获得清晰度不同的训练视频对;
标签标注模块,用于对所述训练视频对中的视频进行标注,得到所述训练视频对的标签;
模型训练模块,用于采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型。
第四方面,本发明实施例提供了一种视频推荐装置,包括:
待推荐视频获取模块,用于获取多个待推荐视频;
模型预测模块,用于将多个待推荐视频输入视频清晰度评估模型中获得每个待推荐视频的清晰度得分;
目标视频确定模块,用于基于所述清晰度得分从所述多个待推荐视频中确定出目标视频;
视频推送模块,用于将所述目标视频推送至所述用户;
其中,所述视频清晰度评估模型通过本发明任一实施例所述的视频清晰度评估模型训练方法所训练。
第五方面,本发明实施例提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任一实施例所述的视频清晰度评估模型训练方法和/或视频推荐方法。
第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任一实施例所述的视频清晰度评估模型训练方法和/或视频推荐方法。
本发明实施例在获取多个原始视频后,基于原始视频获得清晰度不同的训练视频对,对训练视频对中的视频进行标注得到训练视频对的标签,进而可以采用训练视频对和标签训练模型得到视频清晰度评估模型。本发明实施例中,基于多个原始视频生成用于模型训练的训练视频对后,在对训练视频对中的视频进行标注时,人工标注时仅需要确定训练视频对中清晰度更高的视频来标注训练视频对的标签,无需对每个视频的清晰度打分,提高了人工标注的效率,节省了人工标注训练数据的成本。
附图说明
图1是本发明实施例一提供的一种视频清晰度评估模型训练方法的步骤流程图;
图2是本发明实施例二提供的一种视频清晰度评估模型训练方法的步骤流程图;
图3是本发明实施例三提供的一种视频清晰度评估模型训练方法的步骤流程图;
图4是本发明实施例四提供的一种视频清晰度评估模型训练方法的步骤流程图;
图5是本发明实施例五提供的一种视频推荐方法的步骤流程图;
图6是本发明实施例六提供的一种视频清晰度评估模型训练装置的结构框图;
图7是本发明实施例七提供的一种视频推荐装置的结构框图;
图8是本发明实施例八提供的一种设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
图1为本发明实施例一提供的一种视频清晰度评估模型训练方法的步骤流程图,本发明实施例可适用于训练视频清晰度评估模型的情况,该方法可以由本发明实施的视频清晰度评估模型训练装置来执行,该视频清晰度评估模型训练装置可以由硬件或软件来实现,并集成在本发明实施例所提供的设备中,具体地,如图1所示,本发明实施例的视频清晰度评估模型训练方法可以包括如下步骤:
S101、获取多个原始视频。
在本发明实施例中,原始视频可以是短视频,例如,原始视频可以是从各类直播平台、短视频平台上抓取的短视频,当然,原始视频还可以是各类影片播放平台上的视频,另外,原始视频的格式可以为rm、rmvb、mp4等格式,本发明实施例对原始视频的来源和格式均不加以限制。
S102、基于所述原始视频获得清晰度不同的训练视频对。
训练视频对用于训练视频清晰度评估模型,训练视频对包括清晰度不相同的两个视频,具体到本发明实施例中,可以获取多个原始视频的图像质量评价参数,然后按照图像质量评价参数将多个原始视频分为多个质量档次,从每个质量档次抽取一个原始视频组成一个视频组,该视频组中每个原始视频的图像质量评价参数均不相同,即清晰度不相同,则对于任意一个视频组,该视频组中任意两个原始视频均可组成清晰度不相同的训练视频对。或者对于每个原始视频,对该原始视频进行转码、模糊化等处理得到清晰度低于原始视频的处理后的视频,将该原始视频和处理后的视频组成一个训练视频对。
S103、对所述训练视频对中的视频进行标注,得到所述训练视频对的标签。
本发明实施例中,由于训练视频对中包括两个视频,并且两个视频的清晰度不相同,在人工标注时,可以从训练视频对的两个视频中对清晰度比较高的视频和清晰度低的视频进行标注,可选地,可以对清晰度高的视频标注清晰度高的标签,以及对清晰度低的视频标注清晰度低的标签,从而得到训练视频对的标签,例如,对于训练视频对(A,B),视频A为清晰度高的视频,视频B为清晰度低的视频,则可以对视频A标注标签1,对视频B标注标签-1,得到训练视频对(A,B)的标签为(1,-1)。
可选地,对于从不同质量档次抽取一个原始视频组成的视频组,在从该视频组中任意两个原始视频组成的训练视频对中,可以根据质量档次标注训练视频对中清晰度高和清晰度低的原始视频,而对于由原始视频和原始视频处理后的视频组成的训练视频对,原始视频显然为清晰度高的视频,原始视频处理后的视频为清晰度低的视频,从而使得人工标注时仅需要确定训练视频对中清晰度更高的原始视频,无需对每个原始视频的清晰度打分,提高了人工标注的效率,节省了人工标注训练数据的成本。
S104、采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型。
在本发明实施例中可以将训练视频对以及训练视频对的标签作为训练数据,采用该训练数据来训练模型,其中,模型可以为各种神经网络,训练好的模型即为视频清晰度评估模型,该视频清晰度评估模型可以对待评估的视频进行清晰度评估,例如评估出待评估视频的清晰度得分。
本发明实施例中,基于原始视频生成用于模型训练的训练视频对后,在训练视频对中标注出清晰度较高的原始视频,使得在人工标注时仅需要确定训练视频对中清晰度更高的原始视频,无需对每个原始视频的清晰度打分,提高了人工标注的效率,节省人工标注训练数据的成本。
实施例二
图2为本发明实施例二提供的一种视频清晰度评估模型训练方法的步骤流程图,本发明实施例在前述实施例一的基础上进行优化,具体地,如图2所示,本发明实施例的视频清晰度评估模型训练方法可以包括如下步骤:
S201、获取多个原始视频。
S202、对所述原始视频进行图像处理,得到所述原始视频对应的处理后的视频。
在本发明的可选实施例中,可以对原始视频进行转码处理得到转码后的视频,转码后的视频的清晰度低于原始视频的清晰度。具体地,转码可以为原始视频编码格式的转变,例如,视频的编码格式可以为H264、H265等,当原始视频的编码格式为H264时,可以将原始视频编码为格式为H263的视频得到转码后的转码视频,在本发明实施例中,在转码时,可以设置转码后的转码视频的清晰度低于原始视频的清晰度。
在本发明的另一可选实施例中,还可以对原始视频进行模糊处理得到模糊处理后的视频,使得模糊处理后的视频的清晰度低于原始视频的清晰度。
当然,还可以对原始视频进行重编码等其他图像处理,使得处理后得到的视频的清晰度低于原始视频的清晰度,本发明实施例对原始视频的图像处理方式不加以限制。
S203、采用所述原始视频以及对所述原始视频进行图像处理后得到视频组成一个训练视频对。
例如,对原始视频进行转码得到转码视频后,可以将原始视频以及该原始视频对应的转码视频确定为一个训练视频对,又或者对原始视频进行模糊处理后,可以将原始视频以及模糊处理后的视频组成一个训练视频对,在组成的训练视频对中原始视频的清晰度高于转码视频或者模糊处理化后的视频,本发明实施例基于原始视频以及对该原始视频处理后的视频组成训练视频对,减少了获取原始视频的数量,降低了获得训练数据的难度。
S204、将所述训练视频对中的原始视频标注为清晰度高的视频,所述原始视频处理后的视频标注为清晰度低的视频,得到所述训练视频对的标签。
在本发明实施例中,由于对原始视频处理后得到的视频的清晰度低于原始视频的清晰度,对于每个训练视频对,可以将该训练视频对中的原始视频确定为清晰度较高的视频,可以对训练视频对中的原始视频进行标注清晰度高的标签,对对原始视频处理后得到的视频标注清晰度低的标签,从而得到训练视频对的标签。例如,可以赋予训练视频对中原始视频的标签为1,原始视频处理后得到的视频的标签为0,则(1,0)即为训练视频对的标签,或者直接赋予训练视频对中原始视频的清晰度为10,原始视频处理后得到的清晰度为5,则(10,5)即为训练视频对的标签。本发明实施例基于视频对作为训练数据,标注时仅针对每个训练视频对,并且采用原始视频与处理后的视频进行比较,直接标注原始视频为清晰度高的视频,提高了人工标注的效率,节省了人工标注的成本。
S205、提取所述训练视频对中每个视频的编码信息。
在本发明实施例中,编码信息可以是每个视频的编码时设定的分辨率、码率、比特率等信息,在实际应用中对于训练视频对中的每个视频,可以通过ffmpeg(Fast Forwardmoving pictures expert group)提取每个视频的分辨率、码率、比特率等编码信息。
S206、采用所述训练视频对、所述编码信息以及所述标签训练模型得到视频清晰度评估模型。
具体地,可以初始化视频清晰度评估模型的模型参数,初始化的视频清晰度评估模型可以包括卷积层和全连接层,随机提取训练视频对输入初始视频清晰度评估模型的卷积层中提取视频特征,将视频特征和训练视频对的编码信息输入全连接层中得到视频对中每个视频的清晰度得分,采用清晰度得分和标签计算损失率,如果损失率未满足预设条件,则采用损失率计算梯度;采用梯度调整模型参数,返回随机提取训练视频对输入初始视频清晰度评估模型的卷积层中提取视频特征的步骤,重新对模型进行迭代,直到损失率满足预设条件。
在本发明的一个示例中,可以构建深度学习网络作为模型,例如构造包含J个3D卷积层和K个全连结层,最后通过sigmoid输出视频清晰度得分的网络作为初始化的视频清晰度评估模型,在每轮迭代训练时,将原始视频与转码后的视频(假设训练视频对由原始视频和转码视频组成)构成一个训练视频对传送到卷积层提取视频特征,然后将提取的视频特征和训练视频对的分辨率、码率、bit率整合后传送到全连接层中,分别得到原始视频和转码后的视频在当前模型下的清晰度得分,并基于以下公式计算损失率:
L(x1,x2;θ)=max(0,f(x2;θ)-f(x1;θ)+ε) (1)
上述公式中L(x1,x2;θ)为损失率,x1和x2为训练视频对中的两个视频,f(x2;θ)为在当前模型参数θ下视频x2的清晰度得分,f(x1;θ)为在当前模型参数θ下视频x1的清晰度得分,ε为常数。
如果损失率未满足预设条件,则可以通过以下梯度计算公式计算梯度:
如果损失率未满足预设条件,例如,在损失率下对模型参数θ求得的梯度未收敛或者损失率未达到预设值等,则通过该梯度对模型参数θ进行调整,并返回随机提取训练视频对输入初始视频清晰度评估模型的卷积层中提取视频特征的步骤,继续对调整模型参数后的模型进行迭代直到损失率满足预设条件为止。
当然,在实际应用中还可以通过CNN、RNN等其他神经网络,或者SVM训练模块,在训练模型过程中还可以采用其他损失函数和梯度算法训练得到视频清晰度评估模型,本发明实施例对训练视频清晰度评估模型的方式不加以限制。
本发明实施例对原始视频进行图像处理得到处理后的视频,采用原始视频和处理后的视频组成一个训练视频对,对训练视频对中的原始视频进行标注作为训练视频对的标签,采用训练视频对和标签训练视频清晰度评估模型,在标注时仅针对视频对,并且采用原始视频与处理后的视频进行比较,直接标注原始视频为清晰度较高的视频,无需对每个视频给出具体的清晰度得分,提高了人工标注的效率,节省了人工标注的成本。
进一步地,将训练视频对中视频的分辨率、码率、bit率等编码信息结合神经网络提取的视频特征输入模型的全连接层进行训练,实现了神经网络提取的特征和人工提取的特征结合,实现了采用人工获取到视频的客观的编码信息干预模型训练,训练得到的视频清晰度评估模型的鲁棒性更高。
实施例三
图3为本发明实施例三提供的一种视频清晰度评估模型训练方法的步骤流程图,本发明实施例在前述实施例一的基础上进行优化,具体地,如图3所示,本发明实施例的视频清晰度评估模型训练方法可以包括如下步骤:
S301、获取多个原始视频。
S302、获取所述原始视频的图像质量评价参数。
具体地,可以通过NIQE(Natural image quality evaluator,图像质量评估)算法获得原始视频的图像质量评价参数,NIQE质量评价模型不需要原始图像的主观评价分数,而是在原始图像库中提取图像特征,再利用多元高斯模型进行建模,从而可以得到图像质量评价参数,图像质量评价参数越大,说明原始视频的清晰度越高。
S303、基于所述图像质量评价参数将多个原始视频分为多个质量档次的原始视频。
具体地,可以设置每个质量档次的图像质量评价参数的范围,根据每个原始视频的图像质量评价参数确定每个原始视频所属的质量档次,从而将多个原始视频分类到多个质量档次中,每个质量档次可以包括多个原始视频,例如,可以包括档次1-n共n个质量档次的原始视频,每个质量档次n可以包括m个原始视频,任意两个质量档次的图像质量评价参数的范围不相交,示例性地,档次1的图像质量评价参数范围为15-30,档次2的图像质量评价参数范围为30-55等,以此类推。
S304、从每个质量档次的原始视频中提取各提取一个原始视频得到多个视频组。
示例性地,原始视频共分为档次1-n共n个质量档次,每个质量档次n可以包括m个原始视频,则可以从档次1-n中分别抽取出一个原始视频组成一个视频组,该视频组包括n个原始视频。
S305、从所述视频组中提取任意两个原始视频得到训练视频对。
具体地,视频组中的原始视频来源于不同质量档次的视频,对于每个视频组,可以任意两个原始视频组成一个训练视频对,使得该视频对中一个原始视频的清晰度高于另一个原始视频的清晰度。
S306、基于所述训练视频对中所述原始视频所属的质量档次对清晰度高和清晰度低的原始视频进行标注,得到所述训练视频对的标签。
具体地,对于每个视频组中的原始视频可以附带该原始视频所属的质量档次,则对于一个训练视频对,基于该训练视频对中的两个原始视频所附带的质量档次可以确定清晰度高的原始视频,例如对于训练视频对(A11,A18),A11表达原始视频A11为第一视频组中的原始视频,其来源于第一质量档次,A18表达原始视频A18为第一视频组中的原始视频,其来源于第八质量档次,假设第一质量档次的图像质量评价参数范围为(80-90),第八质量档次的图像质量评价参数范围为(10-20),明显地,原始视频A11为清晰度高的原始视频,为原始视频A11标注清晰度高的标签,原始视频A18为清晰度低的原始视频,为原始视频A18标签清晰度低的标签,从而得到选了视频对(A11,A18)得标签。
S307、提取所述训练视频对中每个视频的编码信息。
具体地,编码信息可以是每个视频的编码时设定的分辨率、码率、比特率等编码信息,在实际应用中对于训练视频对中的每个视频,可以通过ffmpeg(Fast Forward movingpictures expert group)提取每个视频的分辨率、码率、比特率等编码信息。
S308、采用所述训练视频对、所述编码信息以及所述标签训练模型得到视频清晰度评估模型。
在本发明的可选实施例中,可以初始化视频清晰度评估模型的模型参数,初始化的视频清晰度评估模型可以包括卷积层和全连接层,随机提取训练视频对输入初始视频清晰度评估模型的卷积层中提取视频特征,将视频特征和训练视频对的编码信息输入全连接层中得到视频对中每个视频的清晰度得分,采用清晰度得分和标签计算损失率,如果损失率未满足预设条件,则采用损失率计算梯度,采用梯度调整模型参数,返回随机提取训练视频对输入初始视频清晰度评估模型的卷积层中提取视频特征的步骤,重新对模型进行迭代,直到损失率满足预设条件。
具体地详细训练过程可参考S206,在此不再详述。
本发明实施例获取原始视频的图像质量评价参数后,根据图像质量评价参数将多个原始视频分为多个质量档次,从每个质量档次抽取一个原始视频组成一个视频组,在每个视频组中任意抽取两个原始视频组成训练视频对,并能够根据质量档次标注出训练视频对中清晰度高的视频得到标签,通过训练视频对以及标签训练视频清晰度评估模型。由于在标注时仅针对视频对,并且采用原始视频所属的质量档次进行比较确定训练视频对中清晰度高的视频,直接标注出清晰度高的原始视频,无需给出每个原始视频的清晰度得分,提高了人工标注的效率,节省了人工标注的成本。
实施例四
图4为本发明实施例四提供的一种视频清晰度评估模型训练方法的步骤流程图,本发明实施例在前述实施例三的基础上进行优化,具体地,如图4所示,本发明实施例的视频清晰度评估模型训练方法可以包括如下步骤:
S401、获取多个原始视频。
S402、获取所述原始视频的图像质量评价参数;
S403、基于所述图像视频评价参数将多个原始视频分为多个质量档次的原始视频;
S404、从每个质量档次的原始视频中提取各提取一个原始视频得到多个视频组;
S405、从所述视频组中提取任意两个原始视频得到训练视频对。
S406、基于所述训练视频对中所述原始视频所属的质量档次对清晰度高和清晰度低的原始视频进行标注,得到所述训练视频对的标签。
S407、提取所述训练视频对中每个视频的编码信息;
S408、采用所述训练视频对、所述编码信息以及所述标签训练模型得到视频清晰度评估模型。
在本发明实施例中,S401-S408可以参考实施例三中的S301-S308,在此不再详述。
S409、随机提取多个视频组对所述视频清晰度评估模型的模型参数进行调整。
在将多个原始视频分为多个视频组以及基于每个视频组生成训练视频对后,可以随机提取一个视频组中的多个原始视频输入到视频清晰度评估模型中以对视频清晰度评估模型的模型参数进行微调。
在本发明的可选实施例中,可以随机提取视频组输入视频清晰度评估模型中得到视频组中每个原始视频的第一清晰度得分,针对输入至视频清晰度评估模型的视频组,基于从该视频组提取任意两个原始视频得到训练视频对的标签计算每个原始视频的第二清晰度得分,采用每个原始视频的第二清晰度得分和第一清晰度得分计算损失率,在损失率未满足预设条件时,采用损失率对视频清晰度评估模型进行调整,并返回随机提取视频组输入视频清晰度评估模型中得到视频组中每个原始视频的第一清晰度得分的步骤,直到损失率满足预设条件。
其中,训练视频对的标签可以为对训练视频对中清晰度高的原始视频的投票,则可以针对视频组内的每个原始视频,统计该原始视频所获得的投票数,并获取视频组内的总投票数,计算投票数和总投票数的比值作为原始视频的第二清晰度得分。
例如,对于每个视频组所生成的训练视频对,该训练视频对中原始视频被标注为清晰度高的视频时,该原始视频的投票数既为1,如此累加得到该原始视频的投票数,例如,视频组生成的训练视频对包括(A,B)、(A,C)、(A,D)、(B,C)、(B,D)以及(C,D),其中,在(A,B)、(A,C)中原始视频A被标注为清晰度高的视频,则原始视频A的投票数为2,由于每个训练视频对均进行一次投票,总投票数为视频组中所生成的训练视频对的数量,则第一视频组的总投票数为6,由此可以计算原始视频A的第二清晰度得分为2/6=0.33。
在将一个视频组中的原始视频输入视频清晰度评估模型中得到视频组中每个原始视频的第一清晰度得分后,可以通过以下公式计算损失率:
其中,L(y(i),z(i))表示损失率,y(i)为人工标注后计算视频组中原始视频i的第二清晰度得分的集合,z(i)为将视频组输入视频清晰度评估模型中得到视频组中每个原始视频的第一清晰度得分的集合,为基于第二清晰度得分的集合y(i)计算原始视频j在视频组中排在最前(top one)的概率,为基于第一清晰度得分的集合z(i)计算原始视频j在视频组中排在最前(top one)的概率。
可选地,视频组中原始视频j在视频组中排在最前的概率计算公式如下:
上述公式(4)中,sj为原始视频在视频组中的清晰度得分,sk是视频组中原始视频k的清晰度得分,其中k=(1,2,…n),n为视频组中原始视频的个数,通过上述公式(4)可以计算出一个原始视频j在人工标注的第二清晰度得分的集合y(i)下的排在最前的概率或者计算出一个原始视频j在视频清晰度评估模型输出的第一清晰度得分的集合z(i)下的排在最前的概率
在计算得到每轮迭代后的损失率后,可以采用损失率计算梯度,采用梯度微调视频清晰度评估模型的参数,并返回随机提取视频组输入视频清晰度评估模型中得到视频组中每个原始视频的第一清晰度得分的步骤,以对模型重新迭代直到损失率满足预设条件,其中预设条件可以为损失率小于阈值,或者通过损失率计算的梯度为常量。
本发明实施例随机提取多个视频组对视频清晰度评估模型的模型参数进行调整,由于在每个视频组中,基于从该视频组提取任意两个原始视频得到训练视频对的标签计算每个原始视频的第二清晰度得分,采用每个原始视频的第二清晰度得分和视频清晰度评估模型预测的第一清晰度得分计算损失率,在损失率未满足预设条件时,采用损失率对视频清晰度评估模型进行调整,实现了人工干预微调模型训练,提高了视频清晰度评估模型评估视频的清晰度得分的准确度,使得视频清晰度评估模型具有更强的鲁棒性。
S410、随机提取视频组输入所述视频清晰度评估模型中,得到所述视频组中每个原始视频的第三清晰度得分。
本发明实施例中,在微调视频清晰度评估模型的模型参数后,可以随机提取视频组输入视频清晰度评估模型以输出该视频组中每个原始视频的第三清晰度得分,例如可以提取微调模型时未使用过的视频组输入视频清晰度评估模型中。
S411、基于所述视频组中每个原始视频的所述第三清晰度得分和第四清晰度得分计算所述视频清晰度评估模型的保序率。
其中,第四清晰度得分为在视频组中,采用从视频组提取任意两个原始视频得到的训练视频对的标签计算每个原始视频的清晰度得分,第四清晰度得分的具体计算过程与S409中计算第二清晰度得分的过程相同,在此不再详述。
在本发明的一个示例中,可以基于视频组中每个原始视频的第四清晰度得分对原始视频进行排序得到第一排序,基于视频组中每个原始视频的第三清晰度得分对原始视频进行排序得到第二排序,以第一排序为基准,统计出第二排序中排序错误的原始视频的排序出错数量,计算排序出错数量和排序总数量的比值,计算1与该比值的差值作为保序率。
例如,可以以清晰度得分对视频组进行降序排序,假设视频组包含原始视频A、原始视频B、原始视频C、原始视频D共4个视频,假设第一排序为ABCD,第二排序为ACBD,则对A来说没有bad case(排序出错),对B来说C是bad case,对D来说没有bad case,以此类推计算所有的bad case和总的case,即保序率为1-(bad case/all case)。
本发明实施例中,保序率表达了对于若干个视频,将该若干个视频输入视频清晰度评估模型后得到若干个视频的清晰度得分,按照该清晰度得分进行排序的准确率,该保序率反映了视频清晰度评估模型的泛化精度。
S412、判断所述保序率是否大于预设阈值。
在计算得到保序率之后,可以判断该保序率是否大于预设阈值,若是,则说明训练得到的视频清晰度评估模型预测清晰度得分的准确度高,则执行S413,结束模型训练,若否,则返回S409继续对视频清晰度评估模型进行微调,直到保序率大于预设阈值。
本发明实施例获取原始视频的图像质量评价参数后,根据图像质量评价参数将多个原始视频分为多个质量档次,从每个质量档次抽取一个原始视频组成一个视频组,在每个视频组中,任意抽取两个原始视频组成训练视频对,并能够根据质量档次标注出训练视频对中清晰度高的视频得到标签,通过训练视频对以及标签训练视频清晰度评估模型。由于在标注时仅针对视频对,并且采用原始视频所属的质量档次进行比较确定训练视频对中清晰度高的视频,直接标注清晰度高的原始视频,提高了人工标注的效率,节省了人工标注的成本。
进一步地,随机提取视频组输入至视频清晰度评估模型中得到视频组中每个原始视频的第一清晰度得分,针对输入至视频清晰度评估模型的视频组,基于从该视频组提取任意两个原始视频得到训练视频对的标签计算每个原始视频的第二清晰度得分,采用每个原始视频的第二清晰度得分和第一清晰度得分计算损失率,在损失率未满足预设条件时,采用损失率对视频清晰度评估模型进行调整,实现了人工干预模型训练,提高了视频清晰度评估模型评估视频的清晰度得分的准确度,使得视频清晰度评估模型具有更强的鲁棒性。
更进一步地,随机提取视频组输入所述视频清晰度评估模型中得到视频组中每个原始视频的第三清晰度得分,基于视频组中每个原始视频的第三清晰度得分和第四清晰度得分计算视频清晰度评估模型的保序率,在保序率小于预设阈值时继续随机提取视频组对视频清晰度评估模型进行调整,通过保序率验证训练得到的视频清晰度评估模型,提高了视频清晰度评估模型的鲁棒性和泛化精度。
实施例五
图5为本发明实施例五提供的一种视频推荐方法的步骤流程图,本发明实施例可适用于向用户推荐视频的情况,该方法可以由本发明实施的视频推荐装置来执行,该视频推荐装置可以由硬件或软件来实现,并集成在本发明实施例所提供的设备中,具体地,如图5所示,本发明实施例的视频推荐方法可以包括如下步骤:
S501、获取多个待推荐视频。
本发明实施例可以在检测到视频推荐时获取多个待推荐视频,其中,视频推荐事件可以为预设事件,例如,预设事件可以为检测到用户登录直播平台或者短视频平台、检测到用户浏览视频列表、检测到用户输入关键词搜索视频、当前时间为预设时间等。当检测到视频推荐事件时,可以获取多个待推荐视频,例如,检测到用户登录事件时,可以基于用户的历史播放视频,获取与历史播放视频相似的多个视频,又或者基于用户输入的搜索关键字召回多个视频,本发明实施例对获取多个待推荐视频的触发事件以及如何获取多个待推荐视频不加以限制。
S502、将多个待推荐视频输入视频清晰度评估模型中获得每个待推荐视频的清晰度得分。
其中,本发明实施例的视频清晰度评估模型可以通过实施例一到实施例四任一实施例所提供的视频清晰度评估模型训练方法所训练,当将多个待推荐视频输入视频清晰度评估模型后,可以获得多个待推荐视频的清晰度得分。
S503、基于所述清晰度得分从所述多个待推荐视频中确定出目标视频。
在本发明的可选实施例中,可以按照多个待推荐视频的清晰度得分对多个待推荐视频进行降序排序,并基于待推荐用户的网络质量确定出一定排序范围的视频作为目标视频,例如,待推荐用户的网络质量良好,可以将排序在前的N个视频确定为目标视频,否则确定排序比较靠后的视频作为目标视频。可具体地,还可以根据清晰度得分将多个待推荐视频划分到不同的档次中,每个档次关联相应的网络质量参数,以根据待推荐用户的网络质量参数选择相应档次中的若干视频作为目标视频。当然,本领域技术人员还可以根据实际业务场景选择确定目标视频的方式,例如,对于标注低质量视频业务,可以将排序在后的或者清晰度得分低于预设阈值的多个视频确定为目标视频以对目标视频标注低标标识,本发明实施例对确定目标视频的方式不加以限制。
S504、将所述目标视频推送至用户。
具体地,可以将目标视频推送至用户所使用的客户端,以在客户端展示目标视频的标题、缩略图等,使得用户可以浏览目标视频。
本发明实施例获取多个待推荐视频后,将多个待推荐视频输入视频清晰度评估模型中获得每个待推荐视频的清晰度得分,并基于清晰度得分从多个待推荐视频中确定出目标视频,将目标视频推送给用户,由于采用视频清晰度评估模型评估待推荐视频的清晰度得分,避免了人工对视频的清晰度打分受主观性影响的问题,为视频清晰度打分建立了统一的打分标准,得到的清晰度得分客观准确,提高了视频推荐的精确度。
进一步地,本发明实施例的视频清晰度评估模型在训练时,基于原始视频生成用于模型训练的训练视频对后,在每个训练视频对中标注出清晰度较高的原始视频,人工标注时仅需要确定训练视频对中清晰度更高的原始视频,无需对每个原始视频的清晰度打分,提高了人工标注的效率,节省了人工标注训练数据的成本,能够获得大量训练数据来有效地训练视频清晰度评估模型,使得视频清晰度评估模型能够广泛应用于视频清晰度评估中。
实施例六
图6是本发明实施例六提供的一种视频清晰度评估模型训练装置的结构框图,如图6所示,本发明实施例的视频清晰度评估模型训练装置具体可以包括如下模块:
原始视频获取模块601,用于获取多个原始视频;
训练视频对获取模块602,用于基于所述原始视频获得清晰度不同的训练视频对;
标签标注模块603,用于对所述训练视频对中的视频进行标注,得到所述训练视频对的标签;
模型训练模块604,用于采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型。
可选地,所述训练视频对获取模块602包括:
图像质量评价参数获取子模块,用于获取所述原始视频的图像质量评价参数;
分档子模块,用于基于所述图像视频评价参数将多个原始视频分为多个质量档次的原始视频;
视频组生成子模块,用于从每个质量档次的原始视频中提取各提取一个原始视频得到多个视频组;
训练视频对提取子模块,用于从所述视频组中提取任意两个原始视频得到训练视频对。
可选地,所述标签标注模块603包括:
第一标注子模块,用于基于所述训练视频对中所述原始视频所属的质量档次对清晰度高和清晰度低的原始视频进行标注,得到所述训练视频对的标签。
可选地,所述训练视频对获取模块602包括:
视频处理子模块,用于对所述原始视频进行图像处理,得到所述原始视频对应的处理后的视频;
训练视频对生成子模块,用于采用所述原始视频以及对所述原始视频进行图像处理后得到的视频组成一个训练视频对。
可选地,所述视频处理子模块包括:
转码单元,用于对所述原始视频进行转码处理得到转码后的视频,所述转码后的视频的清晰度低于所述原始视频的清晰度;或者,
模糊处理单元,用于对所述原始视频进行模糊处理,得到模糊处理后的视频,所述模糊处理后的视频的清晰度低于所述原始视频的清晰度。
可选地,所述标签标注模块603包括:
第一标注子模块,用于将所述训练视频对中的原始视频标注为清晰度高的视频,所述原始视频处理后的视频标注为清晰度低的视频,得到所述训练视频对的标签。
可选地,所述模型训练模块604包括:
编码信息提取子模块,用于提取所述训练视频对中每个视频的编码信息;
模型训练子模块,用于采用所述训练视频对、所述编码信息以及所述标签训练模型得到视频清晰度评估模型。
可选地,所述模型训练子模块包括:
初始化模型单元,用于初始化视频清晰度评估模型的模型参数,所述视频清晰度评估模型包括卷积层和全连接层;
训练视频对输入单元,用于随机提取训练视频对输入所述初始视频清晰度评估模型的卷积层中提取视频特征,以及将所述视频特征和所述训练视频对的编码信息输入全连接层中得到所述视频对中每个视频的清晰度得分;
损失率计算单元,用于采用所述清晰度得分和所述标签计算损失率;
梯度计算单元,用于如果所述损失率未满足预设条件,则采用所述损失率计算梯度;
模型参数调整单元,用于采用所述梯度调整模型参数,返回训练视频对输入单元,直到所述损失率满足预设条件。
可选地,还包括:
调整模块,用于随机提取多个视频组对所述视频清晰度评估模型的模型参数进行调整。
可选地,所述调整模块包括:
第一清晰度得分评估子模块,用于随机提取视频组输入至所述视频清晰度评估模型中,得到所述视频组中每个原始视频的第一清晰度得分;
第二清晰度得分计算子模块,用于针对每个视频组,基于从所述视频组提取任意两个原始视频得到的训练视频对的标签计算每个原始视频的第二清晰度得分;
损失率计算子模块,用于采用所述每个原始视频的第二清晰度得分和所述第一清晰度得分计算损失率;
模型调整子模块,用于在所述损失率未满足预设条件时,采用所述损失率对所述视频清晰度评估模型进行调整,并返回第一清晰度得分评估子模块直到所述损失率满足预设条件。
可选地,所述训练视频对的标签为对所述训练视频对中清晰度高的原始视频的投票,所述第二清晰度得分计算子模块包括:
投票数统计单元,用于针对所述视频组内的每个原始视频,统计所述原始视频所获得的投票数;
总投票数获取单元,用于获取所述视频组内的总投票数;
第二清晰度得分计算单元,用于计算所述投票数和所述总投票数的比值作为所述原始视频的第二清晰度得分。
可选地,还包括:
第三清晰度得分评估模块,用于随机提取视频组输入所述视频清晰度评估模型中,得到所述视频组中每个原始视频的第三清晰度得分;
保序率计算模块,用于基于所述视频组中每个原始视频的所述第三清晰度得分和所述第四清晰度得分计算所述视频清晰度评估模型的保序率,所述第四清晰度得分为在所述视频组中,采用从所述视频组提取任意两个原始视频得到的训练视频对的标签计算每个原始视频的清晰度得分;
保序率判断模块,用于判断所述保序率是否大于预设阈值在所述保序率小于预设阈值时,返回第三清晰度得分评估模块。
可选地,所述保序率计算模块包括:
第一排序子模块,用于基于所述视频组中每个原始视频的第四清晰度得分对所述原始视频进行排序,得到第一排序;
第二排序子模块,用于基于所述视频组中每个原始视频的第三清晰度得分对所述原始视频进行排序,得到第二排序;
排序出错数量统计子模块,用于以所述第一排序为基准,统计出所述第二排序中排序错误的原始视频的排序出错数量;
比值计算子模块,用于计算所述排序出错数量和排序总数量的比值;
保序率计算子模块,用于计算1与所述比值的差值作为保序率。
本发明实施例所提供的视频清晰度评估模型训练装置可执行本发明实施例一到实施例四任一所述视频清晰度评估模型训练方法,具备执行方法相应的功能模块和有益效果。
实施例七
图7是本发明实施例七提供的一种视频推荐装置的结构框图,如图7所示,本发明实施例的视频推荐装置具体可以包括如下模块:
原始视频获取模块,用于获取多个原始视频;
训练视频对获取模块,用于基于所述原始视频获得训练视频对;
标签标注模块,用于对所述训练视频对中清晰度高的原始视频进行标注,得到所述训练视频对的标签;
模型训练模块,用于采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型。
本发明实施例所提供的视频推荐装置可执行本发明实施例五所述视频推荐方法,具备执行方法相应的功能模块和有益效果。
实施例八
参照图8,示出了本发明一个示例中的一种设备的结构示意图。如图8所示,该设备具体可以包括:处理器80、存储器81、具有触摸功能的显示屏82、输入装置83、输出装置84以及通信装置85。该设备中处理器80的数量可以是一个或者多个,图8中以一个处理器80为例。该设备的处理器80、存储器81、显示屏82、输入装置83、输出装置84以及通信装置85可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器81作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例一到实施例四所述的视频清晰度评估模型训练方法对应的程序指令/模块(例如,上述实施例五的视频清晰度评估模型训练装置中的原始视频获取模块501、训练视频对获取模块502、标签标注模块503和模型训练模块504),或如本发明实施例五所述的视频推荐方法对应的程序指令/模块(例如,上述实施例六的视频推荐装置中的待推荐视频获取模块601、模型预测模块602、目标视频确定模块603和视频推送模块604)。存储器81可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器81可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器80可进一步包括相对于处理器80远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示屏82为具有触摸功能的显示屏82,其可以是电容屏、电磁屏或者红外屏。一般而言,显示屏82用于根据处理器80的指示显示数据,还用于接收作用于显示屏82的触摸操作,并将相应的信号发送至处理器80或其他装置。可选的,当显示屏82为红外屏时,其还包括红外触摸框,该红外触摸框设置在显示屏82的四周,其还可以用于接收红外信号,并将该红外信号发送至处理器80或者其他设备。
通信装置85,用于与其他设备建立通信连接,其可以是有线通信装置和/或无线通信装置。
输入装置83可用于接收输入的数字或者字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置84可以包括扬声器等音频设备。需要说明的是,输入装置83和输出装置84的具体组成可以根据实际情况设定。
处理器80通过运行存储在存储器81中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述所述的视频清晰度评估模型训练方法和/或视频推荐方法。
具体地,实施例中,处理器80执行存储器81中存储的一个或多个程序时,具体实现本发明实施例提供的视频清晰度评估模型训练方法和/或视频推荐方法。
本发明实施例还提供一种计算机可读存储介质,所述存储介质中的指令由设备的处理器执行时,使得设备能够执行如上述方法实施例所述的视频清晰度评估模型训练方法和/或视频推荐方法。
需要说明的是,对于装置、设备、存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的视频清晰度评估模型训练方法和/或视频推荐方法。
值得注意的是,上述视频清晰度评估模型训练装置和视频推荐装置中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (16)
1.一种视频清晰度评估模型训练方法,其特征在于,包括:
获取多个原始视频;
基于所述原始视频获得清晰度不同的训练视频对;
对所述训练视频对中的视频进行标注,得到所述训练视频对的标签,包括:对所述训练视频对中清晰度更高的原始视频进行人工标注;
采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型;
所述基于所述原始视频获得清晰度不同的训练视频对,包括,对所述原始视频进行图像处理,得到所述原始视频对应的处理后的视频;
其中,对所述原始视频进行转码处理得到转码后的视频,所述转码后的视频的清晰度低于所述原始视频的清晰度;或者,
对所述原始视频进行模糊处理,得到模糊处理后的视频,所述模糊处理后的视频的清晰度低于所述原始视频的清晰度;
采用所述原始视频以及对所述原始视频进行图像处理后得到的视频组成一个训练视频对。
2.根据权利要求1所述的方法,其特征在于,所述基于所述原始视频获得清晰度不同的训练视频对,还包括:
获取所述原始视频的图像质量评价参数;
基于所述图像视频评价参数将多个原始视频分为多个质量档次的原始视频;
从每个质量档次的原始视频中各提取一个原始视频得到多个视频组;
从所述视频组中提取任意两个原始视频得到训练视频对。
3.根据权利要求2所述的方法,其特征在于,所述对所述训练视频对中的视频进行标注,得到所述训练视频对的标签,包括:
基于所述训练视频对中所述原始视频所属的质量档次对清晰度高和清晰度低的原始视频进行标注,得到所述训练视频对的标签。
4.根据权利要求1所述的方法,其特征在于,所述对所述训练视频对中的视频进行标注,得到所述训练视频对的标签包括:
将所述训练视频对中的原始视频标注为清晰度高的视频,所述原始视频处理后的视频标注为清晰度低的视频,得到所述训练视频对的标签。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型,包括:
提取所述训练视频对中每个视频的编码信息;
采用所述训练视频对、所述编码信息以及所述标签训练模型得到视频清晰度评估模型。
6.根据权利要求5所述的方法,其特征在于,所述采用所述训练视频对、所述编码信息以及所述标签训练模型得到视频清晰度评估模型,包括:
初始化视频清晰度评估模型的模型参数,所述视频清晰度评估模型包括卷积层和全连接层;
随机提取训练视频对输入初始视频清晰度评估模型的卷积层中提取视频特征;
将所述视频特征和所述训练视频对的编码信息输入全连接层中得到所述视频对中每个视频的清晰度得分;
采用所述清晰度得分和所述标签计算损失率;
如果所述损失率未满足预设条件,则采用所述损失率计算梯度;
采用所述梯度调整模型参数,返回随机提取训练视频对输入所述初始视频清晰度评估模型的卷积层中提取视频特征的步骤,直到所述损失率满足预设条件。
7.根据权利要求3所述的方法,其特征在于,在采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型之后,还包括:
随机提取多个视频组对所述视频清晰度评估模型的模型参数进行调整。
8.根据权利要求7所述的方法,其特征在于,所述随机提取多个视频组对所述视频清晰度评估模型的模型参数进行调整,包括:
随机提取视频组输入至所述视频清晰度评估模型中,得到所述视频组中每个原始视频的第一清晰度得分;
针对每个视频组,基于从所述视频组提取任意两个原始视频得到的训练视频对的标签计算每个原始视频的第二清晰度得分;
采用所述每个原始视频的第二清晰度得分和所述第一清晰度得分计算损失率;
在所述损失率未满足预设条件时,采用所述损失率对所述视频清晰度评估模型进行调整,并返回随机提取一个视频组输入至所述视频清晰度评估模型中,得到所述视频组中每个原始视频的第一清晰度得分的步骤,直到所述损失率满足预设条件。
9.根据权利要求8所述的方法,其特征在于,所述训练视频对的标签为对所述训练视频对中清晰度高的原始视频的投票,所述针对每个视频组,基于从所述视频组提取任意两个原始视频得到训练视频对的标签计算每个原始视频的第二清晰度得分,包括:
针对所述视频组内的每个原始视频,统计所述原始视频所获得的投票数;
获取所述视频组内的总投票数;
计算所述投票数和所述总投票数的比值作为所述原始视频的第二清晰度得分。
10.根据权利要求7-9任一项所述的方法,还包括:
随机提取视频组输入所述视频清晰度评估模型中,得到所述视频组中每个原始视频的第三清晰度得分;
基于所述视频组中每个原始视频的所述第三清晰度得分和第四清晰度得分计算所述视频清晰度评估模型的保序率,所述第四清晰度得分为在所述视频组中,采用从所述视频组提取任意两个原始视频得到的训练视频对的标签计算每个原始视频的清晰度得分;
判断所述保序率是否大于预设阈值;
若否,则返回随机提取多个视频组对所述视频清晰度评估模型的模型参数进行调整的步骤。
11.根据权利要求10所述的方法,其特征在于,所述基于所述视频组中每个原始视频的所述第三清晰度得分和所述第四清晰度得分计算所述视频清晰度评估模型的保序率,包括:
基于所述视频组中每个原始视频的第四清晰度得分对所述原始视频进行排序,得到第一排序;
基于所述视频组中每个原始视频的第三清晰度得分对所述原始视频进行排序,得到第二排序;
以所述第一排序为基准,统计出所述第二排序中排序错误的原始视频的排序出错数量;
计算所述排序出错数量和排序总数量的比值;
计算1与所述比值的差值作为保序率。
12.一种视频推荐方法,其特征在于,包括:
获取多个待推荐视频;
将多个待推荐视频输入视频清晰度评估模型中获得每个待推荐视频的清晰度得分;
基于所述清晰度得分从所述多个待推荐视频中确定出目标视频;
将所述目标视频推送给用户;
其中,所述视频清晰度评估模型通过权利要求1-11任一项所述的视频清晰度评估模型训练方法所训练。
13.一种视频清晰度评估模型训练装置,其特征在于,包括:
原始视频获取模块,用于获取多个原始视频;
训练视频对获取模块,用于基于所述原始视频获得清晰度不同的训练视频对;
标签标注模块,用于对所述训练视频对中视频进行标注,得到所述训练视频对的标签,包括:对所述训练视频对中清晰度更高的原始视频进行人工标注;
模型训练模块,用于采用所述训练视频对和所述标签训练模型,得到视频清晰度评估模型;
所述训练视频对获取模块包括:
视频处理子模块,用于对所述原始视频进行图像处理,得到所述原始视频对应的处理后的视频;
训练视频对生成子模块,用于采用所述原始视频以及对所述原始视频进行图像处理后得到的视频组成一个训练视频对;
所述视频处理子模块包括:
转码单元,用于对所述原始视频进行转码处理得到转码后的视频,所述转码后的视频的清晰度低于所述原始视频的清晰度;或者,
模糊处理单元,用于对所述原始视频进行模糊处理,得到模糊处理后的视频,所述模糊处理后的视频的清晰度低于所述原始视频的清晰度。
14.一种视频推荐装置,其特征在于,包括:
待推荐视频获取模块,用于获取多个待推荐视频;
模型预测模块,用于将多个待推荐视频输入视频清晰度评估模型中获得每个待推荐视频的清晰度得分;
目标视频确定模块,用于基于所述清晰度得分从所述多个待推荐视频中确定出目标视频;
视频推送模块,用于将所述目标视频推送给用户;
其中,所述视频清晰度评估模型通过权利要求1-11任一项所述的视频清晰度评估模型训练方法所训练。
15.一种视频推荐设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一项所述的视频清晰度评估模型训练方法和/或如权利要求12所述的视频推荐方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一项所述的视频清晰度评估模型训练方法和/或如权利要求12所述的视频推荐方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380270.9A CN111163338B (zh) | 2019-12-27 | 2019-12-27 | 视频清晰度评估模型训练方法、视频推荐方法及相关装置 |
PCT/CN2020/135998 WO2021129435A1 (zh) | 2019-12-27 | 2020-12-14 | 视频清晰度评估模型训练方法、视频推荐方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380270.9A CN111163338B (zh) | 2019-12-27 | 2019-12-27 | 视频清晰度评估模型训练方法、视频推荐方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111163338A CN111163338A (zh) | 2020-05-15 |
CN111163338B true CN111163338B (zh) | 2022-08-12 |
Family
ID=70558712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911380270.9A Active CN111163338B (zh) | 2019-12-27 | 2019-12-27 | 视频清晰度评估模型训练方法、视频推荐方法及相关装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111163338B (zh) |
WO (1) | WO2021129435A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111163338B (zh) * | 2019-12-27 | 2022-08-12 | 广州市百果园网络科技有限公司 | 视频清晰度评估模型训练方法、视频推荐方法及相关装置 |
CN111597361B (zh) * | 2020-05-19 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 多媒体数据处理方法、装置、存储介质及设备 |
CN111767428A (zh) * | 2020-06-12 | 2020-10-13 | 咪咕文化科技有限公司 | 视频推荐方法、装置、电子设备及存储介质 |
CN111814759B (zh) * | 2020-08-24 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 人脸质量标签值的获取方法、装置、服务器及存储介质 |
CN112367518B (zh) * | 2020-10-30 | 2021-07-13 | 福州大学 | 一种输电线路无人机巡检图像质量评价方法 |
CN113038165B (zh) * | 2021-03-26 | 2023-07-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定编码参数组的方法、设备及存储介质 |
CN113743448B (zh) * | 2021-07-15 | 2024-04-30 | 上海朋熙半导体有限公司 | 模型训练数据获取方法、模型训练方法和装置 |
CN114095722A (zh) * | 2021-10-08 | 2022-02-25 | 钉钉(中国)信息技术有限公司 | 清晰度的确定方法、装置及设备 |
CN116506622B (zh) * | 2023-06-26 | 2023-09-08 | 瀚博半导体(上海)有限公司 | 模型训练方法及视频编码参数优化方法和装置 |
CN116668737B (zh) * | 2023-08-02 | 2023-10-20 | 成都梵辰科技有限公司 | 一种基于深度学习的超高清视频清晰度测试方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7321854B2 (en) * | 2002-09-19 | 2008-01-22 | The Penn State Research Foundation | Prosody based audio/visual co-analysis for co-verbal gesture recognition |
CN104318562B (zh) * | 2014-10-22 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 一种用于确定互联网图像的质量的方法和装置 |
CN107659806B (zh) * | 2017-08-22 | 2019-08-16 | 华为技术有限公司 | 视频质量的评估方法和装置 |
CN107833214A (zh) * | 2017-11-03 | 2018-03-23 | 北京奇虎科技有限公司 | 视频清晰度检测方法、装置、计算设备及计算机存储介质 |
KR102184755B1 (ko) * | 2018-05-31 | 2020-11-30 | 서울대학교 산학협력단 | 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법 |
CN109831680A (zh) * | 2019-03-18 | 2019-05-31 | 北京奇艺世纪科技有限公司 | 一种视频清晰度的评价方法及装置 |
CN110413840B (zh) * | 2019-07-10 | 2022-12-06 | 网易(杭州)网络有限公司 | 一种构造对视频确定标签的神经网络及其训练的方法 |
CN111163338B (zh) * | 2019-12-27 | 2022-08-12 | 广州市百果园网络科技有限公司 | 视频清晰度评估模型训练方法、视频推荐方法及相关装置 |
-
2019
- 2019-12-27 CN CN201911380270.9A patent/CN111163338B/zh active Active
-
2020
- 2020-12-14 WO PCT/CN2020/135998 patent/WO2021129435A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN111163338A (zh) | 2020-05-15 |
WO2021129435A1 (zh) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111163338B (zh) | 视频清晰度评估模型训练方法、视频推荐方法及相关装置 | |
CN109344884B (zh) | 媒体信息分类方法、训练图片分类模型的方法及装置 | |
CN110909205B (zh) | 一种视频封面确定方法、装置、电子设备及可读存储介质 | |
CN108647245B (zh) | 多媒体资源的匹配方法、装置、存储介质及电子装置 | |
CN112312231B (zh) | 一种视频图像编码方法、装置、电子设备及介质 | |
CN110856037B (zh) | 一种视频封面确定方法、装置、电子设备及可读存储介质 | |
US10432985B2 (en) | Method and apparatus for generating quality estimators | |
CN110489574B (zh) | 一种多媒体信息推荐方法、装置和相关设备 | |
US20230353828A1 (en) | Model-based data processing method and apparatus | |
CN107592572B (zh) | 视频推荐方法、装置及其设备 | |
CN112004078B (zh) | 基于生成对抗网络的虚拟现实视频质量评价方法及系统 | |
CN112149733B (zh) | 模型训练、质量确定方法、装置、电子设备及存储介质 | |
CN109685772B (zh) | 一种基于配准失真表示的无参照立体图像质量评估方法 | |
CN110958467A (zh) | 视频质量预测方法和装置及电子设备 | |
CN114339362A (zh) | 视频弹幕匹配方法、装置、计算机设备和存储介质 | |
CN112132766A (zh) | 图像的修复方法和装置、存储介质、电子装置 | |
CN110677701A (zh) | 视频流推荐方法、电子设备和存储介质 | |
CN110807369A (zh) | 基于深度学习和注意力机制的高效短视频内容智能分类方法 | |
CN111652073B (zh) | 视频分类方法、装置、系统、服务器和存储介质 | |
CN110275986B (zh) | 基于协同过滤的视频推荐方法、服务器及计算机存储介质 | |
CN110062237B (zh) | 视频编码的帧内编码模式选择方法和装置 | |
CN115482500A (zh) | 基于置信概率的人群统计方法及装置 | |
CN112950580B (zh) | 质量评价方法、质量评价模型的训练方法和装置 | |
CN110738233B (zh) | 模型训练、数据分类方法、装置、电子设备及存储介质 | |
CN112950580A (zh) | 质量评价方法、质量评价模型的训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231012 Address after: 31a, 15 / F, building 30, maple mall, bangrang Road, Brazil, Singapore Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd. Address before: Floor 4, 5, 6, 13, 14, 15, 16, Jisheng business center, 278 Xingtai Road, Shiqiao street, Panyu District, Guangzhou, Guangdong 510000 Patentee before: GUANGZHOU BAIGUOYUAN NETWORK TECHNOLOGY Co.,Ltd. |