CN114612830B - 一种花屏图像的识别方法、装置、设备以及存储介质 - Google Patents
一种花屏图像的识别方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN114612830B CN114612830B CN202210248824.5A CN202210248824A CN114612830B CN 114612830 B CN114612830 B CN 114612830B CN 202210248824 A CN202210248824 A CN 202210248824A CN 114612830 B CN114612830 B CN 114612830B
- Authority
- CN
- China
- Prior art keywords
- image
- training
- data
- model
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种花屏图像的识别方法、装置、设备以及存储介质,可应用于地图领域。通过获取目标视频对应的图像序列;将图像序列中的视频图像输入目标网络模型,以得到视频图像对应的花屏置信度,目标网络模型基于标注数据和无标注数据训练所得,无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签;进而根据花屏置信度确定目标视频中的花屏图像。从而实现仅需要少量标注图像以及无标注图像就可以进行模型训练的过程,由于利用了无标注数据的模型预测一致性以及伪标签的生成,进而扩充标注数据集,提高了花屏图像识别的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种花屏图像的识别方法、装置、设备以及存储介质。
背景技术
随着互联网技术的迅速发展,人们对视频内容的要求越来越高。花屏检测即为提高视频质量的一种方式。
一般,对于花屏检测的过程,可以先对输入图像进行手工特征的提取,随后根据提取到的手工特征,训练分类器,从而对当前图片是否是花屏图像进行二分类。
但是,手工特征的泛化性比较差,且对于复杂的场景,可能无法覆盖所有的特征,影响花屏图像识别的准确性。
发明内容
有鉴于此,本申请提供一种花屏图像的识别方法,可以有效提高花屏图像识别的准确性。
本申请第一方面提供一种花屏图像的识别方法,可以应用于终端设备中包含花屏图像的识别功能的系统或程序中,具体包括:
获取目标视频对应的图像序列;
将所述图像序列中的视频图像输入目标网络模型,以得到所述视频图像对应的花屏置信度,所述目标网络模型基于标注数据和无标注数据训练所得,所述无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签,所述第一图像数据包括基于训练图像调整所得的串行的多个第一处理图像,所述第二图像数据包括基于所述训练图像调整所得的第二处理图像,所述第二处理图像对应的调整幅度大于所述第一处理图像对应的调整幅度;
根据所述花屏置信度确定所述目标视频中的花屏图像。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取未标注的所述训练图像;
对所述训练图像执行第一调整操作,以得到第一串行图像;
对所述第一串行图像执行所述第一调整操作,以得到第二串行图像;
将所述第一串行图像所述第二串行图像进行关联,以作为串行的多个所述第一处理图像,所述第一调整操作用于指示近似于所述训练图像的调整方向;
对所述训练图像执行第二调整操作,以得到所述第二处理图像,所述第一调整操作用于指示区别于所述训练图像的调整方向;
将多个所述第一处理图像输入第一模型,以得到第一训练参数;
将所述第二处理图像输入第二模型,以得到第二训练参数,所述第一模型与所述第二模型共享权重参数;
对所述第一训练参数与所述第二训练参数进行加权,以得到目标参数;
基于所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签;
根据配置所述伪标签的所述训练图像和所述标注数据对所述第一模型进行训练,以得到所述目标网络模型。
可选的,在本申请一些可能的实现方式中,所述将多个所述第一处理图像输入第一模型,以得到第一训练参数,包括:
将多个所述第一处理图像输入第一模型,以得到用于指示所述第一处理图像对应的花屏概率的参数序列;
对所述参数序列进行平均操作,以得到所述第一训练参数。
可选的,在本申请一些可能的实现方式中,所述对所述参数序列进行平均操作,以得到所述第一训练参数之后,所述方法还包括:
基于所述参数序列获取所述第一模型对应的一致性损失信息;
基于所述一致性损失信息对所述第一模型的参数进行更新。
可选的,在本申请一些可能的实现方式中,所述基于所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签,包括:
获取所述第一模型采用的独热编码方式所对应的分布信息;
基于所述分布信息确定锐化系数;
根据所述锐化系数对所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签。
可选的,在本申请一些可能的实现方式中,所述根据配置所述伪标签的所述训练图像和所述标注数据对所述第一模型进行训练,以得到所述目标网络模型,包括:
基于所述标注数据获取对应的第一损失信息;
对所述伪标签对应的概率估计的一致性进行解析,以得到第二损失信息;
基于所述伪标签进行监督训练,以获取第三损失信息;
对所述第一损失信息、所述第二损失信息和所述第三损失信息进行加权,以得到目标损失信息;
基于所述目标损失信息对所述第一模型进行训练,以得到所述目标网络模型。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取与所述目标视频相关联的标注数据对应的数据量;
若所述标注数据对应的数据量未达到预设比例,则调用所述目标视频中的视频帧图像;
将所述视频帧图像作为关联无标注数据;
基于所述标注数据和所述关联无标注数据对所述目标网络模型进行训练,所述关联无标注数据配置了基于第三图像数据和第四图像数据确定的伪标签,所述第三图像数据为对所述视频帧图像逐次进行图像调整操作所得的串行的多个第三处理图像,所述第四图像数据包括基于所述视频帧图像调整所得的第四处理图像,所述第四处理图像对应的调整幅度大于所述第三处理图像对应的调整幅度。
本申请第二方面提供一种花屏图像的识别装置,包括:
获取单元,用于获取目标视频对应的图像序列;
输入单元,用于将所述图像序列中的视频图像输入目标网络模型,以得到所述视频图像对应的花屏置信度,所述目标网络模型基于标注数据和无标注数据训练所得,所述无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签,所述第一图像数据为对训练图像逐次进行图像调整操作所得的串行的多个第一处理图像,所述第二图像数据包括基于所述训练图像调整所得的第二处理图像,所述第二处理图像对应的调整幅度大于所述第一处理图像对应的调整幅度;
识别单元,用于根据所述花屏置信度确定所述目标视频中的花屏图像。
可选的,在本申请一些可能的实现方式中,所述识别单元,具体用于获取未标注的所述训练图像;
所述识别单元,具体用于对所述训练图像执行第一调整操作,以得到第一串行图像;
所述识别单元,具体用于对所述第一串行图像执行所述第一调整操作,以得到第二串行图像;
所述识别单元,具体用于将所述第一串行图像所述第二串行图像进行关联,以作为串行的多个所述第一处理图像,所述第一调整操作用于指示近似于所述训练图像的调整方向;
所述识别单元,具体用于对所述训练图像执行第二调整操作,以得到所述第二处理图像,所述第一调整操作用于指示区别于所述训练图像的调整方向;
所述识别单元,具体用于将多个所述第一处理图像输入第一模型,以得到第一训练参数;
所述识别单元,具体用于将所述第二处理图像输入第二模型,以得到第二训练参数,所述第一模型与所述第二模型共享权重参数;
所述识别单元,具体用于对所述第一训练参数与所述第二训练参数进行加权,以得到目标参数;
所述识别单元,具体用于基于所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签;
所述识别单元,具体用于根据配置所述伪标签的所述训练图像和所述标注数据对所述第一模型进行训练,以得到所述目标网络模型。
可选的,在本申请一些可能的实现方式中,所述识别单元,具体用于将多个所述第一处理图像输入第一模型,以得到用于指示所述第一处理图像对应的花屏概率的参数序列;
所述识别单元,具体用于对所述参数序列进行平均操作,以得到所述第一训练参数。
可选的,在本申请一些可能的实现方式中,所述识别单元,具体用于基于所述参数序列获取所述第一模型对应的一致性损失信息;
所述识别单元,具体用于基于所述一致性损失信息对所述第一模型的参数进行更新。
可选的,在本申请一些可能的实现方式中,所述识别单元,具体用于获取所述第一模型采用的独热编码方式所对应的分布信息;
所述识别单元,具体用于基于所述分布信息确定锐化系数;
所述识别单元,具体用于根据所述锐化系数对所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签。
可选的,在本申请一些可能的实现方式中,所述识别单元,具体用于基于所述标注数据获取对应的第一损失信息;
所述识别单元,具体用于对所述伪标签对应的概率估计的一致性进行解析,以得到第二损失信息;
所述识别单元,具体用于基于所述伪标签进行监督训练,以获取第三损失信息;
所述识别单元,具体用于对所述第一损失信息、所述第二损失信息和所述第三损失信息进行加权,以得到目标损失信息;
所述识别单元,具体用于基于所述目标损失信息对所述第一模型进行训练,以得到所述目标网络模型。
可选的,在本申请一些可能的实现方式中,所述识别单元,具体用于获取与所述目标视频相关联的标注数据对应的数据量;
所述识别单元,具体用于若所述标注数据对应的数据量未达到预设比例,则调用所述目标视频中的视频帧图像;
所述识别单元,具体用于将所述视频帧图像作为关联无标注数据;
所述识别单元,具体用于基于所述标注数据和所述关联无标注数据对所述目标网络模型进行训练,所述关联无标注数据配置了基于第三图像数据和第四图像数据确定的伪标签,所述第三图像数据为对所述视频帧图像逐次进行图像调整操作所得的串行的多个第三处理图像,所述第四图像数据包括基于所述视频帧图像调整所得的第四处理图像,所述第四处理图像对应的调整幅度大于所述第三处理图像对应的调整幅度。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的花屏图像的识别方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的花屏图像的识别方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的花屏图像的识别方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取目标视频对应的图像序列;然后将图像序列中的视频图像输入目标网络模型,以得到视频图像对应的花屏置信度,其中,该目标网络模型基于标注数据和无标注数据训练所得,无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签,第一图像数据包括基于训练图像调整所得的串行的多个第一处理图像,第二图像数据包括基于训练图像调整所得的第二处理图像,第二处理图像对应的调整幅度大于第一处理图像对应的调整幅度;进而根据花屏置信度确定目标视频中的花屏图像。从而实现仅需要少量的人工标注图像以及大量的无标注图像就可以进行模型训练的过程,由于利用了无标注数据的模型预测一致性以及伪标签的生成,进而扩充标注数据集,提高了花屏图像识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为花屏图像的识别系统运行的网络架构图;
图2为本申请实施例提供的一种花屏图像的识别的流程架构图;
图3为本申请实施例提供的一种花屏图像的识别方法的流程图;
图4为本申请实施例提供的一种花屏图像的识别方法的场景示意图;
图5为本申请实施例提供的另一种花屏图像的识别方法的场景示意图;
图6为本申请实施例提供的另一种花屏图像的识别方法的场景示意图;
图7为本申请实施例提供的另一种花屏图像的识别方法的流程图;
图8为本申请实施例提供的一种花屏图像的识别装置的结构示意图;
图9为本申请实施例提供的一种终端设备的结构示意图;
图10为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种花屏图像的识别方法以及相关装置,可以应用于终端设备中包含花屏图像的识别功能的系统或程序中,通过获取目标视频对应的图像序列;然后将图像序列中的视频图像输入目标网络模型,以得到视频图像对应的花屏置信度,其中,该目标网络模型基于标注数据和无标注数据训练所得,无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签,第一图像数据包括基于训练图像调整所得的串行的多个第一处理图像,第二图像数据包括基于训练图像调整所得的第二处理图像,第二处理图像对应的调整幅度大于第一处理图像对应的调整幅度;进而根据花屏置信度确定目标视频中的花屏图像。从而实现仅需要少量的人工标注图像以及大量的无标注图像就可以进行模型训练的过程,由于利用了无标注数据的模型预测一致性以及伪标签的生成,进而扩充标注数据集,提高了花屏图像识别的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
独热编码(One-Hot编码):又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
应理解,本申请提供的花屏图像的识别方法可以应用于终端设备中包含花屏图像的识别功能的系统或程序中,例如视频播放器,具体的,花屏图像的识别系统可以运行于如图1所示的网络架构中,如图1所示,是花屏图像的识别系统运行的网络架构图,如图可知,花屏图像的识别系统可以提供与多个信息源的花屏图像的识别过程,即通过终端侧的触发操作对服务器下发的视频进行花屏识别,从而提升视频的播放质量;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到花屏图像的识别的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多视频交互的场景中,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述花屏图像的识别系统可以运行于个人移动终端,例如:作为视频播放器这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供花屏图像的识别,以得到信息源的花屏图像的识别处理结果;具体的花屏图像的识别系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,本实施例可应用于云技术、自动驾驶等场景,具体运作模式因实际场景而定,此处不做限定。
随着互联网技术的迅速发展,人们对视频内容的要求越来越高。花屏检测即为提高视频质量的一种方式。
一般,对于花屏检测的过程,可以先对输入图像进行手工特征的提取,随后根据提取到的手工特征,训练分类器,从而对当前图片是否是花屏图像进行二分类。
但是,手工特征的泛化性比较差,且对于复杂的场景,可能无法覆盖所有的特征,影响花屏图像识别的准确性。
为了解决上述问题,本申请提出了一种花屏图像的识别方法,该方法应用于图2所示的花屏图像的识别的流程框架中,如图2所示,为本申请实施例提供的一种花屏图像的识别的流程架构图,用户通过终端的播放操作确定对应的视频,从而使得服务器对该视频进行花屏检测,花屏检测是指对一张图片进行是否存在花屏现象进行检测,最终输出的结果是当前图像是花屏图像的概率,进一步可以输出当前图像是否是花屏图像的二值结果。该任务是图片以及视频的质量分析中的一个必备步骤,可以用来评估当前图片或视频的质量。
本实施例通过对训练图像进行扩展,从而配置伪标签,进而对目标网络模型进行训练,为一种基于串行图像增强的半监督花屏检测算法,仅需要少量的花屏标注数据以及一定数量的未进行花屏标注的训练数据就可以完成模型的训练,训练好的模型可以直接对花屏或者正常图像进行高精度的分类,并取得较好的分类精度。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种花屏图像的识别装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该花屏图像的识别装置通过获取目标视频对应的图像序列;然后将图像序列中的视频图像输入目标网络模型,以得到视频图像对应的花屏置信度,其中,该目标网络模型基于标注数据和无标注数据训练所得,无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签,第一图像数据包括基于训练图像调整所得的串行的多个第一处理图像,第二图像数据包括基于训练图像调整所得的第二处理图像,第二处理图像对应的调整幅度大于第一处理图像对应的调整幅度;进而根据花屏置信度确定目标视频中的花屏图像。从而实现仅需要少量的人工标注图像以及大量的无标注图像就可以进行模型训练的过程,由于利用了无标注数据的模型预测一致性以及伪标签的生成,进而扩充标注数据集,提高了花屏图像识别的准确性。
本申请实施例提供的方案涉及人工智能的计算机视觉技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中花屏图像的识别方法进行介绍,请参阅图3,图3为本申请实施例提供的一种花屏图像的识别方法的流程图,该管理方法可以是由服务器或终端执行的,本申请实施例至少包括以下步骤:
301、获取目标视频对应的图像序列。
本实施例中,目标视频可以是用户播放列表中的视频,也可以是云端视频数据库中的视频,还可以是实时播放的视频,具体的视频类型因实际场景而定。
具体的,图像序列可以是对目标视频进行视频帧解析所得的图像,具体的视频帧间隙可以因播放器的播放配置而定,例如播放帧率越高,取视频帧的间隙越小,所得的图像序列的图像数量越多。
302、将图像序列中的视频图像输入目标网络模型,以得到视频图像对应的花屏置信度,目标网络模型基于标注数据和无标注数据训练所得,无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签,第一图像数据为对训练图像逐次进行图像调整操作所得的串行的多个第一处理图像,第二图像数据包括基于训练图像调整所得的第二处理图像,第二处理图像对应的调整幅度大于第一处理图像对应的调整幅度。
本实施例中,即为基于无标注数据进行样本扩展的训练过程,由于花屏的图像具有渐变的特性,具体如图4所示,图4为本申请实施例提供的一种花屏图像的识别方法的场景示意图;图中示出了不同程度的花屏图像,可见花屏图像为由正常图像逐步调整处理所得,故第二处理图像对应的调整幅度大于第一处理图像对应的调整幅度即模拟了花屏图像的样本生成过程。
具体的,基于串行图像增强的半监督花屏检测算法框架如图5所示,图5为本申请实施例提供的另一种花屏图像的识别方法的场景示意图;即对于未带有人工标签的输入图像x,分别使用两类的数据增强模式,即首先获取未标注的训练图像;然后对训练图像执行第一调整操作(简单增强),以得到第一串行图像;进一步的对第一串行图像执行第一调整操作,以得到第二串行图像;并将第一串行图像第二串行图像进行关联,以作为串行的多个第一处理图像,第一调整操作用于指示近似于训练图像的调整方向;然后对训练图像执行第二调整操作(复杂增强),以得到第二处理图像,第二调整操作用于指示区别于训练图像的调整方向;然后将多个第一处理图像输入第一模型,以得到第一训练参数;并将第二处理图像输入第二模型,以得到第二训练参数,第一模型与第二模型共享权重参数,从而保证不同样本训练的效果;进一步的对第一训练参数与第二训练参数进行加权,以得到目标参数;并基于目标参数执行锐化操作,以确定训练图像对应的伪标签;进而根据配置伪标签的训练图像和标注数据对第一模型进行训练,以得到目标网络模型。
可以理解的是,在进行第一调整操作的过程中,上述示例进行到了二次第一调整操作;在实际场景中,可以是进行更多次数的第一调整操作,例如串行的第一处理图像为5个,则具体的处理过程为对训练图像执行第一次简单增强得到串行图像A1;进一步的对串行图像A1执行第二次简单增强得到串行图像A2;然后对串行图像A2执行第二次简单增强得到串行图像A3;并对串行图像A3执行第二次简单增强得到串行图像A4,进而对串行图像A4执行第二次简单增强得到串行图像A5,从而得到的多个第一处理图像即为A1-A5,具体的数量因实际场景而定,此处不作限定。
应当注意的是,简单增强的过程中所采用的具体方式可以是相同的,也可以是不同的,具体的简单增强可以包括:线性变换、对比度变换、亮度变换、图像均衡化、图像翻转(水平和竖直方向)等操作,在实际场景中可以是上述任意方式的组合,此处不作限定。
具体的,第一调整操作用于指示近似于训练图像的调整方向;其中,近似于训练图像的调整方向即图片的纹理、空间排布、内容等信息保留相对完整,调整后的图像与调整前相近;在一种可能的场景中第一调整操作即为简单增强可以包括:线性变换、对比度变换、亮度变换、图像均衡化、图像翻转(水平和竖直方向)等操作;对应的,第二调整操作用于指示区别于训练图像的调整方向,即对原始图像进行较大范围的调整,力图复杂增强可以包括:随机擦除、大角度图像旋转、添加复杂噪声等。二者主要的区别在于图像增强的程度不一致,简单图像增强,图片的纹理、空间排布、内容等信息保留相对完整,而复杂图像增强往往意味着对原始图像进行较大范围的调整,例如随机擦除,会对一定区域的图像像素进行赋值操作,使得被赋值区域的像素值(图像内容)丢失。简单增强会进行N次,而复杂增强只需要进行一次,这样做的目的在于,对于N次简单增强之后的特征,会增强一致性监督,这相当于是一个正则项,可以稳定网络的训练以及提升模型的泛化能力。对于二者增强之后的N+1个输入,经过一个共享权重值的深度神经网络CNN模型,得到最终的输出概率P1、P2…PN以及Pc,其中P1、P2…PN会进行一致性损失的计算,原理是希望对同一张图片经过N次简单增强之后,同一个CNN模型能够得到较为一致的预测结果。随后,将P1、P2…PN进行平均操作,即将多个第一处理图像输入第一模型,以得到参数序列;然后对参数序列进行平均操作,以得到第一训练参数。进而再和Pc进行加权融合,即可得到所有增强的输入数据对应的输出概率融合结果,随后对融合概率进行概率锐化操作,该操作的目的在于将概率锐化为更接近one-hot的独热编码分布(更为符合人工标签的结果),经过锐化之后的概率直接作为当前图像的伪标签。最终,没有人工标签的输入图像x便得到了可靠的伪标签,此时相当于将部分未带标签的数据赋予了人工标签,因此可以进一步采用有监督学习的方式继续对CNN模型进行训练,直到网络收敛。从而可以使用少量带有标注的数据以及大量无标注的数据进行训练,最终得到鲁棒的CNN模型。
可以理解的是,本实施例中目标网络模型为CNN模型仅为示例,具体网络结构不做限制,可以使用目前学术界较为成熟的CNN模型作为深度网络的结构。
另外,对于简单增强和复杂增强的方式不局限于上述描述的几种,可以设计更为复杂的增强方式进一步提升效果。
在一种可能的场景中,对于简单、复杂图像增强生成伪标签的过程,可以进行一致性损失的计算过程,即基于参数序列获取第一模型对应的一致性损失信息;然后基于一致性损失信息对第一模型的参数进行更新。其中,简单图像增强会串行地进行N次,得到x1、x2…xN,而复杂图像增强只进行一次得到xc,N次简单增强之后的输入会经过CNN模型得到N个概率输出P1、P2…PN,对于这N个概率输出会施加一致性损失:
其中,x1、x2…xN表示简单图像增强的图像序列。
可以理解的是,该一致性损失会使得网络朝着P1、P2…PN都尽量接近的方向去优化,依据的原理是对于简单的图像增强,CNN模型的输出应该具有高度的一致性,这就使得CNN模型有了可以进行参数更新的监督信号。而对于复杂图像增强,由于图像纹理、空间信息、内容信息等遭到了破坏,其经过CNN模型得到的概率输出Pc可能与P1、P2…PN的差异相对较大,不适用于一致性损失。然而复杂增强之后的图像对于网络的泛化性有帮助,可以使得CNN模型不过拟合到局部最优解中。
另外,对于锐化操作是为了使得目标参数更具有标示性,即首先获取第一模型采用的独热编码方式(one-hot)所对应的分布信息,这是为了使得锐化操作后的概率分布信息与编码方式相匹配,即将概率锐化为更接近独热编码分布,更为符合人工标签的结果;故可以基于分布信息确定锐化系数;并根据锐化系数对目标参数执行锐化操作,以确定训练图像对应的伪标签。
可以理解的是,在配置伪标签时候同时考虑简单增强之后的概率P1、P2…PN以及复杂增强之后的概率Pc:
Psofy=((P1+P2+…+PN)/N+Pc)/2
其中,Psoft集成了简单增强以及复杂增强之后图像的概率分布信息,可以用来反映当前输入图像x的潜在标签,但是Psoft往往分布不够“尖锐”,例如(0.6,0.4),这种分布距离人工标注标签给出的(1,0)的one-hot标签具有不一致的地方,因此对Psoft进行概率锐化操作:
其中,pi为Psoft对应的概率分布;pj为锐化操作后的概率分布;T∈(0,1),是锐化系数,表示锐化的程度,其中T越小,得到的Phard越接近于one-hot的形式。最终的Phard就作为当前的图片的伪标签,用于后续阶段CNN模型的训练。
下面,对目标网络模型的损失函数的配置进行说明,包括标注数据、参数序列一致性以及无标注数据三个维度的损失函数配置,即首先基于标注数据获取对应的第一损失信息;然后对伪标签对应的概率估计的一致性进行解析,以得到第二损失信息;并基于伪标签进行监督训练,以获取第三损失信息;进而对第一损失信息、第二损失信息和第三损失信息进行加权,以得到目标损失信息;然后基于目标损失信息对第一模型进行训练,以得到目标网络模型。
具体的,对于对于有标签的数据(标注数据),其对应的损失函数采用交叉熵损失:
LS(xs,ys)=-[ys*log(f(xs,θ))+(1-ys)*log(1-(f(xs,θ))
其中,xs表示带标签的样本,ys是其对应的标签,f表示CNN的非线性运算,θ是f的参数,也就是需要更新的权重值。
另外,对于无标注数据,除了上述的一致性损失Le,使用生成的伪标签Phard也可以对网络的训练进行监督,具体形式为:
Lu(xu,Phard)=-[Phard*log(f(xu,θ))+(1-Phard)*log(1-(f(xu,θ))
因此,目标损失函数可以表示为:
L=LS+αLu+βLe
其中,α和β用来控制对应的两项损失函数的权重。
可以理解的是,上述损失函数的选择不一定要限定于交叉熵损失,其他的损失函数,包括L1损失,L2损失或者是JS散度等,都可以作为损失函数的具体实现形式。
本实施例仅依赖于少量标注图像的训练方式。本发明提出来的基于串行图像增强的半监督花屏检测算法,仅需要少量的人工标注图像以及大量的无标注图像就可以进行训练,减少了人力标注成本,其原理是利用了无标注数据的CNN模型预测一致性以及伪标签的生成,进而扩充标注数据集。由于训练样本的数量充足,可以提升CNN模型的训练效果。
303、根据花屏置信度确定目标视频中的花屏图像。
本实施例中,花屏置信度用于指示图像归属于花屏图像的概率,具体的识别结果可以如图6所示,图6为本申请实施例提供的另一种花屏图像的识别方法的场景示意图;图中示出了识别的花屏图像的花屏置信度为0.99,正常图像的花屏置信度为0.05。
本实施例可以作为视频分析功能,直接输出单张图像是花屏的置信度,进而得到最终是否为花屏的检测结果(花屏或正常),从而指示进一步的视频处理操作,以提升视频的质量。
结合上述实施例可知,通过获取目标视频对应的图像序列;然后将图像序列中的视频图像输入目标网络模型,以得到视频图像对应的花屏置信度,其中,该目标网络模型基于标注数据和无标注数据训练所得,无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签,第一图像数据包括基于训练图像调整所得的串行的多个第一处理图像,第二图像数据包括基于训练图像调整所得的第二处理图像,第二处理图像对应的调整幅度大于第一处理图像对应的调整幅度;进而根据花屏置信度确定目标视频中的花屏图像。从而实现仅需要少量的人工标注图像以及大量的无标注图像就可以进行模型训练的过程,由于利用了无标注数据的模型预测一致性以及伪标签的生成,进而扩充标注数据集,提高了花屏图像识别的准确性。
在一种可能的场景中,可以判断目标视频对应的标注数据是否满足需求,从而进行数据的补充,下面对该场景进行说明。请参阅图7,图7为本申请实施例提供的另一种花屏图像的识别方法的流程图,本申请实施例至少包括以下步骤:
701、获取与目标视频相关联的标注数据对应的数据量。
本实施例中,在对目标视频的识别过程中,可以进行标注数据对应的数据量的判断,以确定是否需要进行无标注数据的补充,以保证识别模型的准确性。
702、若标注数据对应的数据量未达到预设比例,则调用目标视频中的视频帧图像,并将视频帧图像作为关联无标注数据。
本实施例中,预设比例可以是标注数据对应的数据量占所有训练数据的比例,也可以是根据目标视频的码率动态配置的比例参数,例如码率越高,对于预设比例的配置越高。
在一种可能的场景中,调用目标视频中的视频帧图像可以是调用目标视频中的被标记为常出现花屏的视频帧图像,例如剧情关键点、开头等,从而提高关联无标注数据的有效性。
703、基于标注数据和关联无标注数据对目标网络模型进行训练。
本实施例中,关联无标注数据即为与目标视频相关联的无标注数据,例如基于目标视频中的视频帧所得的无标注数据,目标视频中的视频帧可以是自动选取的,也可以是热度高的视频帧,例如弹幕数量较多的视频帧,从而提升无标注数据的有效性。
另外,具体的训练过程如图3所示的步骤302的描述所示,此处不作赘述。即关联无标注数据配置了基于第三图像数据和第四图像数据确定的伪标签,第三图像数据为对视频帧图像逐次进行图像调整操作所得的串行的多个第三处理图像(即第三图像数据为对视频帧图像进行简单增强后的串行图像),第四图像数据包括基于视频帧图像调整所得的第四处理图像(即第四图像数据为对视频帧图像进行复杂增强后的图像),第四处理图像对应的调整幅度大于第三处理图像对应的调整幅度。
本实施例提出一种基于串行图像增强的半监督花屏检测算法,仅需要少量的花屏标注数据以及一定数量的未进行花屏标注的训练数据就可以完成模型的训练,训练好的模型可以直接对花屏或者正常图像进行高精度的分类,并取得较好的分类精度,极大程度的降低了标注消耗的人力成本。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图8,图8为本申请实施例提供的一种花屏图像的识别装置的结构示意图,花屏图像的识别装置800包括:
获取单元801,用于获取目标视频对应的图像序列;
输入单元802,用于将所述图像序列中的视频图像输入目标网络模型,以得到所述视频图像对应的花屏置信度,所述目标网络模型基于标注数据和无标注数据训练所得,所述无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签,所述第一图像数据包括基于训练图像调整所得的串行的多个第一处理图像,所述第二图像数据包括基于所述训练图像调整所得的第二处理图像,所述第二处理图像对应的调整幅度大于所述第一处理图像对应的调整幅度;
识别单元803,用于根据所述花屏置信度确定所述目标视频中的花屏图像。
可选的,在本申请一些可能的实现方式中,所述识别单元803,具体用于获取未标注的所述训练图像;
所述识别单元803,具体用于对所述训练图像执行多次第一调整操作,以得到串行的多个所述第一处理图像,所述第一调整操作用于指示近似于所述训练图像的调整方向;
所述识别单元803,具体用于对所述训练图像执行第二调整操作,以得到所述第二处理图像,所述第一调整操作用于指示区别于所述训练图像的调整方向;
所述识别单元803,具体用于将多个所述第一处理图像输入第一模型,以得到第一训练参数;
所述识别单元803,具体用于将所述第二处理图像输入第二模型,以得到第二训练参数,所述第一模型与所述第二模型共享权重参数;
所述识别单元803,具体用于对所述第一训练参数与所述第二训练参数进行加权,以得到目标参数;
所述识别单元803,具体用于基于所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签;
所述识别单元803,具体用于根据配置所述伪标签的所述训练图像和所述标注数据对所述第一模型进行训练,以得到所述目标网络模型。
可选的,在本申请一些可能的实现方式中,所述识别单元803,具体用于将多个所述第一处理图像输入第一模型,以得到参数序列;
所述识别单元803,具体用于对所述参数序列进行平均操作,以得到所述第一训练参数。
可选的,在本申请一些可能的实现方式中,所述识别单元803,具体用于基于所述参数序列获取所述第一模型对应的一致性损失信息;
所述识别单元803,具体用于基于所述一致性损失信息对所述第一模型的参数进行更新。
可选的,在本申请一些可能的实现方式中,所述识别单元803,具体用于获取所述第一模型采用的独热编码方式所对应的分布信息;
所述识别单元803,具体用于基于所述分布信息确定锐化系数;
所述识别单元803,具体用于根据所述锐化系数对所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签。
可选的,在本申请一些可能的实现方式中,所述识别单元803,具体用于基于所述标注数据获取对应的第一损失信息;
所述识别单元803,具体用于对所述伪标签对应的概率估计的一致性进行解析,以得到第二损失信息;
所述识别单元803,具体用于基于所述伪标签进行监督训练,以获取第三损失信息;
所述识别单元803,具体用于对所述第一损失信息、所述第二损失信息和所述第三损失信息进行加权,以得到目标损失信息;
所述识别单元803,具体用于基于所述目标损失信息对所述第一模型进行训练,以得到所述目标网络模型。
可选的,在本申请一些可能的实现方式中,所述识别单元803,具体用于获取与所述目标视频相关联的标注数据对应的数据量;
所述识别单元803,具体用于若所述标注数据对应的数据量未达到预设比例,则调用所述目标视频中的视频帧图像;
所述识别单元803,具体用于将所述视频帧图像作为关联无标注数据;
所述识别单元803,具体用于基于所述标注数据和所述关联无标注数据对所述目标网络模型进行训练,所述关联无标注数据配置了基于第三图像数据和第四图像数据确定的伪标签,所述第三图像数据为对所述视频帧图像逐次进行图像调整操作所得的串行的多个第三处理图像,所述第四图像数据包括基于所述视频帧图像调整所得的第四处理图像,所述第四处理图像对应的调整幅度大于所述第三处理图像对应的调整幅度。
通过获取目标视频对应的图像序列;然后将图像序列中的视频图像输入目标网络模型,以得到视频图像对应的花屏置信度,其中,该目标网络模型基于标注数据和无标注数据训练所得,无标注数据配置了基于第一图像数据和第二图像数据确定的伪标签,第一图像数据包括基于训练图像调整所得的串行的多个第一处理图像,第二图像数据包括基于训练图像调整所得的第二处理图像,第二处理图像对应的调整幅度大于第一处理图像对应的调整幅度;进而根据花屏置信度确定目标视频中的花屏图像。从而实现仅需要少量的人工标注图像以及大量的无标注图像就可以进行模型训练的过程,由于利用了无标注数据的模型预测一致性以及伪标签的生成,进而扩充标注数据集,提高了花屏图像识别的准确性。
本申请实施例还提供了一种终端设备,如图9所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图9示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图9,手机包括:射频(radio frequency,RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity,WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解,图9中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图9对手机的各个构成部件进行具体的介绍:
RF电路910可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器980处理;另外,将设计上行的数据发送给基站。通常,RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元930可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元930可包括触控面板931以及其他输入设备932。触控面板931,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作,以及在触控面板931上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板931可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器980,并能接收处理器980发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941,可选的,可以采用液晶显示器(liquid crystaldisplay,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板941。进一步的,触控面板931可覆盖显示面板941,当触控面板931检测到在其上或附近的触摸操作后,传送给处理器980以确定触摸事件的类型,随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中,触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器950,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板941的亮度,接近传感器可在手机移动到耳边时,关闭显示面板941和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路960、扬声器961,传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号输出;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据输出处理器980处理后,经RF电路910以发送给比如另一手机,或者将音频数据输出至存储器920以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器980是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监测。可选的,处理器980可包括一个或多个处理单元;可选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
手机还包括给各个部件供电的电源990(比如电池),可选的,电源可以通过电源管理系统与处理器980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器980还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图10,图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图10所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有花屏图像的识别指令,当其在计算机上运行时,使得计算机执行如前述图3至图7所示实施例描述的方法中花屏图像的识别装置所执行的步骤。
本申请实施例中还提供一种包括花屏图像的识别指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图7所示实施例描述的方法中花屏图像的识别装置所执行的步骤。
本申请实施例还提供了一种花屏图像的识别系统,所述花屏图像的识别系统可以包含图8所描述实施例中的花屏图像的识别装置,或图9所描述实施例中的终端设备,或者图10所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,花屏图像的识别装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (17)
1.一种花屏图像的识别方法,其特征在于,包括:
获取目标视频对应的图像序列;
将所述图像序列中的视频图像输入目标网络模型,以得到所述视频图像对应的花屏置信度;
根据所述花屏置信度确定所述目标视频中的花屏图像;
所述目标网络模型通过以下方式训练得到:
获取未标注的训练图像;
对所述训练图像逐次执行第一调整操作,以得到串行的多个第一处理图像,所述第一调整操作用于指示近似于所述训练图像的调整方向;
对所述训练图像执行第二调整操作,以得到第二处理图像,所述第二调整操作用于指示区别于所述训练图像的调整方向;所述第二处理图像对应的调整幅度大于所述第一处理图像对应的调整幅度;
将多个所述第一处理图像输入第一模型,以得到第一训练参数;
将所述第二处理图像输入第二模型,以得到第二训练参数,所述第一模型与所述第二模型共享权重参数;
对所述第一训练参数与所述第二训练参数进行加权,以得到目标参数;
基于所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签;
根据配置所述伪标签的所述训练图像和标注数据对所述第一模型进行训练,以得到所述目标网络模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述训练图像逐次执行第一调整操作,以得到串行的多个第一处理图像包括:
对所述训练图像执行第一调整操作,以得到第一串行图像;
对所述第一串行图像执行所述第一调整操作,以得到第二串行图像;
将所述第一串行图像所述第二串行图像进行关联,以作为串行的多个所述第一处理图像。
3.根据权利要求2所述的方法,其特征在于,所述将多个所述第一处理图像输入第一模型,以得到第一训练参数,包括:
将多个所述第一处理图像输入第一模型,以得到用于指示所述第一处理图像对应的花屏概率的参数序列;
对所述参数序列进行平均操作,以得到所述第一训练参数。
4.根据权利要求3所述的方法,其特征在于,所述对所述参数序列进行平均操作,以得到所述第一训练参数之后,所述方法还包括:
基于所述参数序列获取所述第一模型对应的一致性损失信息;
基于所述一致性损失信息对所述第一模型的参数进行更新。
5.根据权利要求2所述的方法,其特征在于,所述基于所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签,包括:
获取所述第一模型采用的独热编码方式所对应的分布信息;
基于所述分布信息确定锐化系数;
根据所述锐化系数对所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签。
6.根据权利要求2所述的方法,其特征在于,所述根据配置所述伪标签的所述训练图像和标注数据对所述第一模型进行训练,以得到所述目标网络模型,包括:
基于标注数据获取对应的第一损失信息;
对所述伪标签对应的概率估计的一致性进行解析,以得到第二损失信息;
基于所述伪标签进行监督训练,以获取第三损失信息;
对所述第一损失信息、所述第二损失信息和所述第三损失信息进行加权,以得到目标损失信息;
基于所述目标损失信息对所述第一模型进行训练,以得到所述目标网络模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
获取与所述目标视频相关联的标注数据对应的数据量;
若所述标注数据对应的数据量未达到预设比例,则调用所述目标视频中的视频帧图像;
将所述视频帧图像作为关联无标注数据;
基于所述标注数据和所述关联无标注数据对所述目标网络模型进行训练,所述关联无标注数据配置了基于第三图像数据和第四图像数据确定的伪标签,所述第三图像数据为对所述视频帧图像逐次进行图像调整操作所得的串行的多个第三处理图像,所述第四图像数据包括基于所述视频帧图像调整所得的第四处理图像,所述第四处理图像对应的调整幅度大于所述第三处理图像对应的调整幅度。
8.一种花屏图像的识别装置,其特征在于,包括:
获取单元,用于获取目标视频对应的图像序列;
输入单元,用于将所述图像序列中的视频图像输入目标网络模型,以得到所述视频图像对应的花屏置信度;
识别单元,用于根据所述花屏置信度确定所述目标视频中的花屏图像;
所述识别单元,还用于通过以下方式训练得到所述目标网络模型:
获取未标注的训练图像;
对所述训练图像逐次执行第一调整操作,以得到串行的多个第一处理图像,所述第一调整操作用于指示近似于所述训练图像的调整方向;
对所述训练图像执行第二调整操作,以得到第二处理图像,所述第二调整操作用于指示区别于所述训练图像的调整方向;所述第二处理图像对应的调整幅度大于所述第一处理图像对应的调整幅度;
将多个所述第一处理图像输入第一模型,以得到第一训练参数;
将所述第二处理图像输入第二模型,以得到第二训练参数,所述第一模型与所述第二模型共享权重参数;
对所述第一训练参数与所述第二训练参数进行加权,以得到目标参数;
基于所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签;
根据配置所述伪标签的所述训练图像和标注数据对所述第一模型进行训练,以得到所述目标网络模型。
9.根据权利要求8所述的装置,其特征在于,所述识别单元,具体用于:
对所述训练图像执行第一调整操作,以得到第一串行图像;
对所述第一串行图像执行所述第一调整操作,以得到第二串行图像;
将所述第一串行图像所述第二串行图像进行关联,以作为串行的多个所述第一处理图像。
10.根据权利要求9所述的装置,其特征在于,所述识别单元,具体用于:
将多个所述第一处理图像输入第一模型,以得到用于指示所述第一处理图像对应的花屏概率的参数序列;
对所述参数序列进行平均操作,以得到所述第一训练参数。
11.根据权利要求10所述的装置,其特征在于,所述识别单元,还用于:
基于所述参数序列获取所述第一模型对应的一致性损失信息;
基于所述一致性损失信息对所述第一模型的参数进行更新。
12.根据权利要求9所述的装置,其特征在于,所述识别单元,具体用于:
获取所述第一模型采用的独热编码方式所对应的分布信息;
基于所述分布信息确定锐化系数;
根据所述锐化系数对所述目标参数执行锐化操作,以确定所述训练图像对应的伪标签。
13.根据权利要求9所述的装置,其特征在于,所述识别单元,具体用于:
基于标注数据获取对应的第一损失信息;
对所述伪标签对应的概率估计的一致性进行解析,以得到第二损失信息;
基于所述伪标签进行监督训练,以获取第三损失信息;
对所述第一损失信息、所述第二损失信息和所述第三损失信息进行加权,以得到目标损失信息;
基于所述目标损失信息对所述第一模型进行训练,以得到所述目标网络模型。
14.根据权利要求8-13任一项所述的装置,其特征在于,所述识别单元,还用于:
获取与所述目标视频相关联的标注数据对应的数据量;
若所述标注数据对应的数据量未达到预设比例,则调用所述目标视频中的视频帧图像;
将所述视频帧图像作为关联无标注数据;
基于所述标注数据和所述关联无标注数据对所述目标网络模型进行训练,所述关联无标注数据配置了基于第三图像数据和第四图像数据确定的伪标签,所述第三图像数据为对所述视频帧图像逐次进行图像调整操作所得的串行的多个第三处理图像,所述第四图像数据包括基于所述视频帧图像调整所得的第四处理图像,所述第四处理图像对应的调整幅度大于所述第三处理图像对应的调整幅度。
15.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的花屏图像的识别方法。
16.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1至7任一项所述的花屏图像的识别方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述权利要求1至7任一项所述的花屏图像的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210248824.5A CN114612830B (zh) | 2022-03-14 | 2022-03-14 | 一种花屏图像的识别方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210248824.5A CN114612830B (zh) | 2022-03-14 | 2022-03-14 | 一种花屏图像的识别方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114612830A CN114612830A (zh) | 2022-06-10 |
CN114612830B true CN114612830B (zh) | 2024-12-13 |
Family
ID=81863065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210248824.5A Active CN114612830B (zh) | 2022-03-14 | 2022-03-14 | 一种花屏图像的识别方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114612830B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403074B (zh) * | 2023-04-03 | 2024-05-14 | 上海锡鼎智能科技有限公司 | 基于主动标注的半自动图像标注方法及标注装置 |
CN117456248A (zh) * | 2023-10-27 | 2024-01-26 | 北京航迹科技有限公司 | 图像分类方法、装置、计算机设备、存储介质和程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232416A (zh) * | 2020-10-16 | 2021-01-15 | 浙江大学 | 一种基于伪标签加权的半监督学习方法 |
CN112949449A (zh) * | 2021-02-25 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 交错判断模型训练方法及装置和交错图像确定方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095919A (zh) * | 2015-09-08 | 2015-11-25 | 北京百度网讯科技有限公司 | 图像识别方法和装置 |
US11669724B2 (en) * | 2018-05-17 | 2023-06-06 | Raytheon Company | Machine learning using informed pseudolabels |
KR102261187B1 (ko) * | 2020-02-04 | 2021-06-07 | 광주과학기술원 | 머신 러닝에 기반한 감시 영상 분석 시스템 및 그 방법 |
CN111898696B (zh) * | 2020-08-10 | 2023-10-27 | 腾讯云计算(长沙)有限责任公司 | 伪标签及标签预测模型的生成方法、装置、介质及设备 |
CN113177529B (zh) * | 2021-05-27 | 2024-04-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 识别花屏的方法、装置、设备及存储介质 |
CN113435546B (zh) * | 2021-08-26 | 2021-12-24 | 山东力聚机器人科技股份有限公司 | 基于区分置信度水平的可迁移图像识别方法及系统 |
-
2022
- 2022-03-14 CN CN202210248824.5A patent/CN114612830B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232416A (zh) * | 2020-10-16 | 2021-01-15 | 浙江大学 | 一种基于伪标签加权的半监督学习方法 |
CN112949449A (zh) * | 2021-02-25 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 交错判断模型训练方法及装置和交错图像确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114612830A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919251B (zh) | 一种基于图像的目标检测方法、模型训练的方法及装置 | |
CN109919087B (zh) | 一种视频分类的方法、模型训练的方法及装置 | |
CN111582116B (zh) | 一种视频抹除痕迹检测方法、装置、设备和存储介质 | |
CN113284142B (zh) | 图像检测方法、装置、计算机可读存储介质及计算机设备 | |
CN111260665A (zh) | 图像分割模型训练方法和装置 | |
CN110798718B (zh) | 一种视频推荐方法以及装置 | |
CN110995810B (zh) | 一种基于人工智能的对象识别方法和相关装置 | |
CN111292394B (zh) | 一种图像配色关系确定方法和装置 | |
CN114612830B (zh) | 一种花屏图像的识别方法、装置、设备以及存储介质 | |
CN111265881B (zh) | 一种模型训练方法、内容生成方法以及相关装置 | |
CN112184548A (zh) | 图像超分辨率方法、装置、设备及存储介质 | |
CN113822427B (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN116450808B (zh) | 一种数据的处理方法、装置以及存储介质 | |
CN112270238B (zh) | 一种视频内容识别方法和相关装置 | |
CN116453005A (zh) | 一种视频封面的提取方法以及相关装置 | |
CN111737520B (zh) | 一种视频分类方法、视频分类装置、电子设备及存储介质 | |
CN116484946A (zh) | 基于动态压缩的模型参数调整方法、装置、设备、介质 | |
CN113569889A (zh) | 一种基于人工智能的图像识别的方法以及相关装置 | |
CN117237742B (zh) | 一种针对初始模型的知识蒸馏方法和装置 | |
CN109754319B (zh) | 信用分值确定系统、方法、终端及服务器 | |
CN115526772B (zh) | 视频处理方法、装置、设备和存储介质 | |
CN117115590A (zh) | 基于自监督学习的内容审核模型训练方法、装置及介质 | |
CN113723168B (zh) | 一种基于人工智能的主体识别方法、相关装置及存储介质 | |
CN116342940A (zh) | 图像审批方法、装置、介质及设备 | |
CN116958723A (zh) | 图像质量检测模型的训练、图像质量检测方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |