CN112070178B - 图像序列样本集的确定方法、装置以及计算机设备 - Google Patents

图像序列样本集的确定方法、装置以及计算机设备 Download PDF

Info

Publication number
CN112070178B
CN112070178B CN202010998142.7A CN202010998142A CN112070178B CN 112070178 B CN112070178 B CN 112070178B CN 202010998142 A CN202010998142 A CN 202010998142A CN 112070178 B CN112070178 B CN 112070178B
Authority
CN
China
Prior art keywords
image sequence
samples
extraction
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010998142.7A
Other languages
English (en)
Other versions
CN112070178A (zh
Inventor
汪贤
熊宝玉
樊鸿飞
蔡媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202010998142.7A priority Critical patent/CN112070178B/zh
Publication of CN112070178A publication Critical patent/CN112070178A/zh
Application granted granted Critical
Publication of CN112070178B publication Critical patent/CN112070178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种图像序列样本集的确定方法、装置以及计算机设备,涉及数据处理技术领域,缓解了筛选出的图像序列样本集的多样均衡程度较差的技术问题。该方法包括:获取多个图像序列样本的特征数据和每个图像序列样本对应的抽取概率;根据特征数据对多个图像序列样本进行聚类处理,得到多个类簇;按照多个类簇之间的类簇抽取顺序轮询抽取类簇,针对每个类簇,按照类簇中若干个图像序列样本之间的样本抽取顺序抽取图像序列样本,直到已抽取图像序列样本的数量达到预设数量,基于已抽取图像序列样本确定图像序列样本集;类簇抽取顺序为类簇的抽取概率均值大小顺序;样本抽取顺序为样本的抽取概率大小顺序。

Description

图像序列样本集的确定方法、装置以及计算机设备
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种图像序列样本集的确定方法、装置以及计算机设备。
背景技术
目前,在视频、图片等图像序列样本的质量评价领域,用于主观评价的图像序列样本集的构建成本较为昂贵,因为需要人工对这些图像序列样本进行标注。而对于质量评价算法模型的开发和训练,需要尽可能的使用于训练的图像序列样本集具有多样性且多样性分布均衡,以减少对冗余的图像序列样本进行标注的情况。
但是,在从大量不确定的图像序列样本中抽取出确定使用的图像序列样本集过程中,实际抽取概率存在较大的随机性,导致筛选出的图像序列样本集极易出现伪均衡的情况,即筛选出的图像序列样本集的多样性分布较为不均衡。
发明内容
本发明的目的在于提供一种图像序列样本集的确定方法、装置以及计算机设备,以缓解筛选出的图像序列样本集的多样均衡程度较差的技术问题。
第一方面,本申请实施例提供了一种图像序列样本集的确定方法,所述方法包括:
获取多个图像序列样本的特征数据以及每个所述图像序列样本对应的抽取概率;所述抽取概率与所述特征数据的稀疏程度成正比,所述稀疏程度为所述特征数据在图像特征维度空间中所处位置的稀疏程度;
根据所述特征数据对多个所述图像序列样本进行聚类处理,得到多个类簇;
按照多个所述类簇之间的类簇抽取顺序轮询抽取所述类簇,针对每个所述类簇,按照所述类簇中若干个所述图像序列样本之间的样本抽取顺序抽取所述图像序列样本,直到已抽取图像序列样本的数量达到预设数量,基于所述已抽取图像序列样本确定所述图像序列样本集;所述类簇抽取顺序为所述类簇的抽取概率均值大小顺序;所述样本抽取顺序为所述样本的抽取概率大小顺序。
在一个可能的实现中,所述类簇的抽取概率均值大小顺序为多个所述类簇中的每个对应的所述抽取概率的均值按照从大到小的排序;所述样本的抽取概率大小顺序为每个所述类簇中若干个所述图像序列样本的抽取概率按照从大到小的排序。
在一个可能的实现中,所述按照所述类簇中若干个所述图像序列样本之间的样本抽取顺序抽取所述图像序列样本的步骤之后,还包括:
对所述已抽取图像序列样本进行标记,以使所述已抽取图像序列样本不再被重复抽取。
在一个可能的实现中,所述获取多个图像序列样本的特征数据的步骤,包括:
获取多个视频样本,并对多个所述视频样本进行裁剪,得到多个时长相同的视频序列;
对多个所述视频序列提取图像特征,得到多个所述视频样本的特征数据。
在一个可能的实现中,所述特征数据包括下述任意一项或多项:
清晰度、色度、对比度、亮度、空域信息、时域信息、码率、视频质量指标。
在一个可能的实现中,获取每个所述图像序列样本对应的抽取概率的步骤,包括:
基于多个所述图像序列样本的特征数据,确定每个所述特征数据在所述图像特征维度空间中的最远近邻特征空间距离;
对多个所述特征数据对应的所述最远近邻特征空间距离进行归一化处理,得到归一化处理结果,将每个所述特征数据对应的所述归一化处理结果确定为所述特征数据对应的图像序列样本的抽取概率。
在一个可能的实现中,在所述基于多个所述图像序列样本的特征数据,确定每个所述特征数据在所述图像特征维度空间中的最远近邻特征空间距离的步骤之前,还包括:
对所述图像特征维度空间的多个图像特征维度进行降维处理,以去除多个所述图像特征维度中的冗余特征。
第二方面,提供了一种图像序列样本集的确定装置,包括:
获取模块,用于获取多个图像序列样本的特征数据以及每个所述图像序列样本对应的抽取概率;所述抽取概率与所述特征数据的稀疏程度成正比,所述稀疏程度为所述特征数据在图像特征维度空间中所处位置的稀疏程度;
聚类模块,用于根据所述特征数据对多个所述图像序列样本进行聚类处理,得到多个类簇;
抽取模块,用于按照多个所述类簇之间的类簇抽取顺序轮询抽取所述类簇,针对每个所述类簇,按照所述类簇中若干个所述图像序列样本之间的样本抽取顺序抽取所述图像序列样本,直到已抽取图像序列样本的数量达到预设数量,基于所述已抽取图像序列样本确定所述图像序列样本集;所述类簇抽取顺序为所述类簇的抽取概率均值大小顺序;所述样本抽取顺序为所述样本的抽取概率大小顺序。
第三方面,本申请实施例又提供了一种计算机设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。
第四方面,本申请实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。
本申请实施例带来了以下有益效果:
本申请实施例提供的一种图像序列样本集的确定方法、装置以及计算机设备,能够根据图像序列样本的特征数据对多个图像序列样本进行聚类处理从而得到多个类簇,再按照多个类簇之间的类簇抽取顺序轮询抽取类簇,而针对每个类簇则按照类簇中若干个图像序列样本之间的样本抽取顺序抽取图像序列样本,直到已抽取图像序列样本的数量达到预设数量后基于已抽取图像确定图像序列样本集,本方案中的类簇抽取顺序为类簇的抽取概率均值大小顺序,样本抽取顺序为样本的抽取概率大小顺序,而其中的抽取概率与特征数据在图像特征维度空间中所处位置的数据稀疏程度成正比,通过聚类处理能够进一步将原图像序列样本按照特征数据的特征空间进行均衡划分,再将单个图像序列样本抽取概率和聚类后的类簇轮询抽取概率结合,不仅考虑了抽取出的图像序列样本集在特征数据方面的均衡,还考虑了抽取出的图像序列样本集在的类别方面的均衡,减小了图像序列样本集的抽取随机性,使抽取出的图像序列样本集的特征分布均衡程度得到提高,特征的分布越均衡则样本的多样性越强,进而提高了图像序列样本集的多样性均衡程度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像序列样本集的确定方法的流程示意图;
图2为本申请实施例提供的源数据集特征分布情况的示意图;
图3为目前现有的筛选后的数据特征分布情况的示意图;
图4为通过本申请实施例提供的方法进行筛选后得出的数据特征分布情况的示意图;
图5为本申请实施例提供的一种图像序列样本集的确定装置的结构示意图;
图6示出了本申请实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在视频质量评价领域,主观评价视频样本集的构建成本是较为昂贵,所以需要构建一个更加高效均衡的视频样本集,来减少对冗余的样本进行标注。目前,在筛选用于后续进行主观质量评价的视频样本集时,只是从样本的特征空间距离考虑,并且实际抽取概率是存在随机性,并没有考虑样本在特征空间中存在的聚类分布,且不是按照最大概率来抽取,这样导致了其筛选的结果存在较大的随机性。
而且,在大量图像序列样本中筛选图像序列样本集的时候,会出现伪均衡,即图像序列样本集大部分是由特征空间中较为集中的图像序列样本组成,忽略了特征空间中较为稀疏的数据。在抽取图像序列样本的时候,只考虑了图像序列样本的特征空间距离,实际图像序列样本抽取概率的随机性较大,使抽取出的图像序列样本集的特征分布均衡程度较低,而特征的分布越不均衡则样本的多样性越差,进而导致筛选出的图像序列样本集的多样均衡程度较差。
基于此,本申请实施例提供了一种图像序列样本集的确定方法,通过该方法可以缓解筛选出的图像序列样本集的多样均衡程度较差的技术问题,使筛选出的图像序列样本集达到多样均衡性。
下面结合附图对本发明实施例进行进一步地介绍。
图1为本申请实施例提供的一种图像序列样本集的确定方法的流程示意图。如图1所示,该方法包括:
步骤S110,获取多个图像序列样本的特征数据以及每个图像序列样本对应的抽取概率。
其中,抽取概率与特征数据的稀疏程度成正比,稀疏程度为特征数据在图像特征维度空间中所处位置的稀疏程度。该抽取概率可以根据该图像序列样本的特征数据在图像特征维度空间中所处位置的数据密度而计算得到,以使该图像序列样本的抽取概率与其特征数据所处位置的数据稀疏程度成正比。
需要说明的是,图像序列样本可以是静态图像的图片样本,也可以是动态图像的视频样本,本申请实施例以图像序列样本为视频样本为例进行说明。
本步骤中,计算机设备可以在获取多个图像序列样本的特征数据后,根据这些特征数据在图像特征维度空间中所处位置的数据密度计算这些特征数据各自对应的图像序列样本抽取概率。
步骤S120,根据特征数据对多个图像序列样本进行聚类处理,得到多个类簇。
需要说明的是,本步骤中的聚类处理可以通过聚类算法实现。例如,计算机设备采用聚类算法根据特征数据对多个图像序列样本进行数据聚类从而形成类簇,作为不同类型分布。
步骤S130,按照多个类簇之间的类簇抽取顺序轮询抽取类簇,针对每个类簇,按照类簇中若干个图像序列样本之间的样本抽取顺序抽取图像序列样本,直到已抽取图像序列样本的数量达到预设数量,基于已抽取图像序列样本确定图像序列样本集。
其中,类簇抽取顺序为类簇的抽取概率均值大小顺序,样本抽取顺序为样本的抽取概率大小顺序。例如,类簇的抽取概率均值大小顺序可以为多个类簇中的每个对应的抽取概率的均值按照从大到小的排序,样本的抽取概率大小顺序可以为每个类簇中若干个图像序列样本的抽取概率按照从大到小的排序。
通过将图像序列样本的特征数据稀疏程度作为图像序列样本筛选概率,再进一步对图像序列样本按照特征数据进行聚类划分,以将源图像序列样本进行空间均衡拆分,在最终筛选图像序列样本时,结合单个图像序列样本抽取概率和聚类后的类簇抽取概率轮询抽取各类簇,不仅达到了特征均衡,也满足了类别均衡覆盖,大幅度减小了抽取随机性,可实现筛选后的图像序列样本集特征分布更加均衡,而特征的分布越均衡则样本的多样性越强,进而提高了图像序列样本集的多样性均衡程度。
下面对上述步骤进行详细介绍。
在一些实施例中,类簇的抽取概率均值大小顺序为多个类簇中的每个对应的抽取概率的均值按照从大到小的排序;样本的抽取概率大小顺序为每个类簇中若干个图像序列样本的抽取概率按照从大到小的排序。
示例性的,由每个类簇中的图像序列样本抽取概率计算类簇的概率均值作为类簇的抽取概率,根据此类簇抽取概率均值按从大到小进行排序,便于根据需要筛选抽取的图像序列样本个数,按照从大到小的排序轮询每个类簇进行抽取。在轮询到某个类簇时,根据此类簇中的图像序列样本抽取概率从大到小进行抽取,即在类簇内按图像序列样本抽取概率排序进行抽取。在实际应用中,可以按目标筛选的总个数循环上述步骤,直至抽取数量达到目标个数停止抽取流程,完成筛选。
在一些实施例中,对图像序列样本进行聚类处理的过程可以通过多种不同的聚类算法实现。作为一个示例,上述步骤S120可以包括如下步骤:
步骤a),根据所述特征数据,通过下述任意一项的聚类算法对多个所述图像序列样本进行聚类处理,得到多个类簇:K-means算法、Mean-Shift算法、K-MEDOIDS算法、Clarans算法、Clara算法、DBSCAN算法。
对于上述步骤a),计算机设备可以采用本步骤中的任意一种聚类算法,对多个图像序列样本根据其特征数据进行聚类,从而形成聚类后的类簇,还可以将多个类簇作为不同类型的分布。在实际应用中,本申请实施例可以采用sklearn工具包中的K-means包来处理聚类过程,以获得图像序列样本的聚类标签。
通过从多种不同聚类算法中任意选择一种算法来对图像序列样本进行聚类,可以实现更加灵活高效的聚类过程,以适应多种不同的图像序列样本具体情况。
在一些实施例中,在抽取图像序列样本的过程中,可以通过对图像序列样本进行标记来避免图像序列样本被重复抽取。作为一个示例,上述步骤S130中按照所述类簇中若干个所述图像序列样本之间的样本抽取顺序抽取所述图像序列样本的过程之后,该方法还可以包括以下步骤:
步骤b),对已抽取图像序列样本进行标记,以使已抽取图像序列样本不再被重复抽取。
对于上述步骤b),示例性的,计算机设备可以对已经被抽取过的图像序列样本打上标记,标记其不再参与之后的筛选,避免该已经被抽取过的图像序列样本被重复抽取。通过对已被抽取过的图像序列样本进行标记,能够避免图像序列样本被重复抽取,防止抽取出的图像序列样本集出现重复样本的错误情况。
在一些实施例中,本申请实施例中的特征数据可以从经过裁剪的视频样本中获取。作为一个示例,图像序列样本为视频样本;上述步骤S110可以包括如下步骤:
步骤c),获取多个视频样本,并对多个所述视频样本进行裁剪,得到多个时长相同的视频序列;
步骤d),对多个所述视频序列提取图像特征,得到多个所述视频样本的特征数据。
对于上述步骤c),示例性的,可以在各种渠道收集大量的原始视频样本,例如,通过互联网和内部数据库收集将近30w条视频样本,每个视频样本经过裁剪处理为5s左右时长的片段。
对于上述步骤d),示例性的,计算机设备可以从裁剪后时长相同的视频片段中提取一系列的视频特征,从而构成视频样本的特征数据。通过对视频样本进行相同时长的裁剪、图像特征的提取,使得到的特征数据是视频样本中分布较为均衡的特征,避免特征数据在视频样本中过于集中。
基于上述步骤c)和步骤d),提取出的图像特征可以包括多种不同方面的特征。作为一个示例,特征数据包括下述任意一项或多项:清晰度、色度、对比度、亮度、空域信息、时域信息、码率、视频质量指标。
当然,提取的视频特征也可以不限于上述的八种图像特征,还可以根据图像性质提取其他更多方面的图像特征。通过清晰度、色度以及对比度等多种不同方面的图像特征,可以使提取出的特征数据的特征内容更加全面丰富,以使图像序列样本的聚类、抽取等过程更加合理。
在一些实施例中,上述图像序列样本对应的抽取概率可以基于其特征数据在图像特征维度空间中的最远近邻特征空间距离确定。作为一个示例,上述步骤S110中获取每个图像序列样本对应抽取概率的过程,可以包括如下步骤:
步骤e),基于多个所述图像序列样本的特征数据,确定每个所述特征数据在所述图像特征维度空间中的最远近邻特征空间距离;
步骤f),对多个所述特征数据对应的所述最远近邻特征空间距离进行归一化处理,得到归一化处理结果,将每个所述特征数据对应的所述归一化处理结果确定为所述特征数据对应的图像序列样本的抽取概率。
对于上述步骤e),示例性的,计算机设备可以先采用KNN近邻算法来对每个图像序列样本的特征数据计算特征空间近邻距离,对于每个特征数据,可以计算其预设个数的最近邻特征数据。其中,预设个数可以根据相对于总特征数据个数的近邻参数确定,例如,近邻参数设置为总特征数据个数的0.004,总特征数据个数为30w个,则此时KNN近邻个数为300000个*0.004=1200个。则对每个特征数据,通过计算其1200个最近邻的特征数据,可得到这1200个近邻中最大的特征空间距离Dis-knn。
对于上述步骤f),示例性的,计算机设备可以对所有特征数据的最大近邻距离进行max-min归一化处理,即将每个特征数据的最大近邻距离Dis-knn减去最小值,然后除以其中最大值与最小值的差,进而得到max-min归一化处理结果。之后便可以将归一化后的0至1之间的数值作为特征数据对应的图像序列样本抽取概率。需要说明的是,由于特征空间中的最大近邻距离越大,则此类特征分布的特征数据越稀疏,代表这类特征数据在总特征数据中占比越少,通过最大近邻距离计算出其对应的抽取概率便越大。
通过对图像序列样本计算其特征数据密度即最大近邻特征距离,并根据密度计算图像序列样本对应的抽取概率,以将每个图像序列样本特征数据的特征空间距离作为该图像序列样本的筛选概率,使同一图像序列样本的抽取概率与其特征数据在图像特征维度空间中所处位置的数据稀疏程度之间所成的正比关系,更加准确的符合正比例关系。
基于上述步骤e)和步骤f),上述的特征空间距离可以通过多种不同方式的距离来表示。作为一个示例,特征空间距离为下述任意一项:欧式距离、曼哈顿距离、明可夫斯基距离。
在实际应用中,特征空间距离的密度计算也可以替换为其他计算距离算法,本申请实施例以上述特征空间距离采用欧式距离为例进行说明。通过多种不同方式的距离来计算特征空间距离,可以使特征空间距离的计算过程更加灵活。
基于上述步骤e)和步骤f),图像特征维度空间中的若干个图像特征维度可以是经过降维后的维度。作为一个示例,在上述步骤e)之前,该方法还可以包括以下步骤:
步骤g),对图像特征维度空间的多个图像特征维度进行降维处理,以去除多个图像特征维度中的冗余特征。
对于上述步骤g),示例性的,可以在对原始视频样本提取各种维度的特征数据后,对提取的特征数据采用PCA特征降维算法进行特征空间降维,以去除特征冗余,便于后续的基于特征维度空间的距离计算过程。
例如,采用sklearn工具包中的PCA算法接口函数来对原始八维特征(如上述清晰度、色度、对比度、亮度、空域信息、时域信息、码率以及视频质量指标)特征数据进行降维处理,主成分维度可以设置为比个数八少的任意个数,如降到五个维度。之后便可以再进行步骤e)和步骤f),即对上述特征数据密度和抽取概率的计算过程。
当然,特征数据降维处理也可采用其他降维方法,如人工选取、方差筛选、PCA、LDA等等。再者,特征降维处理的步骤和特征空间中特征数据密度的计算也可以合并在一个步骤。本申请实施例中,可以通过采用PCA特征降维结合KNN近邻算法来计算图像序列样本的筛选概率。
如图2、图3和图4所示,每条曲线代表一种视频特征的概率分布,曲线越平缓,代表此特征在图像序列样本集中的分布越均衡。如图2所示,可见原始图像序列样本的各维特征分布非常不均衡,基本都较为集中在某些较窄的值域范围。而从图3和图4的分布曲线上看,通过本申请实施例提供的方法实现的图4曲线比现有方案实现的图3曲线更平缓,能实现更加均衡的效果,即筛选的图像序列样本集特征更均衡,从而使构建的图像序列样本集多样性分布更均衡。
图5提供了一种图像序列样本集的确定装置的结构示意图。如图5所示,图像序列样本集的确定装置500包括:
获取模块501,用于获取多个图像序列样本的特征数据以及每个所述图像序列样本对应的抽取概率;所述抽取概率与所述特征数据的稀疏程度成正比,所述稀疏程度为所述特征数据在图像特征维度空间中所处位置的稀疏程度;
聚类模块502,用于根据所述特征数据对多个所述图像序列样本进行聚类处理,得到多个类簇;
抽取模块503,用于按按照多个所述类簇之间的类簇抽取顺序轮询抽取所述类簇,针对每个所述类簇,按照所述类簇中若干个所述图像序列样本之间的样本抽取顺序抽取所述图像序列样本,直到已抽取图像序列样本的数量达到预设数量,基于所述已抽取图像序列样本确定所述图像序列样本集;所述类簇抽取顺序为所述类簇的抽取概率均值大小顺序;所述样本抽取顺序为所述样本的抽取概率大小顺序。
在一些实施例中,所述类簇的抽取概率均值大小顺序为多个所述类簇中的每个对应的所述抽取概率的均值按照从大到小的排序;所述样本的抽取概率大小顺序为每个所述类簇中若干个所述图像序列样本的抽取概率按照从大到小的排序。
在一些实施例中,该装置还包括:
标记模块,用于在按照所述类簇中若干个所述图像序列样本之间的样本抽取顺序抽取所述图像序列样本之后,对所述已抽取图像序列样本进行标记,以使所述已抽取图像序列样本不再被重复抽取。
在一些实施例中,获取模块501具体用于:
获取多个视频样本,并对多个所述视频样本进行裁剪,得到多个时长相同的视频序列;
对多个所述视频序列提取图像特征,得到多个所述视频样本的特征数据。
在一些实施例中,特征数据包括下述任意一项或多项:
清晰度、色度、对比度、亮度、空域信息、时域信息、码率、视频质量指标。
在一些实施例中,获取模块501具体用于:
基于多个所述图像序列样本的特征数据,确定每个所述特征数据在所述图像特征维度空间中的最远近邻特征空间距离;
对多个所述特征数据对应的所述最远近邻特征空间距离进行归一化处理,得到归一化处理结果,将每个所述特征数据对应的所述归一化处理结果确定为所述特征数据对应的图像序列样本的抽取概率。
在一些实施例中,该装置还包括:
降维模块,用于在基于多个所述图像序列样本的特征数据,确定每个所述特征数据在所述图像特征维度空间中的最远近邻特征空间距离之前,对图像特征维度空间的多个图像特征维度进行降维处理,以去除多个图像特征维度中的冗余特征。
本申请实施例提供的图像序列样本集的确定装置,与上述实施例提供的图像序列样本集的确定方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
如图6所示,本申请实施例提供的一种计算机设备600,包括:处理器601、存储器602和总线,所述存储器602存储有所述处理器601可执行的机器可读指令,当计算机设备运行时,所述处理器601与所述存储器602之间通过总线通信,所述处理器601执行所述机器可读指令,以执行如上述图像序列样本集的确定方法的步骤。
具体地,上述存储器602和处理器601能够为通用的存储器和处理器,这里不做具体限定,当处理器601运行存储器602存储的计算机程序时,能够执行上述图像序列样本集的确定方法。
处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。
对应于上述图像序列样本集的确定方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述图像序列样本集的确定方法的步骤。
本申请实施例所提供的图像序列样本集的确定装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
再例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述图像序列样本集的确定方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种图像序列样本集的确定方法,其特征在于,所述方法包括:
获取多个图像序列样本的特征数据以及每个所述图像序列样本对应的抽取概率;所述抽取概率与所述特征数据的稀疏程度成正比,所述稀疏程度为所述特征数据在图像特征维度空间中所处位置的稀疏程度;
根据所述特征数据对多个所述图像序列样本进行聚类处理,得到多个类簇;
按照多个所述类簇之间的类簇抽取顺序轮询抽取所述类簇,针对每个所述类簇,按照所述类簇中若干个所述图像序列样本之间的样本抽取顺序抽取所述图像序列样本,直到已抽取图像序列样本的数量达到预设数量,基于所述已抽取图像序列样本确定所述图像序列样本集;所述类簇抽取顺序为所述类簇的抽取概率均值大小顺序;所述样本抽取顺序为所述样本的抽取概率大小顺序。
2.根据权利要求1所述的方法,其特征在于,所述类簇的抽取概率均值大小顺序为多个所述类簇中的每个对应的所述抽取概率的均值按照从大到小的排序;所述样本的抽取概率大小顺序为每个所述类簇中若干个所述图像序列样本的抽取概率按照从大到小的排序。
3.根据权利要求1所述的方法,其特征在于,所述按照所述类簇中若干个所述图像序列样本之间的样本抽取顺序抽取所述图像序列样本的步骤之后,还包括:
对所述已抽取图像序列样本进行标记,以使所述已抽取图像序列样本不再被重复抽取。
4.根据权利要求1所述的方法,其特征在于,所述图像序列样本为视频样本;所述获取多个图像序列样本的特征数据的步骤,包括:
获取多个视频样本,并对多个所述视频样本进行裁剪,得到多个时长相同的视频序列;
对多个所述视频序列提取图像特征,得到多个所述视频样本的特征数据。
5.根据权利要求4所述的方法,其特征在于,所述特征数据包括下述任意一项或多项:
清晰度、色度、对比度、亮度、空域信息、时域信息、码率、视频质量指标。
6.根据权利要求1至5任一项所述的方法,其特征在于,获取每个所述图像序列样本对应的抽取概率的步骤,包括:
基于多个所述图像序列样本的特征数据,确定每个所述特征数据在所述图像特征维度空间中的最远近邻特征空间距离;
对多个所述特征数据对应的所述最远近邻特征空间距离进行归一化处理,得到归一化处理结果,将每个所述特征数据对应的所述归一化处理结果确定为所述特征数据对应的图像序列样本的抽取概率。
7.根据权利要求6所述的方法,其特征在于,在所述基于多个所述图像序列样本的特征数据,确定每个所述特征数据在所述图像特征维度空间中的最远近邻特征空间距离的步骤之前,还包括:
对所述图像特征维度空间的多个图像特征维度进行降维处理,以去除多个所述图像特征维度中的冗余特征。
8.一种图像序列样本集的确定装置,其特征在于,包括:
获取模块,用于获取多个图像序列样本的特征数据以及每个所述图像序列样本对应的抽取概率;所述抽取概率与所述特征数据的稀疏程度成正比,所述稀疏程度为所述特征数据在图像特征维度空间中所处位置的稀疏程度;
聚类模块,用于根据所述特征数据对多个所述图像序列样本进行聚类处理,得到多个类簇;
抽取模块,用于按照多个所述类簇之间的类簇抽取顺序轮询抽取所述类簇,针对每个所述类簇,按照所述类簇中若干个所述图像序列样本之间的样本抽取顺序抽取所述图像序列样本,直到已抽取图像序列样本的数量达到预设数量,基于所述已抽取图像序列样本确定所述图像序列样本集;所述类簇抽取顺序为所述类簇的抽取概率均值大小顺序;所述样本抽取顺序为所述样本的抽取概率大小顺序。
9.一种计算机设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。
CN202010998142.7A 2020-09-18 2020-09-18 图像序列样本集的确定方法、装置以及计算机设备 Active CN112070178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010998142.7A CN112070178B (zh) 2020-09-18 2020-09-18 图像序列样本集的确定方法、装置以及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010998142.7A CN112070178B (zh) 2020-09-18 2020-09-18 图像序列样本集的确定方法、装置以及计算机设备

Publications (2)

Publication Number Publication Date
CN112070178A CN112070178A (zh) 2020-12-11
CN112070178B true CN112070178B (zh) 2023-10-27

Family

ID=73681430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010998142.7A Active CN112070178B (zh) 2020-09-18 2020-09-18 图像序列样本集的确定方法、装置以及计算机设备

Country Status (1)

Country Link
CN (1) CN112070178B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894030A (zh) * 2016-04-01 2016-08-24 河海大学 基于分层多特征融合的高分辨率遥感图像场景分类方法
CN109902703A (zh) * 2018-09-03 2019-06-18 华为技术有限公司 一种时间序列异常检测方法及装置
WO2020119053A1 (zh) * 2018-12-11 2020-06-18 平安科技(深圳)有限公司 一种图片聚类方法、装置、存储介质及终端设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894030A (zh) * 2016-04-01 2016-08-24 河海大学 基于分层多特征融合的高分辨率遥感图像场景分类方法
CN109902703A (zh) * 2018-09-03 2019-06-18 华为技术有限公司 一种时间序列异常检测方法及装置
WO2020119053A1 (zh) * 2018-12-11 2020-06-18 平安科技(深圳)有限公司 一种图片聚类方法、装置、存储介质及终端设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于傅里叶变换和连通图的聚类分析方法;巨瑜芳;雷小锋;戴斌;庄伟;宋丰泰;;计算机应用研究(第08期);全文 *
面向结构稳定性的分裂-合并聚类算法;雷小锋;何涛;李奎儒;谢昆青;丁世飞;;计算机科学(第11期);全文 *

Also Published As

Publication number Publication date
CN112070178A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN106484837B (zh) 相似视频文件的检测方法和装置
CN110363202B (zh) 指针式仪表数值读取方法及计算机终端
CN110443297B (zh) 图像的聚类方法、装置及计算机存储介质
CN111353549B (zh) 图像标签的核验方法及装置、电子设备、存储介质
CN110807488A (zh) 一种基于用户对等组的异常检测方法及装置
CN108229232B (zh) 批量扫描二维码的方法和批量扫描二维码的装置
CN111291824B (zh) 时间序列的处理方法、装置、电子设备和计算机可读介质
WO2021175040A1 (zh) 视频处理方法及相关装置
CN115100450B (zh) 基于人工智能的智慧交通品牌汽车大数据检测方法及系统
CN112906696B (zh) 一种英文图像区域识别方法及装置
CN111046747A (zh) 人群计数模型的训练方法、人群计数方法、装置和服务器
CN112070178B (zh) 图像序列样本集的确定方法、装置以及计算机设备
CN113987243A (zh) 一种图像聚档方法、图像聚档装置和计算机可读存储介质
KR20160142460A (ko) 객체 인식 장치 및 방법
CN112861874B (zh) 一种基于多滤波器去噪结果的专家场去噪方法及系统
CN112836759B (zh) 一种机选图片评价方法、装置、存储介质及电子设备
CN112288045B (zh) 一种印章真伪判别方法
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN110942081B (zh) 图像处理方法、装置、电子设备及可读存储介质
CN114626436A (zh) 一种用户分类方法、装置、电子设备及存储介质
CN112132239A (zh) 一种训练方法、装置、设备和存储介质
CN111258788A (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN112968968B (zh) 基于无监督聚类的物联网设备流量指纹识别方法和装置
WO2019127504A1 (zh) 一种相似度的度量方法、装置及存储装置
CN111897984B (zh) 图片标注方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant