CN114627036B - 多媒体资源的处理方法、装置、可读介质和电子设备 - Google Patents
多媒体资源的处理方法、装置、可读介质和电子设备 Download PDFInfo
- Publication number
- CN114627036B CN114627036B CN202210247891.5A CN202210247891A CN114627036B CN 114627036 B CN114627036 B CN 114627036B CN 202210247891 A CN202210247891 A CN 202210247891A CN 114627036 B CN114627036 B CN 114627036B
- Authority
- CN
- China
- Prior art keywords
- image
- image frame
- frame
- duplication
- image frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 2
- 238000000605 extraction Methods 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000001914 filtration Methods 0.000 claims abstract description 62
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013145 classification model Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 12
- 230000000295 complement effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013210 evaluation model Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
- G06F16/437—Administration of user profiles, e.g. generation, initialisation, adaptation, distribution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20224—Image subtraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本公开涉及一种多媒体资源的处理方法、装置、可读介质和电子设备,涉及电子信息处理技术领域,该方法包括:按照提取规则从待处理的多媒体资源中提取多个待选图像帧,提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,帧间差分量用于指示两个图像帧之间的差异,确定每个待选图像帧对应的图像特征,并根据每个待选图像帧对应的图像特征对多个待选图像帧进行去重处理,得到至少一个去重图像帧,检测每个去重图像帧是否满足过滤条件,并将满足过滤条件的去重图像帧作为目标图像帧。本公开通过提取、去重和过滤处理,以及提取规则和过滤条件的灵活设置,从多媒体资源中选出目标图像帧,能够提高目标图像帧的覆盖率、质量和准确度。
Description
技术领域
本公开涉及电子信息处理技术领域,具体地,涉及一种多媒体资源的处理方法、装置、可读介质和电子设备。
背景技术
随着终端技术和图像处理技术的不断发展,越来越多的用户使用终端设备来拍摄视频,并将视频发布在各种信息平台种。在对海量的视频数据进行识别、分类、推广等处理时,通常需要从视频数据中选取部分图像帧作为视频数据的整体表示。通常情况下,可以按照预设的时间间隔从视频数据中选取图像帧来代表视频数据,然而视频数据中的内容各式各样,选取出的图像帧往往存在大量的冗余,也可能漏掉关键场景,或者存在许多无效的图像帧,也就是说选取的图像帧质量较差,无法有效代表视频数据。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种多媒体资源的处理方法,所述方法包括:
按照提取规则从待处理的多媒体资源中提取多个待选图像帧,所述提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,所述帧间差分量用于指示两个图像帧之间的差异;
确定每个所述待选图像帧对应的图像特征,并根据每个所述待选图像帧对应的图像特征对多个所述待选图像帧进行去重处理,得到至少一个去重图像帧;
检测每个所述去重图像帧是否满足过滤条件,并将满足所述过滤条件的所述去重图像帧作为目标图像帧。
第二方面,本公开提供一种多媒体资源的处理装置,所述装置包括:
提取模块,用于按照提取规则从待处理的多媒体资源中提取多个待选图像帧,所述提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,所述帧间差分量用于指示两个图像帧之间的差异;
去重模块,用于确定每个所述待选图像帧对应的图像特征,并根据每个所述待选图像帧对应的图像特征对多个所述待选图像帧进行去重处理,得到至少一个去重图像帧;
过滤模块,用于检测每个所述去重图像帧是否满足过滤条件,并将满足所述过滤条件的所述去重图像帧作为目标图像帧。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
通过上述技术方案,本公开首先按照提取规则从待处理的多媒体资源中提取多个待选图像帧,其中,提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种。之后确定每个待选图像帧对应的图像特征,并以此对多个待选图像帧进行去重处理,得到至少一个去重图像帧。最后检测每个去重图像帧是否满足过滤条件,并将满足过滤条件的去重图像帧作为目标图像帧。本公开通过提取、去重和过滤处理,以及提取规则和过滤条件的灵活设置,从多媒体资源中选出目标图像帧,能够提高目标图像帧的覆盖率、质量和准确度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据一示例性实施例示出的一种多媒体资源的处理方法的流程图;
图2是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图;
图3是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图;
图4是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图;
图5是根据一示例性实施例示出的一种平滑差分量序列的示意图;
图6是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图;
图7是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图;
图8是根据一示例性实施例示出的一种多媒体资源的处理装置的框图;
图9是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图;
图10是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图;
图11是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图;
图12是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图;
图13是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图;
图14是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
在介绍本公开提供的多媒体资源的处理、装置、可读介质和电子设备之前,首先对本公开各个实施例所涉及的应用场景进行介绍。本公开的执行主体可以是服务器,也可以是终端设备。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端,以及诸如数字TV、台式计算机等等的固定终端。服务器例如可以包括但不限于:实体服务器,服务器集群或云端服务器等。
图1是根据一示例性实施例示出的一种多媒体资源的处理方法的流程图,如图1所示,该方法包括以下步骤:
步骤101,按照提取规则从待处理的多媒体资源中提取多个待选图像帧,提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,帧间差分量用于指示两个图像帧之间的差异。
举例来说,可以先获取待处理的多媒体资源,多媒体资源可以理解为内容完整、时长较长的多媒体文件,例如可以是视频文件,视频文件的格式可以是:.avi、.mp4、.wmv、.rmvb、.3gp、.mov、.asf等格式,本公开对此不作限定。待处理的多媒体资源可以是存储在服务器上的一个或多个多媒体资源,也可以是存储在终端设备上的一个或多个多媒体资源。以本公开的执行主体是服务器为例,服务器可以将新接收的指定数量个视频文件作为待处理的多媒体资源,也可以接收终端发送的处理请求,并将处理请求指示的视频文件作为待处理的多媒体资源。再比如,本公开的执行主体是终端设备,终端设备的显示界面上可以展示多个视频文件以供用户选择,之后接收用户触发的选择指令,并将选择指令指示的视频文件作为待处理的多媒体资源。
在确定多媒体资源之后,可以先对多媒体资源进行解析,得到多个图像帧,然后按照预设的提取规则从解析得到的图像帧中提取多个待选图像帧。其中,提取规则可以包括抽取间隔、编码格式、帧间差分量中的至少一种。抽取间隔用于限制待选图像帧之间的间隔,可以是时间间隔(可以表示为Frame_fps),也可以是帧数间隔。例如抽取间隔可以是1s,即表示在多个图像帧中,每隔1s抽取一个图像帧作为待选图像帧,抽取间隔也可以是5帧,即表示在多个图像帧中,每隔5帧抽取一个图像帧作为待选图像帧。抽取间隔可以是预设值,也可以是根据具体需求来设置,还可以是随机数。编码格式用于限定待选图像帧的编码方式,例如编码格式可以是关键帧编码(可以表示为Frame_key,例如I帧),即将多个图像帧中的I帧作为待选图像帧。帧间差分量(可以表示为Frame_diff)用于指示两个图像帧之间的差异。例如,若连续N个图像帧中,每两个相邻的图像帧的帧间差分量小于或等于差异度阈值,可以将N个图像帧中的任一图像帧作为待选图像帧。再比如,可以依次确定每两个相邻的图像帧的帧间差分量,得到包括多个帧间差分量的序列,再将序列中的极小值或者局部极小值对应的图像帧作为待选图像帧。这样,通过帧间差分量,能够筛选出多媒体资源中代表各个场景的图像帧,避免漏掉关键场景。提取规则可以存储在对应的配置文件中,可以根据具体需求灵活配置,例如,可以将抽取间隔、编码格式、帧间差分量进行灵活组合,还可以灵活设置抽取间隔、编码格式、帧间差分量的具体值。
步骤102,确定每个待选图像帧对应的图像特征,并根据每个待选图像帧对应的图像特征对多个待选图像帧进行去重处理,得到至少一个去重图像帧。
步骤103,检测每个去重图像帧是否满足过滤条件,并将满足过滤条件的去重图像帧作为目标图像帧。
示例的,在得到多个待选图像帧之后,可以分别确定每个待选图像帧对应的图像特征。具体的,可以利用预先训练的特征提取器对每个待选图像帧进行特征提取,以得到该待选图像帧对应的图像特征。图像特征能够表征对应的待选图像,例如可以是特征图(英文:Feature Map),也可以是特征向量。进一步的,可以根据每个待选图像帧对应的图像特征,对多个待选图像帧进行去重处理,得到至少一个去重图像帧,这样能够删除重复的待选图像帧,避免处理资源和存储资源的浪费。具体的,可以在多个待选图像帧中,比较任意两个待选图像帧对应的图像特征,若两个图像特征之间的余弦相似度或欧式距离小于预设阈值,那么确定这两个待选图像帧重复,可以删除其中一个待选图像帧,若两个图像特征之间的余弦相似度或欧式距离大于或等于预设阈值,那么确定这两个待选图像帧不重复,保留这两个待选图像帧。不断重复上述过程,直至不存在两个待选图像帧对应的图像特征的余弦相似度或欧式距离小于预设的阈值,那么可以将保留下来的待选图像帧作为去重图像帧。
最后,可以按照预设的过滤条件依次检测每个去重图像帧,如果不满足过滤条件,则表明该去重图像帧不满足要求,删除该去重图像帧,如果满足过滤条件,则表明该去重图像帧符合要求,可以作为目标图像帧,得到的目标图像帧可以是一个或多个。具体的,过滤条件可以包括单色占比、清晰度、图像质量中的至少一种。其中,单色占比用于限制目标图像帧中不存在某种颜色的占比过大,避免信息量过小的纯色图像。清晰度用于限制目标图像帧的清晰度大于或等于预设的清晰度阈值,避免模糊图像。图象质量用于限制目标图像帧的质量大于或等于预设的质量阈值,避免质量过低的图像。过滤规则同样可以存储在对应的配置文件中,可以根据具体需求灵活配置,例如,可以将单色占比、清晰度、图像质量进行灵活组合,还可以灵活设置单色占比、清晰度、图像质量对应的阈值。这样,通过过滤条件,能够删除质量较差或者无效的图像帧。因此,通过提取、去重和过滤处理,以及提取规则和过滤条件的灵活设置,从多媒体资源中选出能够代表多媒体资源的目标图像帧,能够有效提高目标图像帧的覆盖率、质量和准确度。
图2是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图,如图2示,该方法还可以包括:
步骤104,根据预先训练的分类模型,确定目标图像帧所属的目标类型。分类模型根据多个样本图像帧训练得到。
示例的,通过步骤101至步骤103,得到能够代表多媒体资源的目标图像帧之后,可以将目标图像帧输入预先训练的分类模型,以使分类模型对目标图像帧进行分类,分类模型输出目标图像帧所属的目标类型。具体的,分类模型能够确定目标图像帧与预设的多种类型的匹配概率,然后根据多个匹配概率来确定目标类型,例如可以将匹配概率最高的类型作为目标类型。类型可以理解为对目标图像帧体现的内容的分类,也可以理解为对目标图像帧体现的风格的分类。例如可以将目标图像帧划分为:风景、人物、动物、建筑、车辆、其他等类型,也可以将目标图像帧划分为:暖色调、冷色调等类型,还可以将目标图像帧划分为:武侠风格、科幻风格、都市风格等类型。分类模型可以根据多个样本图像帧训练得到,分类模型的结构例如可以是CNN(英文:Convolutional Neural Networks,中文:卷积神经网络)或者VGG(英文:Visual Geometry Group)网络等,本公开对此不作具体限定。
之后,还可以根据目标类型生成目标图像帧对应的标签,以便对大量的目标图像帧进行分类。例如预设的多种类型包括:武侠风格、科幻风格、都市风格,分别对应的标签为:“001”、“002”、“003”,那么若一个目标图像帧所属的目标类型为科幻风格,那么可以将“002”作为该目标图像帧的标签。
图3是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图,如图3示,该方法还可以包括:
步骤105,根据多个目标图像帧,确定多媒体资源对应的封面图像。和/或,
步骤106,根据多个目标图像帧,生成多媒体资源对应的展示资源,展示资源为动态图或者视频片段。
举例来说,通过步骤101至步骤103,得到能够代表多媒体资源的目标图像帧之后,若目标图像帧为多个,可以在多个目标图像帧中,选取多媒体资源对应的封面图像,以便用户通过封面图像快速了解对应的多媒体资源。确定封面图像的方式,可以将多个目标图像帧输入预先训练的模型,以使模型从多个目标图像帧选取最能代表多媒体资源的目标图像帧作为封面图像。也可以将属于指定类型的目标图像帧作为封面图像,例如指定类型为:人物,那么可以将目标类型为人物的目标图像帧作为封面图像。还可以统计多个目标图像帧所属的目标类型的数量,然后将数量最多的目标类型对应的目标图像帧作为封面图像。例如,目标图像帧有10个,其中5个属于动物,3个属于风景,2个属于其他,那么可以将任一个属于动物的目标图像帧作为封面图像。
在目标图像帧为多个的情况下,还可以利用多个目标图像帧,生成多媒体资源对应的展示资源,以便用户通过展示资源快速预览对应的多媒体资源,其中,展示资源为动态图(例如:.gif文件)或者视频片段。确定展示资源的方式,可以将所有的目标图像帧进行拼接,生成展示资源。也可以对每个目标图像帧的质量进行评分,然后将评分大于或等于评分阈值的目标图像帧进行拼接,生成展示资源。还可以将属于指定类型的目标图像帧进行拼接,生成展示资源。还可以统计多个目标图像帧所属的目标类型的数量,然后将数量最多的目标类型对应的目标图像帧进行拼接,生成展示资源。
图4是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图,如图4示,步骤101可以通过以下方式来实现:
步骤1011,对多媒体资源进行解码,得到多个图像帧。
步骤1012,若提取规则包括抽取间隔,按照抽取间隔从多个图像帧中抽取待选图像帧,抽取间隔为随机数。
步骤1013,若提取规则包括编码格式,将满足编码格式的图像帧作为待选图像帧。
步骤1014,若提取规则包括帧间差分量,根据相邻的图像帧的帧间差分量确定待选图像帧。
举例来说,可以先对多媒体资源进行解码,以得到按照时间顺序排列的多个图像帧(可以理解为全量帧),例如可以利用ffmpeg对多媒体资源进行解码。针对提取规则中包括抽取间隔的场景,可以按照抽取间隔从多个图像帧中抽取待选图像帧,抽取间隔可以为时间间隔(可以表示为Frame_fps),也可以是帧数间隔。例如多媒体资源的时长为50s,1s内包括24帧,那么解码共得到1200个图像帧。若抽取间隔为2s,表示每2s抽取一个图像帧作为待选图像帧,即每48个图像帧中选抽取一个图像帧作为待选图像帧,可以得到25个待选图像帧。若抽取间隔为10帧,表示在多个图像帧中,每10个图像帧中抽取一个图像帧作为待选图像帧,可以得到120个待选图像帧。抽取间隔可以是预设值,也可以是根据具体需求来设置。为了避免防止多媒体资源中插入不合规的图像帧,还可以将抽取间隔设置为随机数,例如可以选择满足均匀分布、独立分布或高斯分布的随机数,实现无规律的抽取,从而提高抗干扰能力。
针对提取规则包括编码格式的场景,可以根据每个图像帧的编码格式来进行筛选,将满足编码格式的图像帧作为待选图像帧。例如,多个图像帧中包括I帧、P帧、B帧三种编码格式,可以将编码格式为I帧的图像帧作为待选图像帧。
针对提取规则包括帧间差分量的场景,可以根据多个图像帧中,相邻的图像帧的帧间差分量确定待选图像帧。
在一种实现方式中,步骤1014可以通过以下步骤来实现:
步骤1)将每个图像帧进行降维处理,得到每个图像帧对应的降维图像帧。
示例的,为了减少后续的计算量,可以对每个图像帧先进行降维处理,得到每个图像帧对应的降维图像帧。降维图像帧的尺寸与对应的图像帧的尺寸相同,且降维图像帧包含的信息量小于对应的图像帧包含的信息量。例如,图像帧通常是在RGB颜色空间中的图像,可以将每个图像帧转换为灰度图,作为对应的降维图像。
步骤2)依次确定每两个相邻的降维图像帧的帧间差分量,得到差分量序列。
步骤3)对差分量序列进行滤波,得到平滑差分量序列。
步骤4)根据平滑差分量序列,在多个图像帧中确定待选图像帧。
示例的,可以按照每个图像帧在多媒体资源中的时序,依次确定每两个相邻的降维图像帧的帧间差分量,然后将多个帧间差分量按照时间顺序组合为差分量序列。帧间差分量可以通过公式1来确定:
其中,D_framek表示差分量序列中的第k个帧间差分量,h表示降维图像的高,w表示降维图像的宽,表示第k个降维图像中坐标为(i,j)的像素点的像素值(像素值的范围为0至255),/>表示第k-1个降维图像中坐标为(i,j)的像素点的像素值。
差分量序列表征的是多媒体资源中像素前后的变化强度,能够反映多媒体资源的场景变换过程,差分量序列中的极小值对应的图像帧,能够代表场景中最稳定的图像。但如果直接选取极小值容易受到噪声的干扰,因此可以对差分量序列进行滤波,得到平滑差分量序列。例如可以通过预设的滤波器对差分量序列进行滤波,滤波器可以设置为:其中,ω表示滤波器,N表示滤波窗的大小。
之后,可以根据平滑差分量序列,在多个图像帧中确定待选图像帧。具体的,可以通过以下两种方式来确定待选图像帧:
方式一:
步骤41)在平滑差分量序列中确定多个局部极小值,并将每个局部极小值对应的图像帧作为初始待选图像帧。
步骤42)若平滑差分量序列中,初始待选图像帧对应的帧间差分量大于或等于差分量阈值,将初始待选图像帧作为待选图像帧。
示例的,可以先求得平滑差分量序列中的多个局部极小值,局部极小值对应的图像帧,能够代表该种场景中最稳定的图像,可以作为初始待选图像帧。局部极小值可以根据平滑差分量序列的斜率来确定。如图5所示的平滑差分量序列,纵轴表示帧间差分量的大小,横轴表示帧间差分量在平滑差分量序列中的序号,可以得到A、B、C三个局部极小值,进一步的,可以将A、B、C对应的三个图像帧作为初始待选图像帧。
进一步的,若多媒体资源中出现图像中某个区域变化较小的情况,如果按照局部极小值确定待选图像帧,可能会引入重复的图像帧。例如,多媒体资源中存在连续多个图像帧展示了某社交软件的聊天界面,聊天记录中包括一个动态的表情包,使得该表情包所在区域的像素值一直有波动,但相邻两个图像帧的帧间差分量很小,可能存在多个局部极小值,这些局部极小值对应的图像帧中的内容却十分接近。因此,可以设置差分量阈值,然后判断平滑差分量序列中,初始待选图像帧对应的帧间差分量是否大于或等于差分量阈值(例如可以设置为5),若初始待选图像帧对应的帧间差分量大于或等于差分量阈值,将初始待选图像帧作为待选图像帧,若初始待选图像帧对应的帧间差分量小于差分量阈值,删除初始待选图像帧。
方式二:
步骤43)提取平滑差分量序列中位于指定范围内的多个帧间差分量,作为补帧差分量序列。
步骤44)若补帧差分量序列中存在连续指定数量个帧间差分量为单调变化,在连续指定数量个帧间差分量中确定目标帧间差分量,并将目标帧间差分量对应的图像帧作为待选图像帧。
示例的,平滑差分量序列中,起始部分和结束部分往往是单调的,不存在局部极小值,可能导致漏掉起始场景或者结束场景的问题。因此,可以将起始部分和结束部分作为指定范围,从平滑差分量序列中提取位于指定范围内多个的帧间差分量,作为补帧差分量序列。可以根据多媒体资源的时长确定指定范围,例如,多媒体资源的时长为1min,指定范围可以是0-10s,和50-60s。那么补帧差分量序列即为平滑差分量序列中位于0-10s,和50-60s内的帧间差分量。
若补帧差分量序列中存在连续指定数量(例如可以是20)个帧间差分量为单调变化(即单调递增,或者单调递减),那么可以在连续指定数量个帧间差分量中确定目标帧间差分量,并将目标帧间差分量对应图像帧作为待选图像帧。具体的,可以将连续指定数量个帧间差分量中的中间值作为目标帧间差分量,也可以在连续指定数量个帧间差分量中随机抽取一个作为目标帧间差分量。例如,补帧差分量序列中存在连续的19个帧间差分量单调递增,那么可以将这连续的19个帧间差分量中的第10个帧间差分量作为目标帧间差分量,并将对应图像帧作为待选图像帧。
图6是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图,如图6示,在步骤102之前,该方法还可以包括:
步骤107,按照每个待选图像帧在多媒体资源中的时间顺序,对多个待选图像帧进行排序。
举例来说,在对待选图像帧进行特征提取之前,可以先将多个待选图像帧进行聚合,将每个待选图像帧,按照该待选图像帧在多媒体资源中的时间顺序进行排序。具体的,按照抽取间隔确定的待选图像帧可以表示为:Frame_fps{f_fps_1,f_fps_2,......,f_fps_m},按照编码格式确定的待选图像帧可以表示为Frame_key{f_key_1,f_key_2,......,f_key_n},按照帧间差分量确定的待选图像帧可以表示为Frame_diff{f_diff_1,f_diff_2,......,f_diff_k}。按照在各个待选图像帧在多媒体资源中的时间顺序进行排序聚合,得到的图像集可以为:{f_fps_1,f_key_1,f_diff_1,f_fps_2,f_key_2,f_diff_2,......,f_fps_m,f_key_n,f_diff_k},其中包括m+n+k个待选图像帧。
相应地,步骤102可以通过以下方式来实现:
步骤1021,根据预先训练的识别模型,确定排序后的每个待选图像帧对应的图像特征,识别模型根据多个样本图像帧训练得到。
步骤1022,在特征库中依次检索每个待选图像帧对应的图像特征。
步骤1023,若特征库中不存在与该待选图像帧对应的图像特征匹配的图像特征,将该待选图像帧对应的图像特征存入特征库。
步骤1024,将特征库中存储的图像特征对应的待选图像帧作为去重图像帧。
示例的,可以依次将每个待选图像帧输入预先训练的识别模型,以使识别模型对该待选图像帧进行特征提取,得到识别模型输出的该待选图像帧对应的图像特征。识别模型的结构例如可以是CNN或者VGG网络等。例如可以是CNN去掉全连接层,并采用averagepooling或mean pooling方式进行聚合,得到预设维度(例如可以是256、512)的图像特征。识别模型可以是根据多个样本图像帧训练得到,训练过程中采用的损失函数可以是triplet loss、center loss等,还可以采用pair-based度量学习的方法训练识别模型。
进一步的,可以预先建立一个特征库,用于存储图像特征,初始状态下,特征库为空。之后,可以在特征库中依次检索每个待选图像帧对应的图像特征。如果特征库中不存在与该待选图像帧对应的图像特征匹配的图像特征,那么表明该待选图像帧对应的图像特征,与特征库中存储的图像特征均不相同,可以将该待选图像帧对应的图像特征存入特征库。如果特征库中存在与该待选图像帧对应的图像特征匹配的图像特征,那么表明该待选图像帧对应的图像特征,与特征库中存储的图像特征重复,可以删除该待选图像帧。在检索完每个待选图像帧对应的图像特征之后,特征库中存储的图像特征对应的待选图像帧即为去重图像帧。
其中,图像特征匹配可以理解为两个图像特征之间的余弦相似度或欧式距离小于预设阈值。特征库可以基于ANN(英文:Approximate Nearest Neighbor)或者FAISS(英文:Facebook AI Similarity Search)等特征检索引擎建立。
图7是根据一示例性实施例示出的另一种多媒体资源的处理方法的流程图,如图7示,步骤103可以包括:
步骤1031,针对每个去重图像帧,将该去重图像帧转换到HSV颜色空间,得到该去重图像帧对应的中间图像,若该去重图像帧对应的中间图像中每种颜色的占比均小于颜色阈值,将该去重图像帧作为目标图像帧。和/或,
步骤1032,针对每个去重图像帧,确定该去重图像帧的清晰度,若该去重图像帧的清晰度大于或等于清晰度阈值,将该去重图像帧作为目标图像帧。
示例的,在对去重图像帧进行过滤时,可以先将每个去重图像帧转换到HSV颜色空间,得到对应的中间图像。然后依次确定每个中间图像中每种颜色的占比,若不存在某种颜色的占比过大,即每种颜色的占比均小于颜色阈值(例如可以为50%),那么可以确定该中间图像对应的去重图像帧不是纯色图像,可以将该中间图像对应的去重图像帧作为目标图像。
还可以依次确定每个去重图像帧的清晰度(或者质量评分),若该去重图像帧的清晰度大于或等于预设的清晰度阈值(或者质量评分大于或等于预设的评分阈值),可以将该去重图像帧作为目标图像帧。具体的,清晰度(或者质量评分)的确定,可以通过预先训练的评价模型来实现。可以将每个去重图像帧输入评价模型,以使评价模型对该去重图像帧进行评价,得到评价模型输出的该去重图像帧的清晰度(或者质量评分)。评价模型的结构例如可以是CNN或者VGG网络等,本公开对此不作限定。
综上所述,本公开首先按照提取规则从待处理的多媒体资源中提取多个待选图像帧,其中,提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种。之后确定每个待选图像帧对应的图像特征,并以此对多个待选图像帧进行去重处理,得到至少一个去重图像帧。最后检测每个去重图像帧是否满足过滤条件,并将满足过滤条件的去重图像帧作为目标图像帧。本公开通过提取、去重和过滤处理,以及提取规则和过滤条件的灵活设置,从多媒体资源中选出目标图像帧,能够提高目标图像帧的覆盖率、质量和准确度。
图8是根据一示例性实施例示出的一种多媒体资源的处理装置的框图,如图8示,该装置200可以包括:
提取模块201,用于按照提取规则从待处理的多媒体资源中提取多个待选图像帧,提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,帧间差分量用于指示两个图像帧之间的差异。
去重模块202,用于确定每个待选图像帧对应的图像特征,并根据每个待选图像帧对应的图像特征对多个待选图像帧进行去重处理,得到至少一个去重图像帧。
过滤模块203,用于检测每个去重图像帧是否满足过滤条件,并将满足过滤条件的去重图像帧作为目标图像帧。
图9是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图,如图9示,该装置200还可以包括:
分类模块204,用于根据预先训练的分类模型,确定目标图像帧所属的目标类型。分类模型根据多个样本图像帧训练得到。
图10是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图,如图10示,该装置200还可以包括:
生成模块205,用于根据多个目标图像帧,确定多媒体资源对应的封面图像。和/或,根据多个目标图像帧,生成多媒体资源对应的展示资源,展示资源为动态图或者视频片段。
图11是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图,如图11示,提取模块201可以包括:
解码子模块2011,用于对多媒体资源进行解码,得到多个图像帧。
第一提取子模块2012,用于若提取规则包括抽取间隔,按照抽取间隔从多个图像帧中抽取待选图像帧,抽取间隔为随机数。
第二提取子模块2013,用于若提取规则包括编码格式,将满足编码格式的图像帧作为待选图像帧。
第三提取子模块2014,用于提取规则包括帧间差分量,根据相邻的图像帧的帧间差分量确定待选图像帧。
在一种实现方式中,第三提取子模块2014可以用于实现以下步骤:
步骤1)将每个图像帧进行降维处理,得到每个图像帧对应的降维图像帧。
步骤2)依次确定每两个相邻的降维图像帧的帧间差分量,得到差分量序列。
步骤3)对差分量序列进行滤波,得到平滑差分量序列。
步骤4)根据平滑差分量序列,在多个图像帧中确定待选图像帧。
在另一种实现方式中,步骤4)可以包括:
步骤41)在平滑差分量序列中确定多个局部极小值,并将每个局部极小值对应的图像帧作为初始待选图像帧。
步骤42)若平滑差分量序列中,初始待选图像帧对应的帧间差分量大于或等于差分量阈值,将初始待选图像帧作为待选图像帧。
在又一种实现方式中,步骤4)还可以包括:
步骤43)提取平滑差分量序列中位于指定范围内的多个帧间差分量,作为补帧差分量序列。
步骤44)若补帧差分量序列中存在连续指定数量个帧间差分量为单调变化,在连续指定数量个帧间差分量中确定目标帧间差分量,并将目标帧间差分量对应的图像帧作为待选图像帧。
图12是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图,如图12示,该装置200还可以包括:
排序模块206,用于在确定每个待选图像帧对应的图像特征之前,按照每个待选图像帧在多媒体资源中的时间顺序,对多个待选图像帧进行排序。
相应地,去重模块202可以包括:
特征提取子模块2021,用于根据预先训练的识别模型,确定排序后的每个待选图像帧对应的图像特征,识别模型根据多个样本图像帧训练得到。
检索子模块2022,用于在特征库中依次检索每个待选图像帧对应的图像特征。
去重子模块2023,用于若特征库中不存在与该待选图像帧对应的图像特征匹配的图像特征,将该待选图像帧对应的图像特征存入特征库。将特征库中存储的图像特征对应的待选图像帧作为去重图像帧。
图13是根据一示例性实施例示出的另一种多媒体资源的处理装置的框图,如图13示,过滤模块203可以包括:
第一过滤子模块2031,用于针对每个去重图像帧,将该去重图像帧转换到HSV颜色空间,得到该去重图像帧对应的中间图像,若该去重图像帧对应的中间图像中每种颜色的占比均小于颜色阈值,将该去重图像帧作为目标图像帧。和/或,
第二过滤子模块2032,用于针对每个去重图像帧,确定该去重图像帧的清晰度,若该去重图像帧的清晰度大于或等于清晰度阈值,将该去重图像帧作为目标图像帧。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开首先按照提取规则从待处理的多媒体资源中提取多个待选图像帧,其中,提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种。之后确定每个待选图像帧对应的图像特征,并以此对多个待选图像帧进行去重处理,得到至少一个去重图像帧。最后检测每个去重图像帧是否满足过滤条件,并将满足过滤条件的去重图像帧作为目标图像帧。本公开通过提取、去重和过滤处理,以及提取规则和过滤条件的灵活设置,从多媒体资源中选出目标图像帧,能够提高目标图像帧的覆盖率、质量和准确度。
下面参考图14,其示出了适于用来实现本公开实施例的电子设备(例如可以上述实施例中的执行主体,可以是终端设备或服务器)300的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图14示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图14所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图14示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,终端设备、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:按照提取规则从待处理的多媒体资源中提取多个待选图像帧,所述提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,所述帧间差分量用于指示两个图像帧之间的差异;确定每个所述待选图像帧对应的图像特征,并根据每个所述待选图像帧对应的图像特征对多个所述待选图像帧进行去重处理,得到至少一个去重图像帧;检测每个所述去重图像帧是否满足过滤条件,并将满足所述过滤条件的所述去重图像帧作为目标图像帧。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,提取模块还可以被描述为“提取多个待选图像帧的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种多媒体资源的处理方法,包括:按照提取规则从待处理的多媒体资源中提取多个待选图像帧,所述提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,所述帧间差分量用于指示两个图像帧之间的差异;确定每个所述待选图像帧对应的图像特征,并根据每个所述待选图像帧对应的图像特征对多个所述待选图像帧进行去重处理,得到至少一个去重图像帧;检测每个所述去重图像帧是否满足过滤条件,并将满足所述过滤条件的所述去重图像帧作为目标图像帧。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述方法还包括:根据预先训练的分类模型,确定所述目标图像帧所属的目标类型;所述分类模型根据多个样本图像帧训练得到。
根据本公开的一个或多个实施例,示例3提供了示例1的方法,所述方法还包括:根据多个所述目标图像帧,确定所述多媒体资源对应的封面图像;和/或,根据多个所述目标图像帧,生成所述多媒体资源对应的展示资源,所述展示资源为动态图或者视频片段。
根据本公开的一个或多个实施例,示例4提供了示例1的方法,所述按照提取规则从待处理的多媒体资源中提取多个待选图像帧,包括:对所述多媒体资源进行解码,得到多个图像帧;若所述提取规则包括抽取间隔,按照所述抽取间隔从多个所述图像帧中抽取所述待选图像帧,所述抽取间隔为随机数;若所述提取规则包括编码格式,将满足所述编码格式的所述图像帧作为所述待选图像帧;若所述提取规则包括帧间差分量,根据相邻的图像帧的帧间差分量确定所述待选图像帧。
根据本公开的一个或多个实施例,示例5提供了示例4的方法,所述根据相邻的图像帧的帧间差分量确定所述待选图像帧,包括:将每个所述图像帧进行降维处理,得到每个所述图像帧对应的降维图像帧;依次确定每两个相邻的所述降维图像帧的帧间差分量,得到差分量序列;对所述差分量序列进行滤波,得到平滑差分量序列;根据所述平滑差分量序列,在多个所述图像帧中确定所述待选图像帧。
根据本公开的一个或多个实施例,示例6提供了示例5的方法,所述根据所述平滑差分量序列,在多个所述图像帧中确定所述待选图像帧,包括:在所述平滑差分量序列中确定多个局部极小值,并将每个所述局部极小值对应的所述图像帧作为初始待选图像帧;若所述平滑差分量序列中,所述初始待选图像帧对应的帧间差分量大于或等于差分量阈值,将所述初始待选图像帧作为所述待选图像帧。
根据本公开的一个或多个实施例,示例7提供了示例6的方法,所述根据所述平滑差分量序列,在多个所述图像帧中确定所述待选图像帧,还包括:提取所述平滑差分量序列中位于指定范围内的多个帧间差分量,作为补帧差分量序列;若所述补帧差分量序列中存在连续指定数量个帧间差分量为单调变化,在连续指定数量个帧间差分量中确定目标帧间差分量,并将所述目标帧间差分量对应的所述图像帧作为所述待选图像帧。
根据本公开的一个或多个实施例,示例8提供了示例1的方法,在所述确定每个所述待选图像帧对应的图像特征之前,所述方法还包括:按照每个所述待选图像帧在所述多媒体资源中的时间顺序,对多个所述待选图像帧进行排序;所述确定每个所述待选图像帧对应的图像特征,根据每个所述待选图像帧对应的图像特征对多个所述待选图像帧进行去重处理,得到至少一个去重图像帧,包括:根据预先训练的识别模型,确定排序后的每个所述待选图像帧对应的图像特征,所述识别模型根据多个样本图像帧训练得到;在特征库中依次检索每个所述待选图像帧对应的图像特征;若所述特征库中不存在与该待选图像帧对应的图像特征匹配的图像特征,将该待选图像帧对应的图像特征存入所述特征库;将所述特征库中存储的图像特征对应的所述待选图像帧作为所述去重图像帧。
根据本公开的一个或多个实施例,示例9提供了示例1的方法,所述检测每个所述去重图像帧是否满足过滤条件,并将满足所述过滤条件的所述去重图像帧作为目标图像帧,包括:针对每个所述去重图像帧,将该去重图像帧转换到HSV颜色空间,得到该去重图像帧对应的中间图像,若该去重图像帧对应的中间图像中每种颜色的占比均小于颜色阈值,将该去重图像帧作为所述目标图像帧;和/或,针对每个所述去重图像帧,确定该去重图像帧的清晰度,若该去重图像帧的清晰度大于或等于清晰度阈值,将该去重图像帧作为所述目标图像帧。
根据本公开的一个或多个实施例,示例10提供了一种多媒体资源的处理装置,包括:提取模块,用于按照提取规则从待处理的多媒体资源中提取多个待选图像帧,所述提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,所述帧间差分量用于指示两个图像帧之间的差异;去重模块,用于确定每个所述待选图像帧对应的图像特征,并根据每个所述待选图像帧对应的图像特征对多个所述待选图像帧进行去重处理,得到至少一个去重图像帧;过滤模块,用于检测每个所述去重图像帧是否满足过滤条件,并将满足所述过滤条件的所述去重图像帧作为目标图像帧。
根据本公开的一个或多个实施例,示例11提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1至示例9中所述方法的步骤。
根据本公开的一个或多个实施例,示例12提供了一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1至示例9中所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
Claims (12)
1.一种多媒体资源的处理方法,其特征在于,所述方法包括:
按照提取规则从待处理的多媒体资源中提取多个待选图像帧,所述提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,所述帧间差分量用于指示两个图像帧之间的差异;
确定每个所述待选图像帧对应的图像特征,并根据每个所述待选图像帧对应的图像特征对多个所述待选图像帧进行去重处理,得到至少一个去重图像帧;
检测每个所述去重图像帧是否满足过滤条件,并将满足所述过滤条件的所述去重图像帧作为目标图像帧;所述过滤条件包括单色占比、清晰度、图像质量中的至少一种。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预先训练的分类模型,确定所述目标图像帧所属的目标类型;所述分类模型根据多个样本图像帧训练得到。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据多个所述目标图像帧,确定所述多媒体资源对应的封面图像;和/或,
根据多个所述目标图像帧,生成所述多媒体资源对应的展示资源,所述展示资源为动态图或者视频片段。
4.根据权利要求1所述的方法,其特征在于,所述按照提取规则从待处理的多媒体资源中提取多个待选图像帧,包括:
对所述多媒体资源进行解码,得到多个图像帧;
若所述提取规则包括抽取间隔,按照所述抽取间隔从多个所述图像帧中抽取所述待选图像帧,所述抽取间隔为随机数;
若所述提取规则包括编码格式,将满足所述编码格式的所述图像帧作为所述待选图像帧;
若所述提取规则包括帧间差分量,根据相邻的所述图像帧的帧间差分量确定所述待选图像帧。
5.根据权利要求4所述的方法,其特征在于,所述根据相邻的所述图像帧的帧间差分量确定所述待选图像帧,包括:
将每个所述图像帧进行降维处理,得到每个所述图像帧对应的降维图像帧;
依次确定每两个相邻的所述降维图像帧的帧间差分量,得到差分量序列;
对所述差分量序列进行滤波,得到平滑差分量序列;
根据所述平滑差分量序列,在多个所述图像帧中确定所述待选图像帧。
6.根据权利要求5所述的方法,其特征在于,所述根据所述平滑差分量序列,在多个所述图像帧中确定所述待选图像帧,包括:
在所述平滑差分量序列中确定多个局部极小值,并将每个所述局部极小值对应的所述图像帧作为初始待选图像帧;
若所述平滑差分量序列中,所述初始待选图像帧对应的帧间差分量大于或等于差分量阈值,将所述初始待选图像帧作为所述待选图像帧。
7.根据权利要求6所述的方法,其特征在于,所述根据所述平滑差分量序列,在多个所述图像帧中确定所述待选图像帧,还包括:
提取所述平滑差分量序列中位于指定范围内的多个帧间差分量,作为补帧差分量序列;
若所述补帧差分量序列中存在连续指定数量个帧间差分量为单调变化,在连续指定数量个帧间差分量中确定目标帧间差分量,并将所述目标帧间差分量对应的所述图像帧作为所述待选图像帧。
8.根据权利要求1所述的方法,其特征在于,在所述确定每个所述待选图像帧对应的图像特征之前,所述方法还包括:
按照每个所述待选图像帧在所述多媒体资源中的时间顺序,对多个所述待选图像帧进行排序;
所述确定每个所述待选图像帧对应的图像特征,根据每个所述待选图像帧对应的图像特征对多个所述待选图像帧进行去重处理,得到至少一个去重图像帧,包括:
根据预先训练的识别模型,确定排序后的每个所述待选图像帧对应的图像特征,所述识别模型根据多个样本图像帧训练得到;
在特征库中依次检索每个所述待选图像帧对应的图像特征;
若所述特征库中不存在与该待选图像帧对应的图像特征匹配的图像特征,将该待选图像帧对应的图像特征存入所述特征库;
将所述特征库中存储的图像特征对应的所述待选图像帧作为所述去重图像帧。
9.根据权利要求1所述的方法,其特征在于,所述检测每个所述去重图像帧是否满足过滤条件,并将满足所述过滤条件的所述去重图像帧作为目标图像帧,包括:
针对每个所述去重图像帧,将该去重图像帧转换到HSV颜色空间,得到该去重图像帧对应的中间图像,若该去重图像帧对应的中间图像中每种颜色的占比均小于颜色阈值,将该去重图像帧作为所述目标图像帧;和/或,
针对每个所述去重图像帧,确定该去重图像帧的清晰度,若该去重图像帧的清晰度大于或等于清晰度阈值,将该去重图像帧作为所述目标图像帧。
10.一种多媒体资源的处理装置,其特征在于,所述装置包括:
提取模块,用于按照提取规则从待处理的多媒体资源中提取多个待选图像帧,所述提取规则包括:抽取间隔、编码格式、帧间差分量中的至少一种,所述帧间差分量用于指示两个图像帧之间的差异;
去重模块,用于确定每个所述待选图像帧对应的图像特征,并根据每个所述待选图像帧对应的图像特征对多个所述待选图像帧进行去重处理,得到至少一个去重图像帧;
过滤模块,用于检测每个所述去重图像帧是否满足过滤条件,并将满足所述过滤条件的所述去重图像帧作为目标图像帧;所述过滤条件包括单色占比、清晰度、图像质量中的至少一种。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-9中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210247891.5A CN114627036B (zh) | 2022-03-14 | 2022-03-14 | 多媒体资源的处理方法、装置、可读介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210247891.5A CN114627036B (zh) | 2022-03-14 | 2022-03-14 | 多媒体资源的处理方法、装置、可读介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114627036A CN114627036A (zh) | 2022-06-14 |
CN114627036B true CN114627036B (zh) | 2023-10-27 |
Family
ID=81902223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210247891.5A Active CN114627036B (zh) | 2022-03-14 | 2022-03-14 | 多媒体资源的处理方法、装置、可读介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627036B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107529650A (zh) * | 2017-08-16 | 2018-01-02 | 广州视源电子科技股份有限公司 | 网络模型的构建和闭环检测方法、相应装置及计算机设备 |
CN109829467A (zh) * | 2017-11-23 | 2019-05-31 | 财团法人资讯工业策进会 | 图像标注方法、电子装置及非暂态电脑可读取储存媒体 |
CN110213614A (zh) * | 2019-05-08 | 2019-09-06 | 北京字节跳动网络技术有限公司 | 从视频文件中提取关键帧的方法和装置 |
CN111405288A (zh) * | 2020-03-19 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 视频抽帧方法、装置、电子设备及计算机可读存储介质 |
CN111445902A (zh) * | 2020-03-27 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 数据收集方法、装置、存储介质及电子设备 |
CN111696105A (zh) * | 2020-06-24 | 2020-09-22 | 北京金山云网络技术有限公司 | 视频处理方法、装置和电子设备 |
CN111797733A (zh) * | 2020-06-22 | 2020-10-20 | 浙江大华技术股份有限公司 | 一种基于图像的行为识别方法、装置、设备和存储介质 |
CN111914102A (zh) * | 2020-08-27 | 2020-11-10 | 上海掌门科技有限公司 | 编辑多媒体数据的方法、电子设备和计算机存储介质 |
CN112101075A (zh) * | 2019-06-18 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 信息植入区域的识别方法、装置、存储介质及电子设备 |
CN112423021A (zh) * | 2020-11-18 | 2021-02-26 | 北京有竹居网络技术有限公司 | 视频的处理方法、装置、可读介质和电子设备 |
CN112446363A (zh) * | 2021-01-29 | 2021-03-05 | 广州市玄武无线科技股份有限公司 | 一种基于视频抽帧的图像拼接与去重方法及装置 |
CN112788234A (zh) * | 2020-12-29 | 2021-05-11 | 紫光展锐(重庆)科技有限公司 | 一种图像处理方法及相关装置 |
CN112967321A (zh) * | 2021-03-05 | 2021-06-15 | 河北工程大学 | 运动目标的检测方法、装置、终端设备及存储介质 |
CN113010703A (zh) * | 2021-03-22 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法、装置、电子设备和存储介质 |
CN113301430A (zh) * | 2021-07-27 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 视频剪辑方法、装置、电子设备以及存储介质 |
CN113516113A (zh) * | 2020-12-28 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法、装置、设备及存储介质 |
CN113676752A (zh) * | 2021-09-01 | 2021-11-19 | 上海漫酷网络技术有限公司 | 一种互联网视频广告关键帧提取方法 |
CN113704506A (zh) * | 2021-04-06 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 一种媒体内容排重方法和相关装置 |
CN113761275A (zh) * | 2020-11-18 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 视频预览动图生成方法、装置、设备及可读存储介质 |
CN113918763A (zh) * | 2021-09-28 | 2022-01-11 | 广州虎牙科技有限公司 | 视频封面的推荐、生成方法、装置、设备及存储介质 |
CN114092623A (zh) * | 2021-12-03 | 2022-02-25 | 智道网联科技(北京)有限公司 | 点云数据去重方法及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090263014A1 (en) * | 2008-04-17 | 2009-10-22 | Yahoo! Inc. | Content fingerprinting for video and/or image |
US10535160B2 (en) * | 2017-07-24 | 2020-01-14 | Visom Technology, Inc. | Markerless augmented reality (AR) system |
-
2022
- 2022-03-14 CN CN202210247891.5A patent/CN114627036B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107529650A (zh) * | 2017-08-16 | 2018-01-02 | 广州视源电子科技股份有限公司 | 网络模型的构建和闭环检测方法、相应装置及计算机设备 |
CN109829467A (zh) * | 2017-11-23 | 2019-05-31 | 财团法人资讯工业策进会 | 图像标注方法、电子装置及非暂态电脑可读取储存媒体 |
CN110213614A (zh) * | 2019-05-08 | 2019-09-06 | 北京字节跳动网络技术有限公司 | 从视频文件中提取关键帧的方法和装置 |
CN112101075A (zh) * | 2019-06-18 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 信息植入区域的识别方法、装置、存储介质及电子设备 |
CN111405288A (zh) * | 2020-03-19 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 视频抽帧方法、装置、电子设备及计算机可读存储介质 |
CN111445902A (zh) * | 2020-03-27 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 数据收集方法、装置、存储介质及电子设备 |
CN111797733A (zh) * | 2020-06-22 | 2020-10-20 | 浙江大华技术股份有限公司 | 一种基于图像的行为识别方法、装置、设备和存储介质 |
CN111696105A (zh) * | 2020-06-24 | 2020-09-22 | 北京金山云网络技术有限公司 | 视频处理方法、装置和电子设备 |
WO2021259019A1 (zh) * | 2020-06-24 | 2021-12-30 | 北京金山云网络技术有限公司 | 视频处理方法、装置、电子设备和机器可读存储介质 |
CN111914102A (zh) * | 2020-08-27 | 2020-11-10 | 上海掌门科技有限公司 | 编辑多媒体数据的方法、电子设备和计算机存储介质 |
CN112423021A (zh) * | 2020-11-18 | 2021-02-26 | 北京有竹居网络技术有限公司 | 视频的处理方法、装置、可读介质和电子设备 |
CN113761275A (zh) * | 2020-11-18 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 视频预览动图生成方法、装置、设备及可读存储介质 |
CN113516113A (zh) * | 2020-12-28 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法、装置、设备及存储介质 |
CN112788234A (zh) * | 2020-12-29 | 2021-05-11 | 紫光展锐(重庆)科技有限公司 | 一种图像处理方法及相关装置 |
CN112446363A (zh) * | 2021-01-29 | 2021-03-05 | 广州市玄武无线科技股份有限公司 | 一种基于视频抽帧的图像拼接与去重方法及装置 |
CN112967321A (zh) * | 2021-03-05 | 2021-06-15 | 河北工程大学 | 运动目标的检测方法、装置、终端设备及存储介质 |
CN113010703A (zh) * | 2021-03-22 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法、装置、电子设备和存储介质 |
CN113704506A (zh) * | 2021-04-06 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 一种媒体内容排重方法和相关装置 |
CN113301430A (zh) * | 2021-07-27 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 视频剪辑方法、装置、电子设备以及存储介质 |
CN113676752A (zh) * | 2021-09-01 | 2021-11-19 | 上海漫酷网络技术有限公司 | 一种互联网视频广告关键帧提取方法 |
CN113918763A (zh) * | 2021-09-28 | 2022-01-11 | 广州虎牙科技有限公司 | 视频封面的推荐、生成方法、装置、设备及存储介质 |
CN114092623A (zh) * | 2021-12-03 | 2022-02-25 | 智道网联科技(北京)有限公司 | 点云数据去重方法及存储介质 |
Non-Patent Citations (2)
Title |
---|
Scalable hash from triplet loss feature aggregation for video de-duplication;Jia, Wei等;《Journal of Visual Communication and Image Representation》;第72卷;1-9 * |
面向冷启动用户的音乐热评混合推荐系统的研究与实现;陈明琨;《中国优秀硕士学位论文全文数据库 信息科技辑》(第12期);I138-486 * |
Also Published As
Publication number | Publication date |
---|---|
CN114627036A (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6833842B2 (ja) | システムリソース利用を改善するためのメディア指紋保持の最適化 | |
CN110321958B (zh) | 神经网络模型的训练方法、视频相似度确定方法 | |
KR102262481B1 (ko) | 비디오 컨텐츠 요약 | |
CN111476309A (zh) | 图像处理方法、模型训练方法、装置、设备及可读介质 | |
CN111445902B (zh) | 数据收集方法、装置、存储介质及电子设备 | |
WO2022252881A1 (zh) | 图像处理方法、装置、可读介质和电子设备 | |
CN110399847B (zh) | 关键帧提取方法、装置及电子设备 | |
CN112291634B (zh) | 视频处理方法及装置 | |
CN115346145A (zh) | 重复视频的识别方法、设备、储存介质及计算机程序产品 | |
CN113610034B (zh) | 识别视频中人物实体的方法、装置、存储介质及电子设备 | |
CN112990176B (zh) | 书写质量评价方法、装置和电子设备 | |
CN110674813B (zh) | 汉字识别方法、装置、计算机可读介质及电子设备 | |
CN114627036B (zh) | 多媒体资源的处理方法、装置、可读介质和电子设备 | |
WO2023088029A1 (zh) | 一种封面生成方法、装置、设备及介质 | |
CN110765304A (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN113033682B (zh) | 视频分类方法、装置、可读介质、电子设备 | |
CN111737575B (zh) | 内容分发方法、装置、可读介质及电子设备 | |
CN114495081A (zh) | 文本识别的方法、装置、可读介质和电子设备 | |
CN113705386A (zh) | 视频分类方法、装置、可读介质和电子设备 | |
CN113033680A (zh) | 视频分类方法、装置、可读介质及电子设备 | |
CN111639198A (zh) | 媒体文件识别方法、装置、可读介质及电子设备 | |
CN113779304A (zh) | 一种检测侵权视频的方法及装置 | |
CN117544814B (zh) | 基于执法记录仪的数据处理方法、装置、设备和可读介质 | |
WO2023024986A1 (zh) | 一种视频流畅度确定方法、装置、设备及介质 | |
CN114640826B (zh) | 数据处理方法、装置、可读介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |