CN113849088A - 目标图片确定方法及装置 - Google Patents

目标图片确定方法及装置 Download PDF

Info

Publication number
CN113849088A
CN113849088A CN202011281509.XA CN202011281509A CN113849088A CN 113849088 A CN113849088 A CN 113849088A CN 202011281509 A CN202011281509 A CN 202011281509A CN 113849088 A CN113849088 A CN 113849088A
Authority
CN
China
Prior art keywords
picture
processed
sliding window
characteristic
target picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011281509.XA
Other languages
English (en)
Other versions
CN113849088B (zh
Inventor
张志强
王莽
唐铭谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202011281509.XA priority Critical patent/CN113849088B/zh
Publication of CN113849088A publication Critical patent/CN113849088A/zh
Application granted granted Critical
Publication of CN113849088B publication Critical patent/CN113849088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例提供目标图片确定方法及装置,其中,所述目标图片确定方法包括基于特征检测模型获取与待处理图片对应的特征响应图片;根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片。所述目标图片确定方法基于特征检测模型结合滑窗检测的滑窗区域特征响应度计算的显著性目标检测算法,可以从图片或视频中确定出用户最关注的目标图片,后续可以使用该目标图片为图片或视频生成动静态封面,以起到吸引用户的作用,提高图片或视频的点击率。

Description

目标图片确定方法及装置
技术领域
本说明书实施例涉及计算机技术领域,特别涉及目标图片确定方法。本说明书一个或者多个实施例同时涉及目标图片确定装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
目前,相较于传统的图文表现形式,视频的主要特点是能将视觉与听觉结合起来,在短时间内形成相对强烈的感官刺激,面对如此大量的视频数据,有针对性的做视频分析与理解就变得异常重要。例如对图片或视频进行分析与理解,实现图片或视频封面生成,在视频流量分发中通过生成的封面起到吸引用户眼球的作用,提高点击率,也有助于后续的生产任务。
因此急需提供一种可以对图片或视频中的目标图片进行确定,后续可以基于该目标图片生成图片或视频封面的目标图片确定方法。
发明内容
有鉴于此,本说明书施例提供了目标图片确定方法。本说明书一个或者多个实施例同时涉及目标图片确定装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种目标图片确定方法,包括:
基于特征检测模型获取与待处理图片对应的特征响应图片;
根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片。
根据本说明书实施例的第二方面,提供了一种目标图片确定方法,包括:
基于用户的调用请求为所述用户展示图片输入界面;
接收所述用户基于所述图片输入界面发送的待处理图片;
基于特征检测模型获取与所述待处理图片对应的特征响应图片;
根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
根据本说明书实施例的第三方面,提供了一种目标图片确定方法,包括:
接收用户发送的调用请求,其中,所述调用请求中携带待处理图片;
基于特征检测模型获取与所述待处理图片对应的特征响应图片;
根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
根据本说明书实施例的第四方面,提供了一种目标图片确定装置,包括:
第一图片获取模块,被配置为基于特征检测模型获取与待处理图片对应的特征响应图片;
第一区域确定模块,被配置为根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
第一图片确定模块,被配置为计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片。
根据本说明书实施例的第五方面,提供了一种目标图片确定装置,包括:
界面展示模块,被配置为基于用户的调用请求为所述用户展示图片输入界面;
图片接收模块,被配置为接收所述用户基于所述图片输入界面发送的待处理图片;
第二图片获取模块,被配置为基于特征检测模型获取与所述待处理图片对应的特征响应图片;
第二区域确定模块,被配置为根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
第二图片确定模块,被配置为计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
根据本说明书实施例的第六方面,提供了一种目标图片确定装置,包括:
请求接收模块,被配置为接收用户发送的调用请求,其中,所述调用请求中携带待处理图片;
第三图片获取模块,被配置为基于特征检测模型获取与所述待处理图片对应的特征响应图片;
第三区域确定模块,被配置为根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
第三图片确定模块,被配置为计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
根据本说明书实施例的第七方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该指令被处理器执行时实现所述目标图片确定方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述目标图片确定方法的步骤。
本说明书一个实施例实现了目标图片确定方法及装置,其中,所述目标图片确定方法包括基于特征检测模型获取与待处理图片对应的特征响应图片;根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片。所述目标图片确定方法基于特征检测模型结合滑窗检测的滑窗区域特征响应度计算的显著性目标检测算法,可以从图片或视频中确定出用户最关注的目标图片,后续可以使用该目标图片为图片或视频生成动静态封面,以起到吸引用户的作用,提高图片或视频的点击率。
附图说明
图1是本说明书一个实施例提供的一种目标图片确定方法的具体应用场景的示例图;
图2是本说明书一个实施例提供的第一种目标图片确定方法的流程图;
图3是本说明书一个实施例提供的第一种目标图片确定方法中的特征响应图片的示意图;
图4是本说明书一个实施例提供的第一种目标图片确定方法中特征检测模型的结构示意图;
图5是本说明书一个实施例提供的第一种目标图片确定方法中滑窗、特征响应图片以及滑窗区域的示意图;
图6是本说明书一个实施例提供的第二种目标图片确定方法的流程图;
图7是本说明书一个实施例提供的第三种目标图片确定方法的流程图;
图8是本说明书一个实施例提供的第一种目标图片确定装置的结构示意;
图9是本说明书一个实施例提供的第二种目标图片确定装置的结构示意;
图10是本说明书一个实施例提供的第三种目标图片确定装置的结构示意;
图11是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
显著性目标检测:利用计算机视觉算法找到一张图片中人眼最关注的目标区域。
动静态封面:从图片或视频中截取用户最关注的部分用来替代原有图片或视频。
实际应用中,对动静态封面的生成主要包括:对于以人为主的封面生成以及对于通用的封面生成,其中,对于以人为主的封面的生成包括对静态封面的生成:主要是基于人体检测器和人脸检测器,通过检测框的大小、置信度、具体位置等信息做人为的后处理判断,选定主体并进行相应长宽比的裁剪,生成对应的静态封面图;对动态封面的生成:即对于视频,需要在多个视频帧之间做检测和跟踪,连成轨迹(tracklet)片段,最后根据上述规则选择特定的tracklet,生成对应的动态封面图,难点在于检测器对于像素变化(sfift)比较敏感,相邻帧之间的检测框可能有较大偏差,且可能出现检测不到的情况,在此基础上,为了保证输出的视频没有抖动,需要动态选择裁剪的位置,但是这个选择逻辑受检测框的影响比较大,实现较为困难。
而对于通用的封面生成:由于对于通用的封面生成方法也是基于检测器的,所以如果想得到较好的结果,需要对应类别的检测器,如果是万物,那这个检测器的成本会很高,实际操作明显是不合理的,由于这一局限,目前仅围绕人的封面展开使用;因此实际应用中的两种封面生成的方法均有明显的缺陷(badcase)。
为了解决上述技术问题,在本说明书中,提供了目标图片确定方法。本说明书一个或者多个实施例同时涉及目标图片确定装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种目标图片确定方法的具体应用场景的示例图。
图1的应用场景中包括终端102和服务器104,具体的,用户通过终端102将商品视频发送给服务器,其中,该商品视频为包括商品的视频介绍;服务器104在接收到该商品视频后,将该商品视频拆分为多个视频帧,然后依次将每个视频帧分别输入预先训练获得的特征检测模型,获得每个视频帧对应的特征响应图片,其中,特征检测模型可以理解为显著性检测模型,特征响应图片可以理解为显著性响应图片;例如将商品视频拆分为20个视频帧,依次将这20个视频帧分别输入显著性检测模型中,获得这20个视频帧中每个视频帧对应的显著性响应图片,即20张显著性响应图片。
再根据预设大小的滑窗对每个显著性响应图片进行滑窗检测,以获取每个显著性响应图片的滑窗区域,例如滑窗为10*5大小,根据这个大小的滑窗对上述20个显著性响应图片中的每个显著性响应图片进行滑窗检测,获取每个滑窗框选的显著性响应图片的区域作为滑窗区域。
由于显著性响应图片中显示的为每个像素点所在位置是一个显著性响应位置的概率值,例如0和1,因此每个滑窗区域内中显示的也为每个像素点所在位置是一个显著性响应位置的概率值,此时可以基于每个滑窗区域内的像素点的概率值计算出每个滑窗区域的显著性响应度;而实际应用中,由于显著性响应图片为概率图,表示图片中每个像素点的概率分布,人眼无法直观的看到效果,那么为了更好的对显著性响应图片做可视化分析,会将显著性响应图片中的每个像素点的概率值归一化为0~255,此时也可以基于每个滑窗区域内归一化后的像素值计算出每个滑窗区域的显著性响应度,最后选取显著性响应度最高的滑窗区域,将该滑窗区域所在的视频帧的区域作为目标区域,且将该目标区域作为该商品视频的静态视频封面。
本说明书实施例提供的所述目标图片确定方法应用于对商品视频的静态视频封面生成中,首先可以基于显著性检测模型确定出每个视频帧的显著性响应图片,然后基于滑窗检测对每个显著性响应图片中的滑窗区域进行获取,最后将显著性响应度最高的滑窗区域所在的视频帧区域作为该商品视频的视频封面,通过该商品视频的视频帧中最能吸引用户注意的区域作为视频封面,以提高该商品视频的观看率。
参见图2,图2示出了本说明书一个实施例提供的第一种目标图片确定方法的流程图,具体包括以下步骤。
步骤202:基于特征检测模型获取与待处理图片对应的特征响应图片。
其中,待处理图片包括但不限于包含任何物品的图片,例如包含商品的图片、包含人物的图片或者是包含风景的图片等等;实际应用中,特征检测模型为显著性检测模型,特征响应图片为显著性响应图片。
此外,待处理图片还可以是将某个视频分割后的视频帧形成的待处理图片,即每个视频帧可以作为一个待处理图片。
具体的,所述基于特征检测模型获取与待处理图片对应的特征响应图片之前,还包括:
将获取的待处理视频,分割为多个待处理视频帧,并将所述多个待处理视频帧确定为多个所述待处理图片。
实际应用中,待处理图片可以为单张图片,也可以是对待处理视频分割后形成的、连续的多个待处理视频帧,其中,每个待处理视频帧表示一张待处理图片,在待处理图片为单张图片的情况下,基于特征检测模型对单张待处理图片进行处理,获得单张待处理图片对应的特征响应图片;在待处理图片为对待处理视频分割后形成的多张待处理图片的情况下,基于特征检测模型对每张待处理图片进行处理,获得每张待处理图片对应的特征响应图片。
本说明书实施例提供的所述目标图片确定方法,既可以对单张待处理图片进行处理,以通过对单张待处理图片的处理,获得单张待处理图片中的目标图片,还可以对视频进行处理,以通过对视频的视频帧的处理,获得该视频的一个或多个目标图片,通过对单张图片以及视频的处理,丰富本说明书实施例提供的目标图片确定方法的适用场景。
具体实施时,特征检测模型为预先训练的特征检测模型,通过该特征检测模型可以获取待处理图片对应的特征响应图片。例如待处理图片为包含人物的图片,人物在该待处理图片中占据的面积较大,彩色也较为鲜艳,较为引人注目,那么该待处理图片对应的特征响应图片则为仅包含该人物的图片,参见图3,图3示出了本说明书一个实施例提供的第一种目标图片确定方法中的特征响应图片的示意图。
由图3可以看出待处理图片对应的特征响应图片中,仅显示该待处理图片中最引人注目的“人”的主体内容。
此外,所述特征检测模型通过如下步骤训练:
获取样本图片训练集,其中,所述样本图片训练集中包括样本图片以及与所述样本图片对应的样本标签;
按照预设处理区域对所述样本图片进行预处理,其中,所述预处理包括对所述样本图片按照预设处理区域进行内容擦除;
基于预处理后的样本图片以及所述样本标签对初始特征检测模型进行训练,获得所述特征检测模型,所述特征检测模型输出与所述样本图片对应的特征响应图片。
其中,样本图片包括但不限于包含任何主体的样本图片,例如包含商品的样本图片、包含人的样本图片或者是包含风景的样本图片等等;而样本图片对应的样本标签则可以理解为样本图片的特征响应图片,即包含样本图片中引人注意的主体的图片为特征响应图片。
实际应用中,在获取样本图片训练集后,会对样本图片训练集中的每个样本图片进行预处理,即对每个样本图片按照预设处理区域进行内容擦除,其中,预设处理区域可以根据实际需求进行设置,例如预设处理区域为样本图片的上下五分之一的区域或者上下四分之一区域等;那么在预设处理区域为样本图片的上下五分之一的区域的情况下,按照预设处理区域对样本图片进行预处理可以理解为,将每个样本图片的上下五分之一区域的内容进行擦除。
具体实施时,本说明书实施例提供的所述目标图片确定方法主要应用在新闻资讯领域,那么新闻资讯领域产生的图片中大概率会包含新闻字幕以及台标等,而新闻字幕以及台标本身就是一种显著性信息,但是在实际应用中新闻字幕以及台标却没有实际的含义,一般情况下也不会将新闻字幕以及台标作为图片或者视频的封面,若样本图片中携带有新闻字幕或者台标等信息,只会增加特征检测模型的样本特征,增加特征检测模型的训练难度,并且台标一般会显示在样本图片的左上角,新闻字幕一般会显示在样本图片的下方,因此为了降低特征检测模型的训练复杂度,提高特征检测模型的训练效率,在对特征检测模型训练前,均会对样本图片进行预处理,例如将样本图片的上下五分之一区域的内容进行删除,通过此种预处理方式可以大概率的删除掉样本图片中的台标以及新闻字幕等内容,实现将样本图片中的无用特征进行删除,以提高特征检测模型的训练速度,以快速的获得特征检测模型,其中,该特征检测模型在实际应用中输出样本图片对应的特征响应图片。
本说明书实施例中,在基于样本图片以及样本标签对初始特征检测模型进行训练之前,对样本图片进行预处理,擦除掉样本图片中多余的无效的图像特征,基于预处理后的少量的、精确的样本图片的图像特征以及样本标签可以实现对特征检测模型的高效率训练,快速的获取训练后的特征检测模型,提升用户体验。
参见图4,图4示出了本说明书一个实施例提供的第一种目标图片确定方法中特征检测模型的结构示意图。
图4中,将一张包含人的单帧图片输入特征检测模型,通过该特征检测模型对该单帧图片进行特征提取、卷积等一系列的计算,最终输出该单帧图片对应的特征响应图片,即一张黑白的包含人的特征响应图片。
步骤204:根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域。
其中,滑窗的大小可以根据实际应用进行设定,本申请对此不做任何限定。
具体的,在待处理图片为单张图片的情况下,基于特征检测模型获取的与待处理图片对应的特征响应图片也为单张;那么在获取待处理图片对应的特征响应图片之后,可以根据预设大小的滑窗对该特征响应图片按照预设规则进行滑窗检测,以确定该特征响应图片的滑窗区域,其中,预设规则包括但不限于从特征响应图片的中间位置进行滑窗检测、或者从特征响应图片的左上角位置进行滑窗检测等。
参见图5,图5示出了本说明书一个实施例提供的第一种目标图片确定方法中滑窗、特征响应图片以及滑窗区域的示意图。
仍以图3中的特征响应图片为例,预先设置滑窗502,将滑窗502在特征响应图片上从左向右依次进行滑窗检测,可以进行三次滑窗,确定出三个滑窗区域504;若滑窗502在进行三次滑窗检测之后,特征响应图片中还剩余一部分没有被检测到,但是剩余的部分不能填充整个滑窗502,那么滑窗502滑窗检测特征响应图片剩余的一部分即可,而该特征响应图片剩余的一部分则为滑窗区域。
具体实施时,在待处理图片为多个视频帧的情况下,基于特征检测模型获取的与待处理图片对应的特征响应图片也为多张,而根据滑窗对特征响应图片进行滑窗检测,确定特征响应图片的滑窗区域,则可以理解为根据预设大小的滑窗对每张特征响应图片进行滑窗检测,以确定每张特征响应图片的多个滑窗区域。
步骤206:计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片。
实际应用中,特征响应图片中显示的为每个像素点所在位置是一个显著性响应位置的概率值,例如0和1,因此每个滑窗区域内中显示的也为每个像素点所在位置是一个显著性响应位置的概率值,此时可以基于每个滑窗区域内的像素点的概率值计算出每个滑窗区域的特征响应度;而实际应用中,为了更好的对特征响应图片做可视化分析,会将特征响应图片中的每个像素点的概率值归一化为0~255,那么此时也可以基于每个滑窗区域内归一化后的像素值计算出每个滑窗区域的特征响应度,然后基于每个滑窗区域的特征响应度确定待处理图片中的目标图片。
具体的,若待处理图片为单张图片,那么所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
确定特征响应度最高的滑窗区域,将所述特征响应度最高的滑窗区域与所述待处理图片对应的区域作为目标图片。
实际应用中,滑窗区域中包含的主体越多,像素值越高,计算出的滑窗区域的特征响应度越高,因此在计算出每个滑窗区域的特征响应度之后,确定出特征响应度最高的滑窗区域,然后将特征响应度最高的滑窗区域与待处理图片对应的区域作为目标图片,即该目标图片中包含的主体则是最多的。
本说明书实施实例中,将单帧待处理图片输入特征检测模型中,得到特征响应图片,然后利用固定长度以及宽度的滑窗对该特征响应图片进行滑窗检测,基于特征响应度最高的滑窗区域作为待处理图片的目标图片,使得目标图片中包括待处理图片中最引人注意的内容,后续将该目标图片作为待处理图片的封面时,可以起到更好的吸引用户的效果。
而在确定了目标图片之后,可以将该目标图片确定为待处理图片的封面,以基于待处理图片的封面提高待处理图片的点击率,具体实现方式如下所述:
所述将所述特征响应度最高的滑窗区域与所述待处理图片对应的部分作为目标图片之后,还包括:
将所述目标图片作为所述待处理图片的封面。
实际应用中,在获得目标图片之后,可以将该目标图片应用于实际场景中,由于该目标图片中包含待处理图片的显著性主体,因此可以将该目标图片作为待处理图片的封面,以起到吸引用户点击的效果;此外,还可以基于该目标图片实现对待处理图片的合规性审核,判断该待处理图片是否包含暴力、或者不健康的内容等,还可以将该目标图片作为待处理图片的图片标签,实现后续基于该目标图片对待处理图片进行搜索等。
本说明书另一实施例中,若待处理图片为待处理视频的多个视频帧,那么也可以将特征响应度最高的滑窗区域与待处理图片对应的区域作为目标图片,后续可以基于该目标图片作为待处理视频的视频封面,但是以一个目标图片生成的封面仅为静态封面,而实际应用中,由于视频的帧数较多,生成动态的视频封面对用户来说可能更加有吸引力,而动态视频封面则是由多个图片生成,因此在待处理图片为待处理视频的多个视频帧时可以确定出多个目标图片,以实现后续生成动态视频封面,具体实现方式如下所述:
所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
将所述特征响应度最高的滑窗区域所在的待处理图片作为第一待处理图片,且将所述特征响应度最高的滑窗区域与所述第一待处理图片对应的区域作为第一目标图片;
将不包含所述特征响应度最高的滑窗区域的待处理图片作为第二待处理图片,且将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片。
以待处理图片为视频的20帧视频帧为例,首先基于上述实施例的处理方式计算出每个视频帧对应的特征响应图片中,滑窗区域的特征响应度,将特征响应度最高的滑窗区域所在的待处理图片作为第一待处理图片,以及将该特征响应度最高的滑窗区域与第一待处理图片对应的区域作为第一目标图片;然后将不包含第一待处理图片的其他19帧图片作为第二目标图片,最后将第二待处理图片上与第一目标图片的位置对应的区域作为第二目标图片;例如特征响应度最高的滑窗区域所在的待处理图片为第3帧视频帧,那么第3帧视频帧为第一待处理图片,其余的19帧视频帧均为第二待处理图片,将特征响应度最高的滑窗区域与第3帧视频帧对应的区域作为第一目标图片,然后获取第一目标图片在第3帧视频帧中的位置信息,最后将剩余19帧视频帧与该位置信息对应的区域均作为第二目标图片,即确定了第一目标图片后,将剩余的待处理图片的与第一目标图片对应位置的区域作为第二目标图片。
本说明书实施例中,在确定出特征响应度最高的第一目标图片之后,基于相邻视频帧之间的显著性关系,可以基于第一目标图片在第一待处理图片的位置快速、准确的确定出视频的其他视频帧的多个第二目标图片。
本说明书另一种可实现实施例中,所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
将多个所述待处理图片中间的一个待处理图片作为第一待处理图片,将其他待处理图片作为第二待处理图片,其中,所述第二待处理图片为不包含所述第一待处理图片的多个所述待处理图片;
在所述第一待处理图片中特征响应度最高的滑窗区域的特征响应度大于等于预设响应度阈值的情况下,将所述特征响应度最高的滑窗区域与所述第一待处理图片对应的区域作为第一目标图片;
将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片。
仍以多个待处理图片为20帧视频帧为例,那么多个待处理图片中间的一个待处理图片则为第10帧视频帧,将第10帧视频帧作为第一待处理图片,然后将其他帧视频帧作为第二待处理图片。
具体的,首先计算出第一待处理图片中特征响应度最高的滑窗区域,在该滑窗区域的特征响应度大于等于预设响应度阈值的情况下,将该特征响应度最高的滑窗区域作为第一待处理图片的第一目标图片,其中,预设响应度阈值可以根据实际应用进行设置,在此不做任何限定。
实际应用中,一般比较显著的主体都在视频的中间,因此可以通过直接获取视频的最中间的视频帧中特征响应度最大的滑窗区域作为第一目标图片;而在特殊情况下,视频的最中间的视频帧中可能不包含比较显著的主体,因此,在从视频的中间视频帧中获取第一目标图片之前,会对特征响应度最高的滑窗区域的特征响应度进行检测,若特征响应度最高的滑窗区域的特征响应度较低,则可以确定主体可能不在视频的最中间的视频帧中,那么则可以采用上述实施例的目标图片获取方法实现对视频的目标图片的获取;而在视频的最中间的视频帧中特征响应度最高的滑窗区域的特征响应度满足预设响应度阈值的情况下,可以确定视频的最中间的视频帧中特征响应度最高的滑窗区域与该最中间的视频帧对应的区域为第一目标图片,那么在获取第一目标图片后,则可以采用上述实施的方式,将第二待处理图片中与第一目标图片的位置对应的区域作为第二目标图片。
本说明书实施例中,在视频的中间视频帧中特征响应度最高的滑窗区域的特征响应度满足预设响应度阈值的情况下,可以基于视频的中间视频帧中特征响应度最高的滑窗区域,快速的获取该视频的第一目标图片和第二目标图片,节省目标图片的获取时间以及计算量,提高用户体验。
此外,为了降低获取目标图片的错误概率,避免获取的特征响应度最高的滑窗区域以及中间视频帧的特征响应度最高的滑窗区域不准确的情况发生,可以通过至少两种对滑窗区域的位置信息进行处理的方式解决上述问题,其具体实现方式如下所述:
所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
确定每个待处理图片中特征响应度最高的滑窗区域的位置信息;
基于所有待处理图片中特征响应度最高的滑窗区域的位置信息取平均位置信息;
将每个待处理图片中与所述平均位置信息对应的区域作为目标图片。
其中,位置信息包括但不限于滑窗区域在待处理图片中的位置坐标。
实际应用时,直接将特征响应度最高的滑窗区域对应的待处理图片区域作为目标图片,若该帧待处理图片是个错误帧,那么基于特征响应度最高的滑窗区域确定的目标图片也是错误的,而为了避免这种错误的发生,可以对所有帧待处理图片中特征响应度最高的滑窗区域的位置取平均,然后将平均位置作为每个待处理图片的目标图片,通过此种取平均位置的方式将目标图片的错误概率降低到最低。
此外,还可以通过对待处理图片中特征响应度最高的滑窗区域的位置信息进行曲线拟合的方式,更加准确的获得每个待处理图片的目标图片,其中,通过曲线拟合的方式,每个待处理图片的目标图片的位置可能相同也可能不同,具体根据实际应用中的曲线拟合结果确定,而对待处理图片中特征响应度最高的滑窗区域的位置信息进行曲线拟合的具体实现方式如下所述:
所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
确定每个待处理图片中特征响应度最高的滑窗区域的位置信息;
对每个待处理图片中显著性最高的滑窗区域的位置信息进行曲线拟合,基于曲线拟合结果确定每个待处理图片的目标图片。
本说明书另一实施例中,所述将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片之后,还包括:
将所述第一目标图片和所述第二目标图片进行组合,以形成所述待处理视频的封面。
具体的,在获取视频的第一目标图片和第二目标图片的情况下,可以将第一目标图片和第二目标图片进行组合,以形成待处理视频的动态封面。
本说明书实施例中,在待处理图片为视频的多个视频帧的情况下,可以获取每个视频帧中包含主体的目标图片,然后将目标图片组合起来以形成待处理视频的动态封面,实际应用中,可以基于比较显著的包含主体的目标图片形成的动态封面,提升该视频的点击率和观看时长。
此外,在获得视频的第一目标图片和第二目标图片之后,还可以将本说明书实施例提供的所述目标图片确定方法应用在视频集锦制作的场景中,具体实现方式如下所述:
所述将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片之后,还包括:
根据预设选取规则对所述第一目标图片和所述第二目标图片进行选取,基于选取的所述第一目标图片和/或所述第二目标图片形成所述待处理视频的视频集锦。
其中,预设选取规则可以包括选取视频中主体较为精彩的图片,例如细节展示、材质介绍等。
具体的,根据预设选取规则从第一目标图片以及第二目标图片中选取满足预设选取规则的目标图片,然后基于该目标图片生成待处理视频的视频集锦,其中,该视频集锦中包括第一目标图片和/或第二目标图片。
本说明书实施例中,在确定了视频的目标图片后,还可以基于视频的目标图片生成视频的视频集锦,以增强用户的使用体验。
本说明书实施例提供的所述目标图片确定方法,从算法通用型讲,显著性检测算法(即特征检测模型结合滑窗检测的滑窗区域特征响应度)相比基于检测器的方法灵活性更高,更通用,且摆脱了对检测器的依赖;从效率上讲,该方法稳定度更高且速度更快,目前使用特征检测模型较小,单张图片的处理(inference)仅为25ms,大批图片的处理(batchinference)速度更快,而目前检测器模型的计算开销一般在100ms以上,计算开销会大;从性能上讲,目前测试结果显示本说明书的显著性检测算法相比之前的算法,所有情况基本都可以解决;从应用流程上讲,由于显著性检测算法比较稳定,且只对显著目标有高响应,所以基于显著性检测算法一定程度上可以提供SBD的功能,但之前的算法要对视频进行全局的镜头切分;对于显著性检测算法本身,不仅可以用在封面的生成上,而且对于视频横转竖制作也有很高的使用价值。
本说明书另一实施例中,所述基于特征检测模型获取与待处理图片对应的特征响应图片之前,还包括:
按照预设处理区域对所述待处理图片进行预处理,其中,所述预处理包括对所述待处理图片按照预设处理区域进行内容擦除;或者
所述基于特征检测模型获取与待处理图片对应的特征响应图片之后,还包括:
按照预设处理区域对所述特征响应图片进行预处理,其中,所述预处理包括对所述特征响应图片按照预设处理区域进行内容擦除。
其中,本说明书实施例的预设处理区域与上述实施例的预设处理区域一致,在此不再赘述。
实际应用中,为了减少特征检测模型的计算时长,可以先对待处理图片进行预处理,将待处理图片中无效的内容进行擦除,以提高特征检测模型获得待处理图片对应的特征响应图片的处理速度。
此外,若没有对待处理图片进行预处理,那么为了避免待处理图片中无效的信息在特征响应图片上对真实的显著性主体的判断带来的影响,在获取待处理图片对应的特征响应图片之后,会基于上述方式对特征响应图片进行预处理,提前屏蔽掉待处理图片中无效的台标、新闻字幕等,以提高在特征响应图片上对真实的显著性主体的判断准确性。
本说明书实施例提供的所述目标图片确定方法是基于特征响应度对目标图片进行获取的,如果待处理图片或视频中的人体/人脸不是很明显或者面积很小的情况下,很有可能会出现待处理图片或视频中的其他主体(例如背景)会更加显著的情况,这时若继续采用上述方式将特征响应度最高的区域作为目标图片的情况下,则可能将待处理图片或视频中的其他主体作为该待处理图片或视频的封面。
而若实际应用中,需要将人体/人脸作为显著性主体的情况下,但是人体/人脸不是最显著的主体的情况,可以增加人体/人脸的类别信息作为二次判断,重新矫正显著性区域的选择,以提高用户体验,其具体实现方式如下所述:
所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
获取所述特征响应图片中的显著性主体,并将所述显著性主体与预设目标对象进行匹配;
获取与预设目标对象匹配的显著性主体所在的滑窗区域,且将特征响应度最高的滑窗区域与所述待处理图片对应的区域作为目标图片。
其中,预设目标对象为预设的显著性主体,例如待处理图片为人牵着马的图片,那么预设目标对象则可以是人,也可以是马。
以预设目标对象为人为例,首先获取待处理图片对应的特征响应图片,然后获取该特征响应图片中的显著性主体:人和马,将该显著性主体与预设目标对象进行匹配,可以确认显著性主体的人与预设目标对象的人匹配,则获取显著性主体人所在的所有滑窗区域,然后将显著性主体人所在的所有滑窗区域中,特征响应度最高的滑窗区域与待处理图片对应的区域作为目标图片。
本说明书实施例提供的所述目标图片确定方法,基于显著性检测算法(即特征检测模型结合滑窗检测确定的特征响应度计算)实现对待处理图片或待处理视频的目标图片确定,从算法通用性来讲,相比基于检测器的方法,本说明书实施例的显著性检测算法的灵活性更高,更通用,且完全避免了对检测器的依赖性;并且由于显著性本身无类别信息,对于整张图片(待处理图片或者是待处理视频的视频帧)而言,主要用于在图片中选择显著的部分,例如考虑主体(人、商品或者风景等)在整张图片中的显著程度,且显著性对像素的shift(即漂移/偏移/抖动)不敏感,因为其本身就是像素级别的分类结果,只考虑了更多的context(即上下文)信息,最终结果就是相邻帧之间的显著性结果很稳定,因此应用在视频中,可以基于某个视频帧的目标图片确定其他视频帧的目标图片,以获得最终结果。
此外,显著性体现在像素和instance(即实例)本身,比如像素的连通域区分性、大小、位置等,但是就目前算法结果表明,基于显著性检测算法时,对于人体/人脸的响应度还是比较高的,如果出现人体/人脸和其他显著性目标相连的case(即情况),可能会将二者同时输出;而实际应用中,如果人体/人脸不是很明显或者面积很小的情况下,确实有可能会出现其他目标(例如背景)的特征响应度较高的情况,这个时候也可以把特征响应度较高的其他目标作为待处理图片或者待处理视频的covers(即封面);而对于图片中出现人体/人脸,但人体/人脸不是特征响应度最高的情况,可以增加人体/人脸的类别信息,作为二次判断,重新矫正显著性区域的选择,将包含人体/人脸的区域作为目标图片,或者是将包含人体/人脸的区域以及特征响应度最高的区域同时作为目标图片。
例如特征响应图片中出现了两个显著性目标:人和马,其中,马的面积较大,相对特征响应度更高,若按照目标图片的预设输出比例(9:16)选择封面时,会将马作为输出,此时若具体应用场景中需要人的情况,则需要一个具有类别信息的模型进行显著性目标的二次选择,即通过上述实施例的算法对预设目标对象(即人)匹配的显著性主体进行重新选择,而若按照目标图片的预设输出比例(16:9)选择封面时,则人和马都可能会包含进去;而若一张图片中出现了多个人或者人的特征较为明显的情况下,特征检测模型可能会对更加显著的人有较高的响应度;此外,若一张图片中的人物较小,不是很明显,但是背景景点的特征响应度更高一些,但是在预设输出比例的输出下可以覆盖到人,那么则可以将人和特征响应度高的背景景点一起作为封面输出,此时生成封面的结果明显提升。
本说明书实施例提供的所述目标图片确定方法,基于特征检测模型结合滑窗检测的滑窗区域特征响应度计算,可以从待处理图片或视频中找出用户最关注的目标图片,后续可以用该目标图片对待处理图片或视频进行封面、集锦生成,以起到吸引用户的作用,提高待处理图片或视频的点击率。
参见图6,图6示出了本说明书一个实施例提供的第二种目标图片确定方法流程图。
步骤602:基于用户的调用请求为所述用户展示图片输入界面。
步骤604:接收所述用户基于所述图片输入界面发送的待处理图片。
步骤606:基于特征检测模型获取与所述待处理图片对应的特征响应图片。
步骤608:根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域。
步骤610:计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
本说明书实施例提供的所述目标图片确定方法,在接收用户的调用请求的情况下,对用户通过图片输入界面发送的待处理图片进行处理,基于特征检测模型结合滑窗检测的滑窗区域特征响应度计算,可以从待处理图片或视频中确定出用户最关注的目标图片,后续可以用该目标图片对待处理图片或视频进行封面、集锦生成,以起到吸引用户的作用,提高待处理图片或视频的点击率。
上述为本实施例的第二种目标图片确定方法的示意性方案。需要说明的是,该第二种目标图片确定方法的技术方案与上述的第一种目标图片确定方法的技术方案属于同一构思,第二种目标图片确定方法的技术方案未详细描述的细节内容,均可以参见上述第一种目标图片确定方法的技术方案的描述。
参见图7,图7示出了本说明书一个实施例提供的第三种目标图片确定方法流程图。
步骤702:接收用户发送的调用请求,其中,所述调用请求中携带待处理图片。
步骤704:基于特征检测模型获取与所述待处理图片对应的特征响应图片。
步骤706:根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域。
步骤708:计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
本说明书实施例提供的所述目标图片确定方法,在接收用户的调用请求的情况下,对调用请求中携带的待处理图片进行处理,基于特征检测模型结合滑窗检测的滑窗区域特征响应度计算,可以从待处理图片或视频中确定出用户最关注的目标图片,后续可以用该目标图片对待处理图片或视频进行封面、集锦生成,以起到吸引用户的作用,提高待处理图片或视频的点击率。
上述为本实施例的第三种目标图片确定方法的示意性方案。需要说明的是,该第三种目标图片确定方法的技术方案与上述的第一种目标图片确定方法的技术方案属于同一构思,第三种目标图片确定方法的技术方案未详细描述的细节内容,均可以参见上述第一种目标图片确定方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了目标图片确定装置实施例,图8示出了本说明书一个实施例提供的第一种目标图片确定装置的结构示意图。如图8所示,该装置包括:
第一图片获取模块802,被配置为基于特征检测模型获取与待处理图片对应的特征响应图片;
第一区域确定模块804,被配置为根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
第一图片确定模块806,被配置为计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片。
可选的,所述第一图片确定模块806,进一步被配置为:
确定特征响应度最高的滑窗区域,将所述特征响应度最高的滑窗区域与所述待处理图片对应的区域作为目标图片。
可选的,所述装置,还包括:
封面生成模块,被配置为将所述目标图片作为所述待处理图片的封面。
可选的,所述装置,还包括:
视频处理模块,被配置为将获取的待处理视频,分割为多个待处理视频帧,并将所述多个待处理视频帧确定为多个所述待处理图片。
可选的,所述第一图片确定模块806,进一步被配置为:
将所述特征响应度最高的滑窗区域所在的待处理图片作为第一待处理图片,且将所述特征响应度最高的滑窗区域与所述第一待处理图片对应的区域作为第一目标图片;
将不包含所述特征响应度最高的滑窗区域的待处理图片作为第二待处理图片,且将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片。
可选的,所述第一图片确定模块806,进一步被配置为:
将多个所述待处理图片中间的一个待处理图片作为第一待处理图片,将其他待处理图片作为第二待处理图片,其中,所述第二待处理图片为不包含所述第一待处理图片的多个所述待处理图片;
在所述第一待处理图片中特征响应度最高的滑窗区域的特征响应度大于等于预设响应度阈值的情况下,将所述特征响应度最高的滑窗区域与所述第一待处理图片对应的区域作为第一目标图片;
将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片。
可选的,所述装置,还包括:
视频封面生成模块,被配置为将所述第一目标图片和所述第二目标图片进行组合,以形成所述待处理视频的封面。
可选的,所述装置,还包括:
集锦生成模块,被配置为根据预设选取规则对所述第一目标图片和所述第二目标图片进行选取,基于选取的所述第一目标图片和/或所述第二目标图片形成所述待处理视频的视频集锦。
可选的,所述第一图片确定模块806,进一步被配置为:
确定每个待处理图片中特征响应度最高的滑窗区域的位置信息;
基于所有待处理图片中特征响应度最高的滑窗区域的位置信息取平均位置信息;
将每个待处理图片中与所述平均位置信息对应的区域作为目标图片。
可选的,所述第一图片确定模块806,进一步被配置为:
确定每个待处理图片中特征响应度最高的滑窗区域的位置信息;
对每个待处理图片中显著性最高的滑窗区域的位置信息进行曲线拟合,基于曲线拟合结果确定每个待处理图片的目标图片。
可选的,第一图片获取模块802,进一步被配置为:
获取样本图片训练集,其中,所述样本图片训练集中包括样本图片以及与所述样本图片对应的样本标签;
按照预设处理区域对所述样本图片进行预处理,其中,所述预处理包括对所述样本图片按照预设处理区域进行内容擦除;
基于预处理后的样本图片以及所述样本标签对初始特征检测模型进行训练,获得所述特征检测模型,所述特征检测模型输出与所述样本图片对应的特征响应图片。
可选的,所述装置,还包括:
第一预处理模块,被配置为按照预设处理区域对所述待处理图片进行预处理,其中,所述预处理包括对所述待处理图片按照预设处理区域进行内容擦除;或者
第二预处理模块,被配置为:
按照预设处理区域对所述特征响应图片进行预处理,其中,所述预处理包括对所述特征响应图片按照预设处理区域进行内容擦除。
可选的,所述第一图片确定模块806,进一步被配置为:
获取所述特征响应图片中的显著性主体,并将所述显著性主体与预设目标对象进行匹配;
获取与预设目标对象匹配的显著性主体所在的滑窗区域,且将特征响应度最高的滑窗区域与所述待处理图片对应的区域作为目标图片。
本说明书实施例提供的所述目标图片确定装置,基于特征检测模型结合滑窗检测的滑窗区域特征响应度计算,可以从待处理图片或视频中确定出用户最关注的目标图片,后续可以用该目标图片对待处理图片或视频进行封面、集锦生成,以起到吸引用户的作用,提高待处理图片或视频的点击率。
上述为本实施例的第一种目标图片确定装置的示意性方案。需要说明的是,该目标图片确定装置的技术方案与上述的第一种目标图片确定方法的技术方案属于同一构思,该目标图片确定装置的技术方案未详细描述的细节内容,均可以参见上述第一种目标图片确定方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了目标图片确定装置实施例,图9示出了本说明书一个实施例提供的第二种目标图片确定装置的结构示意图。如图9所示,该装置包括:
界面展示模块902,被配置为基于用户的调用请求为所述用户展示图片输入界面;
图片接收模块904,被配置为接收所述用户基于所述图片输入界面发送的待处理图片;
第二图片获取模块906,被配置为基于特征检测模型获取与所述待处理图片对应的特征响应图片;
第二区域确定模块908,被配置为根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
第二图片确定模块910,被配置为计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
本说明书实施例提供的所述目标图片确定装置,在接收用户的调用请求的情况下,对用户通过图片输入界面发送的待处理图片进行处理,基于特征检测模型结合滑窗检测的滑窗区域特征响应度计算,可以从待处理图片或视频中确定出用户最关注的目标图片,后续可以用该目标图片对待处理图片或视频进行封面、集锦生成,以起到吸引用户的作用,提高待处理图片或视频的点击率。
上述为本实施例的第二种目标图片确定装置的示意性方案。需要说明的是,该目标图片确定装置的技术方案与上述的第二种目标图片确定方法的技术方案属于同一构思,该目标图片确定装置的技术方案未详细描述的细节内容,均可以参见上述第二种目标图片确定方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了目标图片确定装置实施例,图10示出了本说明书一个实施例提供的第一种目标图片确定装置的结构示意图。如图10所示,该装置包括:
请求接收模块1002,被配置为接收用户发送的调用请求,其中,所述调用请求中携带待处理图片;
第三图片获取模块1004,被配置为基于特征检测模型获取与所述待处理图片对应的特征响应图片;
第三区域确定模块1006,被配置为根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
第三图片确定模块1008,被配置为计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
本说明书实施例提供的所述目标图片确定装置,在接收用户的调用请求的情况下,对调用请求中携带的待处理图片进行处理,基于特征检测模型结合滑窗检测的滑窗区域特征响应度计算,可以从待处理图片或视频中确定出用户最关注的目标图片,后续可以用该目标图片对待处理图片或视频进行封面、集锦生成,以起到吸引用户的作用,提高待处理图片或视频的点击率。
上述为本实施例的第三种目标图片确定装置的示意性方案。需要说明的是,该目标图片确定装置的技术方案与上述的第三种目标图片确定方法的技术方案属于同一构思,该目标图片确定装置的技术方案未详细描述的细节内容,均可以参见上述第三种目标图片确定方法的技术方案的描述。
图11示出了根据本说明书一个实施例提供的一种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接,数据库1150用于保存数据。
计算设备1100还包括接入设备1140,接入设备1140使得计算设备1100能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图11所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。
其中,处理器1120用于执行如下计算机可执行指令,其中,所述处理器执行所述计算机可执行指令时实现所述目标图片确定方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的目标图片确定方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述目标图片确定方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述目标图片确定方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的目标图片确定方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述目标图片确定方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (20)

1.一种目标图片确定方法,包括:
基于特征检测模型获取与待处理图片对应的特征响应图片;
根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片。
2.根据权利要求1所述的目标图片确定方法,所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
确定特征响应度最高的滑窗区域,将所述特征响应度最高的滑窗区域与所述待处理图片对应的区域作为目标图片。
3.根据权利要求2所述的目标图片确定方法,所述将所述特征响应度最高的滑窗区域与所述待处理图片对应的部分作为目标图片之后,还包括:
将所述目标图片作为所述待处理图片的封面。
4.根据权利要求1所述的目标图片确定方法,所述基于特征检测模型获取与待处理图片对应的特征响应图片之前,还包括:
将获取的待处理视频,分割为多个待处理视频帧,并将所述多个待处理视频帧确定为多个所述待处理图片。
5.根据权利要求4所述的目标图片确定方法,所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
将所述特征响应度最高的滑窗区域所在的待处理图片作为第一待处理图片,且将所述特征响应度最高的滑窗区域与所述第一待处理图片对应的区域作为第一目标图片;
将不包含所述特征响应度最高的滑窗区域的待处理图片作为第二待处理图片,且将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片。
6.根据权利要求4所述的目标图片确定方法,所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
将多个所述待处理图片中间的一个待处理图片作为第一待处理图片,将其他待处理图片作为第二待处理图片,其中,所述第二待处理图片为不包含所述第一待处理图片的多个所述待处理图片;
在所述第一待处理图片中特征响应度最高的滑窗区域的特征响应度大于等于预设响应度阈值的情况下,将所述特征响应度最高的滑窗区域与所述第一待处理图片对应的区域作为第一目标图片;
将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片。
7.根据权利要求5或6所述的目标图片确定方法,所述将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片之后,还包括:
将所述第一目标图片和所述第二目标图片进行组合,以形成所述待处理视频的封面。
8.根据权利要求5或6所述的目标图片确定方法,所述将所述第二待处理图片上与所述第一目标图片的位置对应的区域作为第二目标图片之后,还包括:
根据预设选取规则对所述第一目标图片和所述第二目标图片进行选取,基于选取的所述第一目标图片和/或所述第二目标图片形成所述待处理视频的视频集锦。
9.根据权利要求4所述的目标图片确定方法,所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
确定每个待处理图片中特征响应度最高的滑窗区域的位置信息;
基于所有待处理图片中特征响应度最高的滑窗区域的位置信息取平均位置信息;
将每个待处理图片中与所述平均位置信息对应的区域作为目标图片。
10.根据权利要求4所述的目标图片确定方法,所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
确定每个待处理图片中特征响应度最高的滑窗区域的位置信息;
对每个待处理图片中显著性最高的滑窗区域的位置信息进行曲线拟合,基于曲线拟合结果确定每个待处理图片的目标图片。
11.根据权利要求1所述的目标图片确定方法,所述特征检测模型通过如下步骤训练:
获取样本图片训练集,其中,所述样本图片训练集中包括样本图片以及与所述样本图片对应的样本标签;
按照预设处理区域对所述样本图片进行预处理,其中,所述预处理包括对所述样本图片按照预设处理区域进行内容擦除;
基于预处理后的样本图片以及所述样本标签对初始特征检测模型进行训练,获得所述特征检测模型,所述特征检测模型输出与所述样本图片对应的特征响应图片。
12.根据权利要求1所述的目标图片确定方法,所述基于特征检测模型获取与待处理图片对应的特征响应图片之前,还包括:
按照预设处理区域对所述待处理图片进行预处理,其中,所述预处理包括对所述待处理图片按照预设处理区域进行内容擦除;或者
所述基于特征检测模型获取与待处理图片对应的特征响应图片之后,还包括:
按照预设处理区域对所述特征响应图片进行预处理,其中,所述预处理包括对所述特征响应图片按照预设处理区域进行内容擦除。
13.根据权利要求1所述的目标图片确定方法,所述基于所述特征响应度确定所述待处理图片中的目标图片,包括:
获取所述特征响应图片中的显著性主体,并将所述显著性主体与预设目标对象进行匹配;
获取与预设目标对象匹配的显著性主体所在的滑窗区域,且将特征响应度最高的滑窗区域与所述待处理图片对应的区域作为目标图片。
14.一种目标图片确定方法,包括:
基于用户的调用请求为所述用户展示图片输入界面;
接收所述用户基于所述图片输入界面发送的待处理图片;
基于特征检测模型获取与所述待处理图片对应的特征响应图片;
根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
15.一种目标图片确定方法,包括:
接收用户发送的调用请求,其中,所述调用请求中携带待处理图片;
基于特征检测模型获取与所述待处理图片对应的特征响应图片;
根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
16.一种目标图片确定装置,包括:
第一图片获取模块,被配置为基于特征检测模型获取与待处理图片对应的特征响应图片;
第一区域确定模块,被配置为根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
第一图片确定模块,被配置为计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片。
17.一种目标图片确定装置,包括:
界面展示模块,被配置为基于用户的调用请求为所述用户展示图片输入界面;
图片接收模块,被配置为接收所述用户基于所述图片输入界面发送的待处理图片;
第二图片获取模块,被配置为基于特征检测模型获取与所述待处理图片对应的特征响应图片;
第二区域确定模块,被配置为根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
第二图片确定模块,被配置为计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
18.一种目标图片确定装置,包括:
请求接收模块,被配置为接收用户发送的调用请求,其中,所述调用请求中携带待处理图片;
第三图片获取模块,被配置为基于特征检测模型获取与所述待处理图片对应的特征响应图片;
第三区域确定模块,被配置为根据滑窗对所述特征响应图片进行滑窗处理,以确定所述特征响应图片的滑窗区域;
第三图片确定模块,被配置为计算所述滑窗区域的特征响应度,基于所述特征响应度确定所述待处理图片中的目标图片并返回给所述用户。
19.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该指令被处理器执行时实现权利要求1-13、14、15任意一项所述目标图片确定方法的步骤。
20.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1-13、14、15任意一项所述目标图片确定方法的步骤。
CN202011281509.XA 2020-11-16 2020-11-16 目标图片确定方法及装置 Active CN113849088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011281509.XA CN113849088B (zh) 2020-11-16 2020-11-16 目标图片确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011281509.XA CN113849088B (zh) 2020-11-16 2020-11-16 目标图片确定方法及装置

Publications (2)

Publication Number Publication Date
CN113849088A true CN113849088A (zh) 2021-12-28
CN113849088B CN113849088B (zh) 2022-09-27

Family

ID=78972949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011281509.XA Active CN113849088B (zh) 2020-11-16 2020-11-16 目标图片确定方法及装置

Country Status (1)

Country Link
CN (1) CN113849088B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050007025A1 (en) * 2003-07-08 2005-01-13 Gauna Kevin Wayne Dual LED/incandescent security fixture
CN101794438A (zh) * 2010-02-04 2010-08-04 南昌航空大学 基于角点测度的月球表面多光谱图像融合方法
US20150242983A1 (en) * 2014-02-24 2015-08-27 Disney Enterprises, Inc. Overlay-based watermarking for video synchronization with contextual data
CN108154130A (zh) * 2017-12-29 2018-06-12 深圳市神州云海智能科技有限公司 一种目标图像的检测方法、装置及存储介质、机器人
CN110069664A (zh) * 2019-04-24 2019-07-30 北京博视未来科技有限公司 动漫作品封面图提取方法及其系统
CN111160379A (zh) * 2018-11-07 2020-05-15 北京嘀嘀无限科技发展有限公司 图像检测模型的训练方法及装置、目标检测方法及装置
CN111225236A (zh) * 2020-01-20 2020-06-02 北京百度网讯科技有限公司 生成视频封面的方法、装置、电子设备以及计算机可读存储介质
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN111914926A (zh) * 2020-07-29 2020-11-10 深圳神目信息技术有限公司 基于滑窗的视频抄袭检测方法、装置、设备和介质
CN111930994A (zh) * 2020-07-14 2020-11-13 腾讯科技(深圳)有限公司 视频编辑的处理方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050007025A1 (en) * 2003-07-08 2005-01-13 Gauna Kevin Wayne Dual LED/incandescent security fixture
CN101794438A (zh) * 2010-02-04 2010-08-04 南昌航空大学 基于角点测度的月球表面多光谱图像融合方法
US20150242983A1 (en) * 2014-02-24 2015-08-27 Disney Enterprises, Inc. Overlay-based watermarking for video synchronization with contextual data
CN108154130A (zh) * 2017-12-29 2018-06-12 深圳市神州云海智能科技有限公司 一种目标图像的检测方法、装置及存储介质、机器人
CN111160379A (zh) * 2018-11-07 2020-05-15 北京嘀嘀无限科技发展有限公司 图像检测模型的训练方法及装置、目标检测方法及装置
CN110069664A (zh) * 2019-04-24 2019-07-30 北京博视未来科技有限公司 动漫作品封面图提取方法及其系统
CN111225236A (zh) * 2020-01-20 2020-06-02 北京百度网讯科技有限公司 生成视频封面的方法、装置、电子设备以及计算机可读存储介质
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN111930994A (zh) * 2020-07-14 2020-11-13 腾讯科技(深圳)有限公司 视频编辑的处理方法、装置、电子设备及存储介质
CN111914926A (zh) * 2020-07-29 2020-11-10 深圳神目信息技术有限公司 基于滑窗的视频抄袭检测方法、装置、设备和介质

Also Published As

Publication number Publication date
CN113849088B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN109359592B (zh) 视频帧的处理方法、装置、电子设备及存储介质
CN109543714B (zh) 数据特征的获取方法、装置、电子设备及存储介质
US9201958B2 (en) Video object retrieval system and method
US9864901B2 (en) Feature detection and masking in images based on color distributions
EP2864933B1 (en) Method, apparatus and computer program product for human-face features extraction
US9633446B2 (en) Method, apparatus and computer program product for segmentation of objects in media content
US20120327172A1 (en) Modifying video regions using mobile device input
US11978216B2 (en) Patch-based image matting using deep learning
CN109784164B (zh) 前景识别方法、装置、电子设备及存储介质
US12008811B2 (en) Machine learning-based selection of a representative video frame within a messaging application
CN115035581A (zh) 面部表情识别方法、终端设备及存储介质
KR20210007276A (ko) 영상 생성 장치 및 방법
Cheng et al. A computational model for stereoscopic visual saliency prediction
CN112866801A (zh) 视频封面的确定方法、装置、电子设备及存储介质
CN113849088B (zh) 目标图片确定方法及装置
CN112036307A (zh) 图像处理方法及装置、电子设备和存储介质
US11647294B2 (en) Panoramic video data process
CN113313735B (zh) 全景视频数据处理方法及装置
CN112712571B (zh) 基于视频的物体平面贴图方法、装置以及设备
CN114245206A (zh) 视频处理方法及装置
CN114067275A (zh) 监控场景中目标物体提醒方法、系统与电子设备
CN107992853B (zh) 人眼检测方法、装置、计算机设备及存储介质
CN112115833B (zh) 一种图片的活体检测及分类方法
CN113518214B (zh) 全景视频数据处理方法及装置
Lin et al. Automatic image cropping based on bottom-up saliency and top-down semantics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230911

Address after: Room 516, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.