CN111914850B

CN111914850B - 图片特征提取方法、装置、服务器和介质

Info

Publication number: CN111914850B
Application number: CN201910377163.4A
Authority: CN
Inventors: 杨羿; 李小康; 李�一; 陈晓冬; 郭佳骋; 刘林; 朱延峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2023-09-19
Anticipated expiration: 2039-05-07
Also published as: CN111914850A

Abstract

本发明实施例公开了一种图片特征提取方法、装置、服务器和介质，其中，该方法包括：检测目标图片中的显著性区域；结合所述目标图片中的显著性区域，从目标图片中提取特征参数，其中，所述特征参数与所述目标图片中的显著性区域的特征具有一致性。本发明实施例结合显著性区域提取图片中的特征参数，使得提取的特征参数与图片中的显著性区域的特征具有一致性。从而不仅实现了自动化的图片特征提取，而且提取的特征能够准确体现出所属图片的视觉特点，具有普适性，提高了方法的泛化能力。

Description

图片特征提取方法、装置、服务器和介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种图片特征提取方法、装置、服务器和介质。

背景技术

在视频合成、图片合成中，需要考虑背景色、字体颜色等信息。例如，在广告用图片的合成中，需要在原始图片上添加文字注释，或者在宣传用海报类图片的合成中，需要在原始图片的基础上做出符合海报尺寸的延展，那么就需要确定文字注释的颜色，或者图片延展部分的背景色。为了让合成视频、图片的美观度符合标准，我们经常需要美工、UI设计等专业人士进行操作，这样合成的图片、视频的点击率才能得到保证。但是我们需要对图片、视频进行批量化生产，那么自动化配色就成为一个需要解决的技术问题。

然而，现有技术通常是基于对图片全局颜色的统计规则来提取配色信息，这种方式提取的配色信息无法准确体现出所有图片的视觉特点，泛化能力不强。

发明内容

本发明实施例提供一种图片特征提取方法、装置、服务器和介质，以解决现有技术中图片特征提取无法体现所有图片的视觉特点、泛化能力不强的问题。

第一方面，本发明实施例提供了一种图片特征提取方法，该方法包括：

检测目标图片中的显著性区域；

结合所述目标图片中的显著性区域，从目标图片中提取特征参数，其中，所述特征参数与所述目标图片中的显著性区域的特征具有一致性。

第二方面，本发明实施例还提供了一种图片特征提取装置，该装置包括：

显著性区域检测模块，用于检测目标图片中的显著性区域；

特征参数提取模块，用于结合所述目标图片中的显著性区域，从目标图片中提取特征参数，其中，所述特征参数与所述目标图片中的显著性区域的特征具有一致性。

第三方面，本发明实施例还提供了一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的图片特征提取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的图片特征提取方法。

本发明实施例利用机器学习的方法，通过检测图片的显著性区域，然后结合显著性区域提取图片中的特征参数，使得提取的特征参数与图片中的显著性区域的特征具有一致性。从而不仅实现了自动化的图片特征提取，而且提取的特征能够准确体现出所属图片的视觉特点，具有普适性，提高了方法的泛化能力。

附图说明

图1是本发明实施例一提供的图片特征提取方法的流程图；

图2a是本发明实施例二提供的图片特征提取方法的流程图；

图2b是本发明实施例二提供的图片特征提取方法中显著探测模型和多层感知器的训练过程的流程图；

图3是本发明实施例三提供的图片特征提取装置的结构示意图；

图4是本发明实施例四提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的图片特征提取方法的流程图，本实施例可适用于从原始图片或视频帧中提取图片特征，例如配色信息，并利用该图片特征对图片进行渲染的情况，该方法可以由图片特征提取装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图1所示，本实施例提供的图片特征提取方法可以包括：

S110、检测目标图片中的显著性区域。

在图片或视频的合成需求中，大多需要利用图片或视频中已有的特征来进行，例如，如果原始图片的色调是灰色调，体现的是高端、正式的基调和视觉特点，那么在此基础上进行图片合成时，例如添加说明性或广告性文字说明、LOGO字样等，如果采用亮色系作为文字说明的颜色与原始图片进行合成，会造成整体不协调，而如果采用同样的灰色调或具有同等视觉特点的配色来进行合成，则会提高合成图片的总体质量。而且不同的图片其视觉特点不同，如果采用某一种规则性的颜色提取方式，则无法适用于所有类型的图片，也无法适用于所有合成需求和场景。

基于此，在本发明实施例中，在进行目标图片的特征提取之前，先检测目标图片中的显著性区域。显著性区域可以是指人眼看到图片时容易关注到的区域，也可以理解为图片中最希望人眼捕捉到的区域和信息，也即图片中的前景像素部分。结合前景像素部分的图片特征对目标图片的特征进行提取，使得提取出来的图片特征与显著性区域的特征具有一致性，那么基于与显著性区域的特征具有一致性的图片特征对图片进行合成，则更能体现出不同图片的不同视觉特点，保留原始图片的重要信息，达到基于图片理解的视觉分割，而且使得方法更具有泛化能力。

当然，在不同的应用场景中，对图片中前景部分和背景部分的定义是不同的，例如，在自动驾驶的感知场景中，静态的环境通常被认为是背景部分，动态的人流、车流和其他障碍物通常被认为是前景部分，而在描写名胜古迹的纪录片中，通常名胜古迹的静态环境被认为是前景部分，而在环境中游览的人群则认为是背景部分。因此，在本发明实施例中，针对不同的应用场景，可以根据需求对显著性区域进行检测。

S120、结合所述目标图片中的显著性区域，从目标图片中提取特征参数，其中，所述特征参数与所述目标图片中的显著性区域的特征具有一致性。

其中，特征参数可以是指颜色特征参数、亮度特征参数或纹理特征参数等，根据不同的图片或视频合成需求，选择相应的特征参数提取。相应的，提取出来的所述颜色特征参数、亮度特征参数或纹理特征参数，则分别与目标图片中的显著性区域的颜色特征、亮度特征或纹理特征具有一致性。

本实施例的技术方案利用机器学习的方法，通过检测图片的显著性区域，然后结合显著性区域提取图片中的特征参数，使得提取的特征参数与图片中的显著性区域的特征具有一致性。从而不仅实现了自动化的图片特征提取，而且实现了基于图片理解的视觉分割，使得提取的特征能够准确体现出所属图片的视觉特点，具有普适性，提高了方法的泛化能力。

实施例二

图2是本发明实施例二提供的图片特征提取方法的流程图，本实施例是在上述实施例的基础上进一步进行优化。如图2a所示，本实施例提供的图片特征提取方法可以包括：

S210、利用预先训练得到的显著探测模型，通过对目标图片的像素点进行分类，检测目标图片中的显著性区域。

由于在不同的应用场景中，对图片中前景部分和背景部分的定义是不同的，因此，在本发明实施例中，针对不同的应用场景，可以有针对性的对显著探测模型进行训练，使得显著探测模型可以学习不同场景中的前景特征或背景特征，例如，不仅能学习到图片中的文字和LOGO配色，也能学习到图片中的背景配色或风格配色等，通过对目标图片的像素点进行分类，划分前景或背景，也即是基于图片理解的视觉分割，从而检测出显著性区域，使之具有良好的可迁移能力，提高模型的适用范围。

其中，所述显著探测模型，即利用机器学习的方法能够检测图片中显著性区域的模型，优选为saliency detecy network(显著探测网络)。可以预先采集大量的样本数据对该显著探测网络进行训练，得到所述显著探测模型。

S220、利用预先训练得到的特征提取模型，依据所述目标图片中显著性区域的像素特征与目标图片全局像素特征的关系，从目标图片中提取特征参数，其中，所述特征参数与所述目标图片中的显著性区域的特征具有一致性。

特征提取模型可以是利用机器学习的方法预先训练得到的，优选为多层感知器(Multi-Layer Perceptron，MLP)，其是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。同样的，可以预先获取大量的图片样本，并对这些图片样本标注其显著性区域的范围，以及最终的特征参数，交给模型进行学习，即可训练得到能够结合图片显著性特征提取目标图片的特征参数，并且使得提取的特征参数与目标图片的显著性区域的特征具有一致性的特征提取模型。

具体的，模型可以依据所述目标图片中显著性区域的像素特征与目标图片全局像素特征的关系，从目标图片中提取特征参数。例如，通过显著性区域的识别，可以获得目标图片中各像素子集属于显著性区域的概率，其中，所述像素子集是对全部像素集合进行划分得到，划分的标准，也即一个像素子集中包含的像素数量，可以根据需求进行配置。而所述概率则可以作为衡量显著性区域的像素特征与目标图片全局像素特征关系的元素，模型则可以依据该概率从目标图片中提取特征参数，例如颜色特征参数、亮度特征参数或纹理特征参数等。

在本实施例中，为了提高模型的质量，优选采用端到端的机器学习方法训练得到所述显著探测模型和特征提取模型。其中，显著探测模型用于检测图片中的显著性区域，得到图片中的每个像素块属于显著性区域的概率；特征提取模型用于依据所述概率提取图片的特征参数。也即，将显著探测模型和特征提取模型联合作为一个整体网络进行训练，输入是图片样本，输出是预先标注好的图片特征参数。其中，所述特征提取模型优选为多层感知器。

具体的，如图2b所示，显著探测模型和多层感知器的训练过程包括：

S230、获取用于训练的图片样本集合，以及每个图片样本的标注数据，其中，所述标注数据包括每个图片样本的显著性区域，以及每个图片样本的特征参数。

根据具体的应用场景，可以对图片样本标注对应的显著性区域，也即确定模型要学习的前景部分。当然，如果更换应用场景，则需要重新进行标注，并重新对样本进行学习，对模型进行训练。

S240、将图片样本集合中的每个图片样本作为输入，将每个图片样本的显著性区域作为输出，对显著探测网络进行训练，得到初步的显著探测模型。

S250、将图片样本集合中的每个图片样本作为输入，将所述每个图片样本的特征参数作为输出，利用端到端的机器学习方法，联合所述初步的显著探测模型和多层感知器进行训练，得到最终的显著探测模型和多层感知器。

初步的显著探测模型可以识别目标图片中的显著性区域，联合多层感知器作为整体网络后，在训练过程中，多层感知器的损失函数会反馈给显著探测模型对其相关参数进行进一步修改。显著探测模型的输出是目标图片中的每个像素块属于显著性区域的概率，其中像素块的大小和粒度可以预先设定，本实施例对此不作任何限定。由此，根据样本数据的特征参数标注信息，多层感知器就可以从目标图片中不同概率的像素块中学习到如何得出最终的特征参数，也即，结合显著性区域的特点以及图片整体特点得到最终的特征参数。

本实施例的技术方案利用端到端的机器学习的方法，联合显著探测网络和多层感知器，先通过对目标图片的像素点进行分类，检测图片的显著性区域，然后结合显著性区域，依据所述目标图片中显著性区域的像素特征与目标图片全局像素特征的关系提取图片中的特征参数，使得提取的特征参数与图片中的显著性区域的特征具有一致性。从而不仅实现了自动化的图片特征提取，而且实现了基于图片理解的视觉分割，使得提取的特征能够准确体现出所属图片的视觉特点，具有普适性，提高了方法的泛化能力。此外，端到端的机器学习方法，通过缩减人工预处理和后续处理，尽可能使模型从原始输入到最终输出，给模型更多可以根据数据自动调节的空间，增加了模型的整体契合度和模型质量。

实施例三

图3是本发明实施例三提供的图片特征提取装置的结构示意图，本实施例可适用于从原始图片或视频帧中提取图片特征，例如配色信息，并利用该图片特征对图片进行渲染的情况，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图3所示，本实施例提供的图片特征提取装置可以包括显著性区域检测模块301、特征参数提取模块302，其中：

显著性区域检测模块301，用于检测目标图片中的显著性区域；

特征参数提取模块302，用于结合所述目标图片中的显著性区域，从目标图片中提取特征参数，其中，所述特征参数与所述目标图片中的显著性区域的特征具有一致性。

可选的，所述特征参数包括颜色特征参数、亮度特征参数或纹理特征参数；

相应的，所述颜色特征参数、亮度特征参数或纹理特征参数，分别与所述目标图片中的显著性区域的颜色特征、亮度特征或纹理特征具有一致性。

可选的，所述显著性区域检测模块301具体用于：

利用预先训练得到的显著探测模型，通过对目标图片的像素点进行分类，检测目标图片中的显著性区域。

可选的，所述特征参数提取模块302具体用于：

利用预先训练得到的特征提取模型，依据所述目标图片中显著性区域的像素特征与目标图片全局像素特征的关系，从目标图片中提取特征参数。

可选的，所述显著探测模型和特征提取模型是利用端到端的机器学习方法训练得到；

其中，所述显著探测模型用于检测图片中的显著性区域，得到图片中的每个像素块属于显著性区域的概率；

所述特征提取模型用于依据所述概率提取图片的特征参数。

可选的，所述特征提取模型为多层感知器；

相应的，所述装置还包括训练模块，具体用于：

获取用于训练的图片样本集合，以及每个图片样本的标注数据，其中，所述标注数据包括每个图片样本的显著性区域，以及每个图片样本的特征参数；

将图片样本集合中的每个图片样本作为输入，将每个图片样本的显著性区域作为输出，对显著探测网络进行训练，得到初步的显著探测模型；

将图片样本集合中的每个图片样本作为输入，将所述每个图片样本的特征参数作为输出，利用端到端的机器学习方法，联合所述初步的显著探测模型和多层感知器进行训练，得到最终的显著探测模型和多层感知器。

本发明实施例所提供的图片特征提取装置可执行本发明任意实施例所提供的图片特征提取方法，具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本发明方法实施例中的描述。

实施例四

图4是本发明实施例四提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例性服务器412的框图。图4显示的服务器412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，服务器412以通用服务器的形式表现。服务器412的组件可以包括但不限于：一个或者多个处理器416，存储装置428，连接不同系统组件(包括存储装置428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

服务器412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)430和/或高速缓存存储器432。服务器412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM),数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储装置428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

服务器412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信，还可与一个或者多个使得用户能与该服务器412交互的终端通信，和/或与使得该服务器412能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且，服务器412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器420通过总线418与服务器412的其它模块通信。应当明白，尽管图中未示出，可以结合服务器412使用其它硬件和/或软件模块，包括但不限于：微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在存储装置428中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例所提供的图片特征提取方法，该方法可以包括：

检测目标图片中的显著性区域；

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的图片特征提取方法，该方法可以包括：

检测目标图片中的显著性区域；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图片特征提取方法，其特征在于，所述方法包括：

检测目标图片中的显著性区域；其中，检测目标图片中的显著性区域，包括：利用预先训练得到的显著探测模型，通过对目标图片的像素点进行分类，检测目标图片中的显著性区域；

利用预先训练得到的特征提取模型，结合所述目标图片中的显著性区域，从目标图片中提取特征参数，其中，所述特征参数与所述目标图片中的显著性区域的特征具有一致性；所述显著探测模型和特征提取模型是利用端到端的机器学习方法训练得到；其中，所述显著探测模型用于检测图片中的显著性区域，得到图片中的每个像素块属于显著性区域的概率；所述特征提取模型用于依据所述概率提取图片的特征参数。

2.根据权利要求1所述的方法，其特征在于，所述特征参数包括颜色特征参数、亮度特征参数或纹理特征参数；

3.根据权利要求1所述的方法，其特征在于，结合所述目标图片中的显著性区域，从目标图片中提取特征参数，包括：

依据所述目标图片中显著性区域的像素特征与目标图片全局像素特征的关系，从目标图片中提取特征参数。

4.根据权利要求1所述的方法，其特征在于，所述特征提取模型为多层感知器；

相应的，所述显著探测模型和多层感知器的训练过程包括：

5.一种图片特征提取装置，其特征在于，所述装置包括：

显著性区域检测模块，用于检测目标图片中的显著性区域；其中，所述显著性区域检测模块具体用于：利用预先训练得到的显著探测模型，通过对目标图片的像素点进行分类，检测目标图片中的显著性区域；

特征参数提取模块，用于利用预先训练得到的特征提取模型，结合所述目标图片中的显著性区域，从目标图片中提取特征参数，其中，所述特征参数与所述目标图片中的显著性区域的特征具有一致性；所述显著探测模型和特征提取模型是利用端到端的机器学习方法训练得到；其中，所述显著探测模型用于检测图片中的显著性区域，得到图片中的每个像素块属于显著性区域的概率；所述特征提取模型用于依据所述概率提取图片的特征参数。

6.根据权利要求5所述的装置，其特征在于，所述特征参数包括颜色特征参数、亮度特征参数或纹理特征参数；

7.根据权利要求5所述的装置，其特征在于，所述特征参数提取模块具体用于：

8.根据权利要求5所述的装置，其特征在于，所述特征提取模型为多层感知器；

相应的，所述装置还包括训练模块，具体用于：

9.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的图片特征提取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的图片特征提取方法。