CN106484913A

CN106484913A - 一种目标图片确定的方法以及服务器

Info

Publication number: CN106484913A
Application number: CN201610947631.3A
Authority: CN
Inventors: 罗波罗
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2017-03-08
Anticipated expiration: 2036-10-26
Also published as: CN106484913B

Abstract

本发明实施例公开了一种目标图片确定的方法，包括：获取目标页面，目标页面中包括至少一张图片；根据预置训练模型对目标页面中的图片进行评估，并得到图片对应的评估分值，其中，预置训练模型为各张图片与各张图片的评估分值的函数关系模型，各张图片的评估分值用于表示各张图片的重要性大小；根据图片对应的评估分值从图片中确定目标图片。本发明还提供一种服务器。本发明直接将页面中的图片输入至已经训练完成的预置训练模型，利用该预置训练模型来选择目标图片，以此可以在保证一定准确率的情况下，节省对页面中每张图片进行分析的时间，从而降低识别页面中重要图片的耗时，并且提升快速识别页面摘要图片的要求。

Description

一种目标图片确定的方法以及服务器

技术领域

本发明涉及图像处理领域，尤其涉及一种目标图片确定的方法以及服务器。

背景技术

随着互联网技术的发展，通过网页浏览信息也逐渐成为喜闻乐见的信息获取方式。其中，在网页上可以浏览到的信息主要包括文字、图片、音频或者视频等，从而丰富了人们的日常生活。

目前，服务器可以提取网页中重要的图片作为网页摘要图片，并将网页摘要图片推送至客户端，以此便于用户了解该网页主要提供的信息。关于如何选择网页中重要的图片可以采用如下方式，即先下载超文本标记语言(英文全称：Hyper Text MarkupLanguage，英文缩写：HTML)页面，然后下载该页面中的图片，最后分析这些已下载的图片中最适合作为网页摘要的图片。

然而，通过上述方式选择网页摘要图片，通常情况下需要耗费较多的时间。这是由于服务器需要先下载网页中的图片，然后将图片进行解析，再采用机器学习技术来分析每张图片的内容，最后根据图片的具体内容来进行分类与选取，这将导致识别图片的效率降低，从而无法满足快速且准确地识别网页摘要图片的要求。

发明内容

本发明实施例提供了一种目标图片确定的方法以及服务器，可以在保证一定准确率的情况下，节省对页面中每张图片进行分析的时间，从而降低识别页面中重要图片的耗时，并且提升快速识别页面摘要图片的要求。

有鉴于此，本发明第一方面提供了目标图片确定的方法，包括：

获取目标页面，所述目标页面中包括至少一张图片；

根据预置训练模型对所述目标页面中的图片进行评估，并得到所述图片对应的评估分值，其中，所述预置训练模型为各张图片与所述各张图片的评估分值的函数关系模型，所述各张图片的评估分值用于表示所述各张图片的重要性大小；

根据所述图片对应的评估分值从所述图片中确定目标图片。

本发明第二方面提供了一种服务器，包括：

第一获取模块，用于获取目标页面，所述目标页面中包括至少一张图片；

评估模块，用于根据预置训练模型对所述第一获取模块获取的所述目标页面中的图片进行评估，并得到所述图片对应的评估分值，其中，所述预置训练模型为各张图片与所述各张图片的评估分值的函数关系模型，所述各张图片的评估分值用于表示所述各张图片的重要性大小；

第一确定模块，用于根据所述评估模块评估的所述图片对应的评估分值从所述图片中确定目标图片。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种目标图片确定的方法，服务器先获取包括至少一张图片的目标页面，然后根据预置训练模型对目标页面中的图片进行评估，并得到图片对应的评估分值，其中，预置训练模型为各张图片与各张图片的评估分值的函数关系模型，各张图片的评估分值用于表示各张图片的重要性大小，最后服务器根据图片对应的评估分值从图片中确定目标图片。通过上述方式，无需对页面中的每张图片的内容进行一一分析，而是直接将页面中的图片输入至已经训练完成的预置训练模型，利用该预置训练模型来选择目标图片，以此可以在保证一定准确率的情况下，节省对页面中每张图片进行分析的时间，从而降低识别页面中重要图片的耗时，并且提升快速识别页面摘要图片的要求。

附图说明

图1为本发明实施例中目标图片确定方法的用例图；

图2为本发明实施例中目标图片确定的方法一个交互实施例示意图；

图3为本发明实施例中目标图片确定的方法一个实施例示意图；

图4为本发明实施例中终端标记样本图片的一个序列图；

图5为本发明实施例中页面内的样本图片示意图；

图6为本发明实施例中服务器确定目标图片的一个序列图；

图7为本发明应用场景中显示目标图片的界面示意图；

图8为本发明应用场景中重要图片样本数据的条形示意图；

图9为本发明应用场景中非重要图片样本数据的条形示意图；

图10为本发明应用场景中重要图片父级P元素的概率分布图；

图11为本发明应用场景中非重要图片父级P元素的概率分布图；

图12为本发明实施例中服务器一个实施例示意图；

图13为本发明实施例中服务器另一个实施例示意图；

图14为本发明实施例中服务器另一个实施例示意图；

图15为本发明实施例中服务器另一个实施例示意图；

图16为本发明实施例中服务器另一个实施例示意图；

图17为本发明实施例中服务器另一个实施例示意图；

图18为本发明实施例中服务器另一个实施例示意图；

图19为本发明实施例中服务器一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明应用于目标图片确定系统，请参阅图1，图1为本发明实施例中目标图片确定方法的用例图，如图1所示，图中包括终端以及服务器，其中，图中的虚线上半部分表示终端，终端上安装有客户端浏览器，其中客户端浏览器中包含了样本抓取模块，该样本抓取模块主要用于用户抓取样本图片，进而终端向服务器发送用户抓取的样本图片，服务器中的样本数据库将会存储这些样本图片。

对于服务器而言，首先需要分析样本数据库中的样本图片，具体的分析方式可以是提取样本图片自身的信息，也可以是提取样本图片周边元素的信息，根据这些信息获取各样本图片的特征值，并且将这些特征值也存储在样本数据库中。后续，服务器可以采用机器算法或者利用分类器来训练样本数据库中存储的特征值，以得到一个预置训练模型，当然，预置训练模型可简单理解为是至少一种函数，根据特征值代入不同的函数求值。例如，当出现一个新的页面且页面中包含至少一张图片时，分类模块将采用预置训练模型对该页面中的至少一张图片进行分类计算，最后由分类模块直接输出一张最为重要的目标图片。

需要说明的是，这里所提到的终端除了可以是个人电脑(英文全称：PersonalComputer，英文缩写：PC)，还可以是智能手机、平板电脑或者个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)等，此处以PC为例进行介绍，然而并不应构成对本发明方案的限定。

为了便于理解，请参阅图2，图2为本发明实施例中目标图片确定的方法一个交互实施例示意图，如图所示，具体为：

步骤101中，为了得到预置训练模型，首先需要标记一系列的样本进行训练，这个过程可由用户来完成，即用户通过安装在终端上的客户端来标记自己认为重要的样本图片，当然，也可以标记自己认为不重要的样本图片；

步骤102中，接着，由终端收集用户标记好的样本图片，并且向服务器发送这些样本图片；

步骤103中，服务器收到样本图片后，采用特征分析的方式来分析每张样本图片，其中，服务器需要先按照一定的规则来获取每张样本图片对应的图片特征数据；

步骤104中，进一步地，服务器开始利用这些样本图片的图片特征数据来进行模型训练，具体可以采用贝叶斯算法来构建训练模型；

步骤105中，当终端选择一个目标页面时，即告知服务器该目标页面上的信息，如果服务器根据信息内容确定目标页面上包含有图片，那么将分析这些图片所对应的图片特征数据，将图片特征信息输入至预置训练模型，继而得到输出的目标图片；

步骤106中，服务器可以向终端推送或者展示该目标图片。

下面将从服务器的角度，对本发明中目标图片确定的方法进行介绍，请参阅图3，本发明实施例中目标图片确定的方法一个实施例包括：

201、获取目标页面，目标页面中包括至少一张图片；

本实施例中，首先服务器获取目标页面，其中，获取的方式可以是通过终端选择的方式来被动获取该目标页面，也可以是服务器按照一定的时间间隔主动选择不同的页面作为目标页面，而目标页面上需要包含至少一张图片，这些图片可以有多种类型，例如文字配图，广告图片，新闻推送图片等。

202、根据预置训练模型对目标页面中的图片进行评估，并得到图片对应的评估分值，其中，预置训练模型为各张图片与各张图片的评估分值的函数关系模型，各张图片的评估分值用于表示各张图片的重要性大小；

本实施例中，服务器在获取到目标页面上的至少一张图片之后，将通过预置训练模型对该目标页面上的至少一张图片分别进行评估，然后得到这至少一张图片分别所对应的评估分值，评估分值的大小可以直接决定该图片的重要程度。

其中，预置训练模型是各张图片与其评估分值所对应的函数关系模型，该函数关系模型中包括一个或多个函数，使得输入的图片可以按照不同的需求获取阶段性的处理，比如，先计算出A值，再利用A值计算出B值，最后输出C值，分阶段来进行计算。

203、根据图片对应的评估分值从图片中确定目标图片。

本实施例中，服务器可以根据图片所对应的评估分值，按照要求从目标页面中所有的图片中选择最重要的一张作为目标图片，服务器还可以进一步向终端推送这张目标图片，也可以存储在后台数据库中，以备下次选择该目标页面时可以直接推送目标图片。

本发明实施例中，无需对页面中的每张图片的内容进行一一分析，而是直接将页面中的图片输入至已经训练完成的预置训练模型，利用该预置训练模型来选择目标图片，以此可以在保证一定准确率的情况下，节省对页面中每张图片进行分析的时间，从而降低识别页面中重要图片的耗时，并且提升快速识别页面摘要图片的要求。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的目标图片确定的方法第一个可选实施例中，获取目标页面之前，还可以包括：

获取样本数据库中样本图片的图片特征数据，样本图片为终端预先标记过的图片，图片特征数据表示样本图片在页面中的文档属性；

根据样本图片的图片特征数据确定预置训练模型。

本实施例中，介绍了服务器在获取目标页面之前需要先训练用于输出目标图片的预置训练模型。

为了便于介绍，请参阅图4，图4为本发明实施例中终端标记样本图片的一个序列图，具体为，在步骤301中，用户先通过安装于终端的浏览器客户端来启动样本抓取模块，而样本抓取模块为浏览器客户端内的一个模块，即一个插件，其功能主要是帮助用户快速获取样本。在步骤302中，用户通过点击浏览器客户端中网页的图片将其标记为重要图片，进而浏览器客户端在步骤303中调用样本抓取模块来抓取这些作为重要图片的样本图片，再由样本抓取模块在步骤304中将这些样本图片发送至样本数据库，由样本数据库存储样本图片。步骤305中，样本数据库向样本抓取模块反馈样本图片存储完毕的指令，并且由样本抓取模块在步骤306中再向浏览器客户端发送标记完毕提示，当然，在步骤307中，浏览器客户端会显示该提示，以此通知用户当前重要图片已经标记成功。

需要说明的是，样本抓取模块除了可以抓取用户认为重要的样本图片以外，还可以抓取用户认为非重要的图片，以及图片周边的文字等内容，此处不做限定。

可以理解的是，在图4中，步骤305至步骤307也可以不存在，即样本数据库不会通过样本抓取模块向用户发送标记成功的提示。

服务器根据样本数据库中已存储的样本图片来确定每张图片所对应的图片特征数据，即按照一定的规则分析样本图片，以得到相应的图片特征数据，其中，图片特征数据用于表示样本图片在页面中的文档属性，于是服务器可以利用样本图片的图片特征数据来训练得到预置训练模型。

其次，本发明实施例中，安装于终端的浏览器客户端先标记样本图片，然后服务器根据这些样本图片来确定对应的图片特征数据，最后利用图片特征数据来训练预置训练模型。通过上述方式，能够使得服务器训练得到更贴近用户期许的预置训练模型，用户可以通过标记样本图片来调整预置训练模型，从而提升方案的实用性和可操作性。

可选地，在上述图3对应的第一个实施例的基础上，本发明实施例提供的目标图片确定的方法第二个可选实施例中，根据样本图片的图片特征数据确定预置训练模型，可以包括：

根据样本图片的图片特征数据确定概率密度函数；

根据概率密度函数确定概率质量函数；

根据概率质量函数确定样本图片的预置训练模型。

本实施例中，服务器利用样本图片的图片特征数据可以训练得到预置训练模型，具体为，服务器先采用极大似然估计来估计出各个图片特征数据的概率密度函数。极大似然估计是一种概率论在统计学的应用，它是参数估计的方法之一，已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚时，参数估计就可以通过若干次试验观察其结果，利用结果推出参数的大概值。极大似然估计是建立在这样的思想上，已知某个参数能使这个样本出现的概率最大，所以就把这个参数作为估计的真实值。得到的概率密度函数表示瞬时幅值落在某指定范围内的概率，因此是幅值的函数。它随所取范围的幅值而变化。

接着，服务器再采用黎曼积分将概率密度函数转换为概率质量函数，通过概率质量函数可以确定预置训练模型，由于该预置训练模型中通常包含了多个函数，因此计算得到的概率质量函数也可作为预置训练模型中一个函数，用于根据输入的图片特征数据来得到对应的函数结果，以便继续利用该函数结果与预置训练模型中其他的函数进行拟合计算。

再次，本发明实施例中，提供了一种得到预置训练模型的具体操作方法，即服务器利用样本图片的图片特征数据先计算概率密度函数，再利用概率密度函数计算概率质量函数，以此可以构建预置训练模型，并且在构建预置训练模型的过程中得到概率质量函数，以便于后续工程计算，从而提升方案的实用性以及便利性。

可选地，在上述图3对应的第二个实施例的基础上，本发明实施例提供的目标图片确定的方法第三个可选实施例中，样本图片的图片特征数据具体可以包括样本图片的自身特征值和/或样本图片与周边元素的交互特征值。

本实施例中，服务器根据样本数据库中已存储的样本图片，并按照一定的规则分析样本图片，以得到图片特征数据。这些图片特征数据的获取规则主要包括两个方面，第一方面是该图片自身的特征值，第二方面是该图片与周边元素之间的交互特征值。

请参阅图5，图5为本发明实施例中页面内的样本图片示意图，且为一个典型的HTML页面，其中主要包括文章标题、页面主体内容和非关键信息，顾名思义，文章标题即为该HTML页面所展示内容的简短语句。页面主体内容中通常就是指与文章标题相关的文章内容，文章内容中还包括了至少一个段落，图5中的4个段落仅为一个示意，此外，文章内容中还具有符合主体内容的至少一张图片，例如图片A和图片B。在非关键信息中除了可以包含文字以外，还可以包含至少一张不符合主题的图片，例如广告图片或者网页装饰图片等。

通过图5不难看出，如果需要获取一张图片的图片特征数据，不但可以考虑图片自身在HTML页面中的特征值，而且还可以根据与周边文字或者其他图片之间的间隔距离大小、排布方式以及人为设置情况来得到交互特征值。

具体地，样本图片的自身特征值包含以下几种类型：

例如：图片源操作数(英文全称：source code，英文缩写：src)属性的后缀名，利用src属性的后缀名能够得到图片的链接地址；图片是HTML页面上的第几张图；图片父层级的文字数目；图片祖父层级的文字数目。

样本图片与周边元素的交互特征值包含以下几种类型：

例如：周边元素是否具有图片属性；图片当前层级的定义标题、定义段落、布局和章节等元素的数目；图片父层级的定义标题、定义段落、布局和章节等元素的数目；图片祖父层级的定义标题、定义段落、布局和章节等元素的数目。

需要说明的是，在实际应用中还能够对样本图片设置其他类型的自身特征值或者是交互特征值，此处不做限定。

进一步地，本发明实施例中，说明了图片特征数据的具体内容，不但可以根据图片自身特征信息来确定，还可以考虑到周边元素对图片的影响，从而保证图片特征数据的全面性和丰富性，面对不同的图片类型得到不同的图片特征数据，满足对预置训练模型进行训练的需要。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的目标图片确定的方法第四个可选实施例中，根据预置训练模型对目标页面中的图片进行评估，并得到图片对应的评估分值，可以包括：

获取目标页面中图片的图片特征数据；

将图片的图片特征数据输入至预置训练模型；

利用预置训练模型获取图片所对应的第一评估权重值以及第二评估权重值，其中，第一评估权重值用于指示图片的重要程度，第二评估权重值用于指示图片的非重要程度。

本实施例中，服务器需要通过计算出图片的评估分值来确定其是否为重要图片，由此量化每张图片的重要程度。

具体为，首先服务器确定一个目标页面，然后对目标页面中的至少一张图片进行特征分析处理，可以按照规则提取图片自身的特征值，也可以提取图片与周边元素的交互特征值，还可以两者都被提取。接下来，服务器将图片对应的图片特征数据输入至已经训练好的预置训练模型中，经过预置训练模型对图片特征数据的一系列计算后，可以得到至少两个权重值，即第一评估权重值以及第二评估权重值。

其中，第一评估权重值主要是用来评估图片的重要程度，而第二评估权重值主要是用来评估图片的非重要程度，权重值的高低直接影响了服务器判断图片的重要性。

其次，本发明实施例中，服务器利用现成的预置训练模型可以得到每张图片对应的第一评估权重值以及第二评估权重值，从而说明了利用预置训练模型分析图片的重要程度主要通过量化的方式，不需要具体解析图片的内容，省去了图片识别的过程，而是直接输出图片的评估分值，从而加快了对重要图片筛选的效率。

可选地，在上述图3对应的第四个实施例的基础上，本发明实施例提供的目标图片确定的方法第五个可选实施例中，利用预置训练模型获取图片所对应的第一评估权重值以及第二评估权重值，可以包括：

按照如下方式计算第一评估权重值：

P(A\B)表示第一评估权重值；

P(B\A)表示当图片是重要图片时，图片特征数据对应的概率值；

P(A)表示图片为重要图片的概率值；

P(B)为利用预置训练模型确定的图片特征数据的概率值；

按照如下方式计算第二评估权重值：

P(C\B)表示所述第二评估权重值；

P(B\C)表示当图片是非重要图片时，图片特征数据对应的概率值；

P(C)表示图片为非重要图片的概率值；

P(B)为利用预置训练模型确定的图片特征数据的概率值。

本实施例中，服务器可以通过贝叶斯算法来计算第一评估权重值和第二评估权重值，贝叶斯算法又为贝叶斯分类算法，是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高并且速度快。

具体地，以获取第一评估权重值为例，服务器可以获取图片为重要图片的概率，通常情况下，这个概率值与用户预先标记图片为重要图片的次数相关。然后利用样本图片的图片特征数据确定概率质量函数，确定该图片的图片特征数据出现的概率值，并且获取当图片是重要图片时，图片特征数据出现所对应的概率值，最后采用公式即可计算得到第一评估权重值。

可以理解的是，计算第二评估权重值的方式与计算第一评估权重值的方式相似，不同的地方在于，获取的是非重要图片的概率，而不是获取重要图片的概率，具体计算方式此处不做赘述。

再次，本发明实施例中，计算第一评估权重值和第二评估权重值的方式类似，即都采用贝叶斯算法，贝叶斯算法在小样本上有较好的表现力，能够更准确地对图片进行分类，从而提升方案的准确性。

可选地，在上述图3对应的第四个或第五个实施例的基础上，本发明实施例提供的目标图片确定的方法第六个可选实施例中，根据图片对应的评估分值确定目标图片，可以包括：

若图片的第一评估权重值大于第二评估权重值，则确定图片为重要图片；

从目标页面的重要图片中确定目标图片。

本实施例中，服务器利用预置训练模型，通过将图片的图片特征数据输入至该预置训练模型，可以得到该图片的第一评估权重值和第二评估权重值。如上述实施例中介绍的内容，第一评估权重值是表示图片的重要程度，而第二评估权重值是表示图片的非重要程度，两者之间通过权重值大小的比较可以确定图片是更为重要还是更为非重要。

具体地，假设图片的第一评估权重值大于第二评估权重值，那么就能够确定图片为重要图片，相反地，假设图片的第一评估权重值小于第二评估权重值，那么就能够确定图片为非重要图片。特殊情况下，当图片的第一评估权重值等于第二评估权重值时，那么可以根据预置规则进行处理，例如，认为这种情况下的图片是重要图片，或者认为这种情况下的图片是非重要图片，又或者将这种情况下的图片做标记处理，以后不再输入至预置训练模型。

进一步地，本发明实施例中，在服务器确定图片是否为重要图片的过程中，直接比较第一评估权重值与第二评估权重值之间的大小，即第一评估权重值大于第二评估权重值时认为该图片重要。采用上述方式有利于提升重要图片的辨识度，依靠量化的权重值结果来判定图片是否重要，从而提升了方案的可行性。

可选地，在上述图3对应的第六个实施例的基础上，本发明实施例提供的目标图片确定的方法第七个可选实施例中，从目标页面的重要图片中确定目标图片，可以包括：

若重要图片中包含多张图片，则从重要图片中每张图片中选择第一评估权重值最大的图片作为目标页面对应的目标图片。

本实施例中，假设目标页面上有多张图片，并且服务器已经利用预置训练模型得到了多张重要图片，此时，预置训练模型将继续采用比较法来计算出多张重要图片中的一张最重要的目标图片。

例如，当前有5张重要图片，分别为图片A、图片B、图片C、图片D和图片E，其中，重要图片与其所对应的第一评估权重值之间关系如下表1所示：

表1

重要图片序号	第一评估权重值
		A	1.623
B	1.268
		C	1.777
D	1.681
		E	1.198

根据上表1，服务器可以即可选择第一评估权重值为1.777的图片C作为该目标页面中的目标图片。

更进一步地，本发明实施例中，当预置训练模块筛选出多张重要图片时，还需要针对这些图片选择其中一种最重要的图片作为目标图片，因此服务器再次利用各张重要图片对应的第一评估权重值，并通过比较值的大小来确定目标图片，不但操作简单，而且通过第一评估权重值来量化图片的重要性有利于图片选择的准确性和公平性。

上述图3以及图3对应第一至第七个实施例中，主要以服务器的角度介绍的目标图片确定的方法，为了便于理解，请参阅图6，图6为本发明实施例中服务器确定目标图片的一个序列图，具体为：

步骤401中，服务器内的特征分析模块开始进行样本图片的图片特征数据分析；

步骤402中，首先特征分析模块从样本数据库中获取未分析过的样本图片，分析过的样本图片可以做标记，这样就可以避免反复获取相同样本图片的图片特征数据，从而节省服务器的计算资源；

步骤403中，样本数据库为特征分析模块提供样本图片，用于后续分析；

步骤404中，特征分析模块则会分析样本图片，然后得到这些样本图片的图片特征信息，并将样本图片的图片特征信息再保存到样本数据库中；

步骤405中，触发训练模块开始训练预置训练模型；

步骤406中，训练模块从样本数据库中查询已存储的图片特征信息；

步骤407中，由样本数据库向其返回相应的图片特征信息；

步骤408中，训练模块通过图片特征信息，计算出各个图片特征信息的概率质量函数，并且得到预置训练模型，该预置训练模型供后续贝叶斯分类器使用；

步骤409中，当有一个HTML页面开启时，即可以分析该页面；

步骤410中，首先由服务器中的分类模块下载对应的HTML页面，并且获取其中的图片标签；

步骤411中，然后分类模块从训练模块中提取预置训练模型，并加载该预置训练模型，继而再使用贝叶斯算法对HTML页面中各图片标签中的图片进行分类和打分；

步骤412中，最后分类模块将输出HTML页面中各张图片的类型和权重分值，以进行图片重要性的评估；

步骤413中，服务器根据目标页面中各张图片的重要程度，选择其中一张作为最重要的目标图片，然后返回至用户可见的客户端。

为便于理解，下面还可以以一个具体应用场景对本发明中推送直播视频内容的过程进行详细描述，请参阅图7，图7为本发明应用场景中显示目标图片的界面示意图，具体为：

用户甲下载了一款手游社区的应用程序，可通过该应用程序分享一个外部链接给使用该应用程序的其他用户。如果分享的页面有配图，那么就需要服务器在后台识别出一张最符合该外部链接内容的图片作为摘要图片，如图7所示，图7左侧为用户甲发表外部链接的页面，然后在图7的右侧将显示收到这条外部链接的用户所看到的页面，即摘要图片将和页面标题等其他内容在文章列表中呈现给用户，便于其他用户快速识别分享的内容。

然而，服务器究竟是如何选择出这条外部链接所对应的页面中最符合要求的摘要图片呢？下面将进行详细说明。

首先需要有工程师预先标记大量的样本图片，服务器收到这些样本图片后，假设样本图片的图片特征数据为父层级P元素数目，分析样本图片中重要图片和非重要图片的图片特征数据，并统计如下表2所示：

表2

根据上表2的内容，将父级P元素数目作为横坐标，父级P元素出现次数作为纵坐标，可以分别得到重要图片和非重要图片的图片样本数据示意图，即如图8和图9所示的条形示意图。从图中可以看出，重要图片概率分布比较平均。而非重要图片后续几乎没有分布，下降很快。

服务器再将这些图片特征数据进行函数拟合，得到结果如下：

重要图片父级P元素分布函数为：

F(x)＝1/(sigma*sqrt(2*pi))*exp((-((x-mu)*(x-mu)))/(2*sigma*sigma))

其中，sigma的符号为∑，数值为38.2132，sqrt的符号为表示对一个数或一个代数式进行开方运算，pi的符号为π，表示圆周率，mu的符号为μ，数值为26.2485，sigma和mu的取值与重要图片父级P元素的个数相关，图10为重要图片父级P元素的概率分布图。

非重要图片父级P元素分布函数为：

F(x)＝1/(sigma*sqrt(2*pi))*exp((-((x-mu)*(x-mu)))/(2*sigma*sigma))

其中，sigma的符号为∑，数值为5.2632，sqrt的符号为表示对一个数或一个代数式进行开方运算，pi的符号为π，表示圆周率，mu的符号为μ，数值为0.4596，sigma和mu的取值与重要图片父级P元素的个数相关，图11为非重要图片父级P元素的概率分布图。

通过黎曼积分将概率密度函数转化为概率质量函数，便于后续工程计算。

比如重要图片父级P元素的概率质量函数为：

F(x)＝

0.0411，x＝0

0.0377，x＝1

0.0383，x＝2

0.0389，x＝3

....

0.00027，x＝150

当分析一个外部链接对应的新页面时，服务器分析到图片父级P元素数目(比如数目是18)，然后将计算的特征质量函数代入贝叶斯公式中计算

即：(图片是重要图片\当P元素为18时)的概率＝((P元素为18\图片是重要图片时)的概率*图片是重要图片的概率)/P元素为18的概率

即：(图片是非重要图片\当P元素为18时)的概率＝((P元素为18\图片是非重要图片时)的概率*图片是非重要图片的概率)/P元素为18的概率

根据上述公式可以计算得到重要图片权重值为：

Y1＝0.046*0.1/0.003＝1.533

非重要图片权重值为：

Y2＝0.0014*0.9/0.003＝0.42

因为Y1>Y2所以这张图片更可能是一张重要图片。

实际工程中可以有许多特征值，各个特征值的权重相乘后计算最终结果，多张图片均判断为重要图片时，取权重值最大的一张。

下面对本发明中的服务器进行详细描述，请参阅图12，本发明实施例中的服务器为应用于目标图片确定的方法中的服务器，服务器50包括：

第一获取模块501，用于获取目标页面，所述目标页面中包括至少一张图片；

评估模块502，用于根据预置训练模型对所述第一获取模块501获取的所述目标页面中的图片进行评估，并得到所述图片对应的评估分值，其中，所述预置训练模型为各张图片与所述各张图片的评估分值的函数关系模型，所述各张图片的评估分值用于表示所述各张图片的重要性大小；

第一确定模块503，用于根据所述评估模块502评估的所述图片对应的评估分值从所述图片中确定目标图片。

本实施例中，第一获取模块501获取目标页面，所述目标页面中包括至少一张图片；评估模块502根据预置训练模型对所述第一获取模块501获取的所述目标页面中的图片进行评估，并得到所述图片对应的评估分值，其中，所述预置训练模型为各张图片与所述各张图片的评估分值的函数关系模型，所述各张图片的评估分值用于表示所述各张图片的重要性大小；第一确定模块503根据所述评估模块502评估的所述图片对应的评估分值从所述图片中确定目标图片。

本发明实施例中，提供了一种服务器，该服务器先获取包括至少一张图片的目标页面，然后根据预置训练模型对目标页面中的图片进行评估，并得到图片对应的评估分值，其中，预置训练模型为各张图片与各张图片的评估分值的函数关系模型，各张图片的评估分值用于表示各张图片的重要性大小，最后服务器根据图片对应的评估分值从图片中确定目标图片。通过上述方式，无需对页面中的每张图片的内容进行一一分析，而是直接将页面中的图片输入至已经训练完成的预置训练模型，利用该预置训练模型来选择目标图片，以此可以在保证一定准确率的情况下，节省对页面中每张图片进行分析的时间，从而降低识别页面中重要图片的耗时，并且提升快速识别页面摘要图片的要求。

可选地，在上述图12所对应的实施例的基础上，请参阅图13，本发明实施例提供的服务器的另一实施例中，

所述服务器50还包括：

第二获取模块504，用于所述第一获取模块501获取目标页面之前，获取样本数据库中样本图片的图片特征数据，所述样本图片为终端预先标记过的图片，所述图片特征数据表示所述样本图片在页面中的文档属性；

第二确定模块505，用于根据所述第二获取模块504获取的所述样本图片的图片特征数据确定所述预置训练模型。

可选地，在上述图13所对应的实施例的基础上，请参阅图14，本发明实施例提供的服务器的另一实施例中，

所述第二确定模块505包括：

第一确定单元5051，用于根据所述样本图片的图片特征数据确定概率密度函数；

第二确定单元5052，用于根据所述第一确定单元5051确定的所述概率密度函数确定概率质量函数；

第三确定单元5053，用于根据所述第二确定单元5052确定所述概率质量函数确定所述样本图片的所述预置训练模型。

可选地，在上述图14所对应的实施例的基础上，本发明实施例提供的服务器的另一实施例中，

所述样本图片的图片特征数据包括所述样本图片的自身特征值和/或所述样本图片与周边元素的交互特征值。

可选地，在上述图12所对应的实施例的基础上，请参阅图15，本发明实施例提供的服务器的另一实施例中，

所述评估模块502包括：

第一获取单元5021，用于获取所述目标页面中所述图片的图片特征数据；

输入单元5022，用于将所述第一获取单元获5021取的所述图片的图片特征数据输入至所述预置训练模型；

第二获取单元5023，用于利用所述输入单元5022输入的所述预置训练模型获取所述图片所对应的第一评估权重值以及第二评估权重值，其中，所述第一评估权重值用于指示所述图片的重要程度，所述第二评估权重值用于指示所述图片的非重要程度。

可选地，在上述图15所对应的实施例的基础上，请参阅图16，本发明实施例提供的服务器的另一实施例中，

所述第二获取单元5023包括：

第一计算子单元50231，用于按照如下方式计算所述第一评估权重值：

所述P(A\B)表示所述第一评估权重值；

所述P(B\A)表示当所述图片是重要图片时，所述图片特征数据对应的概率值；

所述P(A)表示所述图片为所述重要图片的概率值；

所述P(B)为利用所述预置训练模型确定的所述图片特征数据的概率值；

第二计算子单元50232，用于按照如下方式计算所述第二评估权重值：

所述P(C\B)表示所述第二评估权重值；

所述P(B\C)表示当所述图片是非重要图片时，所述图片特征数据对应的概率值；

所述P(C)表示所述图片为所述非重要图片的概率值；

所述P(B)为利用所述预置训练模型确定的所述图片特征数据的概率值。

可选地，在上述图15或图16所对应的实施例的基础上，请参阅图17，本发明实施例提供的服务器的另一实施例中，

所述第一确定模块503包括：

第四确定单元5031，用于若所述图片的所述第一评估权重值大于所述第二评估权重值，则确定所述图片为重要图片；

第五确定单元5032，用于从所述第四确定单元5031确定的所述目标页面的所述重要图片中确定所述目标图片。

可选地，在上述图17所对应的实施例的基础上，请参阅图18，本发明实施例提供的服务器的另一实施例中，

所述第五确定单元5032包括：

确定子单元50321，用于若所述重要图片中包含多张图片，则从所述重要图片中每张图片中选择所述第一评估权重值最大的图片作为所述目标页面对应的所述目标图片。

图19是本发明实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：centralprocessing units，英文缩写：CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质930通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图19所示的服务器结构。

其中，中央处理器622用于，

获取目标页面，所述目标页面中包括至少一张图片；

根据所述图片对应的评估分值从所述图片中确定目标图片。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标图片确定的方法，其特征在于，包括：

获取目标页面，所述目标页面中包括至少一张图片；

根据所述图片对应的评估分值从所述图片中确定目标图片。

2.根据权利要求1所述的方法，其特征在于，所述获取目标页面之前，所述方法还包括：

获取样本数据库中样本图片的图片特征数据，所述样本图片为终端预先标记过的图片，所述图片特征数据表示所述样本图片在页面中的文档属性；

根据所述样本图片的图片特征数据确定所述预置训练模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本图片的图片特征数据确定所述预置训练模型，包括：

根据所述样本图片的图片特征数据确定概率密度函数；

根据所述概率密度函数确定概率质量函数；

根据所述概率质量函数确定所述样本图片的所述预置训练模型。

4.根据权利要求3所述的方法，其特征在于，所述样本图片的图片特征数据包括所述样本图片的自身特征值和/或所述样本图片与周边元素的交互特征值。

5.根据权利要求1所述的方法，其特征在于，所述根据预置训练模型对所述目标页面中的图片进行评估，并得到所述图片对应的评估分值，包括：

获取所述目标页面中所述图片的图片特征数据；

将所述图片的图片特征数据输入至所述预置训练模型；

利用所述预置训练模型获取所述图片所对应的第一评估权重值以及第二评估权重值，其中，所述第一评估权重值用于指示所述图片的重要程度，所述第二评估权重值用于指示所述图片的非重要程度。

6.根据权利要求5所述的方法，其特征在于，所述利用所述预置训练模型获取所述图片所对应的第一评估权重值以及第二评估权重值，包括：

按照如下方式计算所述第一评估权重值：

P (A \ B) = \frac{P (B \ A) P (A)}{P (B)}

所述P(A\B)表示所述第一评估权重值；

所述P(A)表示所述图片为所述重要图片的概率值；

按照如下方式计算所述第二评估权重值：

P (C \ B) = \frac{P (B \ C) P (C)}{P (B)}

所述P(C\B)表示所述第二评估权重值；

所述P(C)表示所述图片为所述非重要图片的概率值；

7.根据权利要求5或6所述的方法，其特征在于，所述根据所述图片对应的评估分值确定目标图片，包括：

若所述图片的所述第一评估权重值大于所述第二评估权重值，则确定所述图片为重要图片；

从所述目标页面的所述重要图片中确定所述目标图片。

8.根据权利要求7所述的方法，其特征在于，所述从所述目标页面的所述重要图片中确定所述目标图片，包括：

若所述重要图片中包含多张图片，则从所述重要图片中每张图片中选择所述第一评估权重值最大的图片作为所述目标页面对应的所述目标图片。

9.一种服务器，其特征在于，包括：

10.根据权利要求9所述的服务器，其特征在于，所述服务器还包括：

第二获取模块，用于所述第一获取模块获取目标页面之前，获取样本数据库中样本图片的图片特征数据，所述样本图片为终端预先标记过的图片，所述图片特征数据表示所述样本图片在页面中的文档属性；

第二确定模块，用于根据所述第二获取模块获取的所述样本图片的图片特征数据确定所述预置训练模型。

11.根据权利要求10所述的服务器，其特征在于，所述第二确定模块包括：

第一确定单元，用于根据所述样本图片的图片特征数据确定概率密度函数；

第二确定单元，用于根据所述第一确定单元确定的所述概率密度函数确定概率质量函数；

第三确定单元，用于根据所述第二确定单元确定所述概率质量函数确定所述样本图片的所述预置训练模型。

12.根据权利要求11所述的服务器，其特征在于，所述样本图片的图片特征数据包括所述样本图片的自身特征值和/或所述样本图片与周边元素的交互特征值。

13.根据权利要求9所述的服务器，其特征在于，所述评估模块包括：

第一获取单元，用于获取所述目标页面中所述图片的图片特征数据；

输入单元，用于将所述第一获取单元获取的所述图片的图片特征数据输入至所述预置训练模型；

第二获取单元，用于利用所述输入单元输入的所述预置训练模型获取所述图片所对应的第一评估权重值以及第二评估权重值，其中，所述第一评估权重值用于指示所述图片的重要程度，所述第二评估权重值用于指示所述图片的非重要程度。

14.根据权利要求13所述的服务器，其特征在于，所述第二获取单元包括：

第一计算子单元，用于按照如下方式计算所述第一评估权重值：

P (A \ B) = \frac{P (B \ A) P (A)}{P (B)}

所述P(A\B)表示所述第一评估权重值；

所述P(A)表示所述图片为所述重要图片的概率值；

第二计算子单元，用于按照如下方式计算所述第二评估权重值：

P (C \ B) = \frac{P (B \ C) P (C)}{P (B)}

所述P(C\B)表示所述第二评估权重值；

所述P(C)表示所述图片为所述非重要图片的概率值；

15.根据权利要求13或14所述的服务器，其特征在于，所述第一确定模块包括：

第四确定单元，用于若所述图片的所述第一评估权重值大于所述第二评估权重值，则确定所述图片为重要图片；

第五确定单元，用于从所述第四确定单元确定的所述目标页面的所述重要图片中确定所述目标图片。

16.根据权利要求15所述的服务器，其特征在于，所述第五确定单元包括：

确定子单元，用于若所述重要图片中包含多张图片，则从所述重要图片中每张图片中选择所述第一评估权重值最大的图片作为所述目标页面对应的所述目标图片。