CN110069651B - 图片筛选方法及装置、存储介质 - Google Patents
图片筛选方法及装置、存储介质 Download PDFInfo
- Publication number
- CN110069651B CN110069651B CN201710991271.1A CN201710991271A CN110069651B CN 110069651 B CN110069651 B CN 110069651B CN 201710991271 A CN201710991271 A CN 201710991271A CN 110069651 B CN110069651 B CN 110069651B
- Authority
- CN
- China
- Prior art keywords
- picture
- pictures
- category
- deep learning
- media content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图片筛选方法、装置及存储介质,该方法包括:获取待推荐的媒体内容中的图片;将获取到的每一张图片输入预先训练的深度学习模型中,并获取所述深度学习模型输出的该张图片与不同图片类别之间的匹配度;所述不同图片类别表征该张图片的内容作为所述媒体内容的展示图片的适合程度不同;根据每一张图片与不同图片类别之间的匹配度,确定该图片作为所述展示图片的期望值;从所述媒体内容的各张图片中筛选出所述期望值符合预定条件的图片作为所述展示图片。
Description
技术领域
本申请涉及媒体内容处理技术领域,尤其是涉及一种图片筛选方法及装置、存储介质。
背景技术
音视频、游戏、文章、新闻等各种媒体内容已经成为人们生活、娱乐以及了解时事的有效途径,长期以来一直在人们的生活中占据着重要的位置。例如,新闻类的应用程序,面对每天海量的新闻,为了使用户有更进一步浏览阅读的欲望,如何对推荐给用户的某篇新闻进行呈现成为需要解决的问题。对于音视频、游戏、文章等其他的媒体内容也是如此。要解决这一问题,展示图片的选择则成为关键因素。
发明内容
本申请实例提供一种图片筛选方法,该方法包括:
获取待推荐的媒体内容中的图片;
采用预先训练的深度学习模型确定所述图片与各个图片类别之间的匹配度;所述各个图片类别分别对应的图片作为所述媒体内容的展示图片的适合程度不同;
根据所述图片与各个图片类别之间的匹配度,确定所述图片作为所述展示图片的期望值;
从所述媒体内容的各张图片中筛选出所述期望值符合预定条件的图片作为所述展示图片。
在一些实施例中,所述获取待推荐的媒体内容中的图片,包括:当检测到有媒体内容进入推荐池时,获取该媒体内容中的图片。
本申请实例提供一种图片筛选装置,该装置包括:
第一获取模块,获取待推荐的媒体内容中的图片;
第二获取模块,采用预先训练的深度学习模型确定所述图片与各个图片类别之间的匹配度;所述各个图片类别分别对应的图片作为所述媒体内容的展示图片的适合程度不同;
确定模块,根据所述图片与各个图片类别之间的匹配度,确定所述图片作为所述展示图片的期望值;
筛选模块,从所述媒体内容的各张图片中筛选出所述期望值符合预定条件的图片作为所述展示图片。
在一些实施例中,所述装置还包括:
模型更新模块,对所述深度学习模型进行更新;
其中,所述模型更新模块包括:
训练库更新单元,在所述待推荐的媒体内容被推荐之后,采集所述封面图片的线上表现数据,并将所述封面图片添加至所述训练预料库中,以对所述训练语料库进行更新;
第二标注单元,根据所述封面图片的线上表现数据,确定所述封面图片所属的图片类别,并在所述训练语料库中标注所述封面图片所属的图片类别;
第二训练单元,采用更新后的训练语料库进行训练学习,更新所述匹配关系,以对所述深度学习模型进行更新。
本申请实例提供一种计算机可读存储介质,该存储介质其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
基于上述技术方案,采用深度学习模型确定媒体内容中每一张图片的内容与不同图片类型的匹配度,然后根据匹配度计算每一张图片作为封面图片的期望值,进而根据期望值筛选出符合预定条件的图片作为封面图片。这种方式是基于图片内容的筛选方式,可以筛选出更加适合作为封面图片的图片,使得媒体内容的封面更能体现媒体内容的关键内容,改善了媒体内容的展示效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实例涉及的系统架构图;
图2是本申请一实例中图片筛选方法的流程示意图;
图3a是本申请一实例中一新闻推荐类应用程序的界面示意图;
图3b是本申请一实例中一个微信公众号的界面示意图;
图4是本申请一实例中图片筛选方法的流程示意图;
图5是本申请一实例中图片筛选装置的结构框图;
图6是本申请一实例中计算设备的结构示意图。
具体实施方式
本申请提出了一种图片筛选方法,该方法适用的系统架构如图1所示。该系统架构包括:客户端设备101和服务器102,客户端设备101和服务器102之间通过通信网络103连接,其中:
上述客户端设备101可以是用户的智能手机或电脑,其上安装有各种应用软件的客户端软件,用户可以通过上述客户端设备登录并使用各种应用软件的客户端,该应用软件的客户端可以为多媒体软件的客户端,例如新闻客户端、游戏客户端、视频客户端、社交客户端(例如,微信,微信中的公众号可以为用户推荐一些媒体内容)等。
上述服务器102可以是一台服务器,也可以是服务器集群,与客户端设备101上安装的客户端相对应,可以为客户端设备提供相应的媒体内容服务。例如:服务器102可以是为新闻客户端提供新闻服务的新闻服务器、为游戏客户端提供在线游戏服务的游戏服务器、为视频客户端提供在线视频服务的视频服务器等等。服务器102作为服务器集群时,可能是一个提供内容服务的平台,比如:为新闻客户端提供新闻服务的新闻推送平台、为游戏客户端提供在线游戏服务的在线游戏平台、为视频客户端提供在线视频服务的在线视频服务平台等等。
上述通信网络103可以局域网(Local Area Network,LAN)、城域网(MetropolitanArea Network,MAN)、广域网(Wide Area Network,WAN)、移动网络、有线网络或者无线网络、专用网络等。
本申请提供的图片筛选方法可以由上述服务器102执行,如图2所示,该方法包括:
S201、获取待推荐的媒体内容中的图片;
可理解的是,媒体内容可以是新闻、游戏、音视频、公众号文章、订阅号文章等多种形式的内容,而且内容中包含有图片。这些媒体内容在展示给用户时会选取其所包含的图片中的一张作为展示图片(例如,新闻中的封面图片)。如图3a所示,为一新闻推荐类应用程序的一界面示意图,在该界面中有多条新闻,每一条新闻除了标题之外,还有位于标题下方或右方的图片,该图片即对应新闻内容的封面图片。如图3b所示,为一个微信公众号推荐的文章的界面示意图,在该界面中可以看出,该公众号贤二机器僧在某天更新了3篇文章:(1)不管内心世界有多苦,有一个好办法可以彻底解决;(2)贤二看世界|怎会被他人搞得身心一片狼藉;(3)秋分|去户外亲近大自然,秋分是个很好的选择;每一篇推荐的文章均有一个展示图片,该展示图片是文章中的一张图片。
其中,获取图片的方式有多种,媒体内容的推荐方式不同,获取其中图片的方式也可能不同。例如,当媒体内容需先进入推荐池,然后才能对推荐池中的内容进行线上推荐,针对这种方式,获取图片的方式可以为:当检测到有媒体内容进入推荐池时,将该媒体内容作为待推荐的媒体内容,获取其中的图片即可。举例来说,对于每一篇进入新闻推荐池的新闻文章,通过下载获取该新闻文章中的图片原件。
S202、采用预先训练的深度学习模型确定所述图片与各个图片类别之间的匹配度;所述各个图片类别分别对应的图片作为所述媒体内容的展示图片的适合程度不同;
可理解的是,上述过程实际上是将获取到的图片输入预先训练的深度学习模型中,并获取所述深度学习模型输出的该张图片与不同图片类别之间的匹配度。
可理解的是,深度学习模型的输入数据是图片,输出数据是输入的图片与不同图片类别之间的匹配度,也就是说,深度学习模型建立的是不同的图片内容与各个图片类别之间的匹配关系。其中,图片可以是以像素矩阵的数据形式输入到深度学习模型中。匹配关系是通过对大量样本进行训练学习而建立的,具体的训练学习过程本申请实例不做限定。还有,深度学习模型可以为卷积神经网络模型,当然还可以为其他的模型,对此本申请实例也不做限定。
其中,不同图片类别表征该张图片的内容作为所述媒体内容的展示图片的适合程度不同,也就是说,不同的类别的图片适合作为展示图片的程度不同,例如,有的图片非常适合作为展示图片,有的图片不适合作为展示图片。根据图片适合作为展示图片的程度高低可以将图片分为多个不同的类别。具体分为多少个类别,可以自主设置,类别数量越多,分类越精细,但是深度学习模型的训练过程越复杂,具体的数量可以根据需要设置。
举例来说,将图片类别的数量设置为3,即图片有三类,第一类不适合做展示图片,第二类适合做展示图片的程度一般,第三类是非常适合做展示图片。在实际中,我们当然是希望能够筛选出非常适合做封面的图片。为了对各个图片类别进行区分,可以对不同的图片类别设置不同的类别标识,类别标识可以用数字、字母、文字或者任意两种或三种的组合。为了后续方便计算,参见下表1,可以对不同的类别标识设置不同的数值,例如,第一类图片的类别标识对应的数值为0,第二类图片的类别标识对应的数值为1,第三类图片的类别标识对应的数值为2。
以图片有三类为例,该图片与不同图片类别之间的匹配度,是指该图片分别与第一类、第二类以及第三类之间的匹配度,该图片与哪一类的匹配度越高,说明该图片属于哪一类图片的可能性更大。该图片与不同图片类别之间的匹配度可以有多种表现形式,其中一种为:该图片属于不同图片类别的概率,当然还可以采用其他形式的数据来表示匹配度。
S203、根据所述图片与各个图片类别之间的匹配度,确定所述图片作为所述展示图片的期望值;
可理解的是,该步骤中计算期望值的过程实际上就是对图片是否适合作为展示图片进行打分的过程,分数越高,越适合作为展示图片。采用不同表现形式的匹配度,期望值的计算方式则不同。下面以图片归属于不同图片类别的概率作为图片与不同图片类别之间的匹配度为例,对期望值的计算进行举例说明:
采用下式计算第i张图片作为所述展示图片的期望值:
式中,Ei为第i张图片作为所述展示图片的期望值,aj为aj类图片的类别标识对应的数值;rj为第i张图片属于aj类图片的概率,N为图片类别的个数,j的取值范围为[0,N]。
结合上表1,对上式(1)的计算过程进行举例:
Ei=0*r1+1*r2+2*r3
式中,0为第一类图片的类别标识对应的数值,r1为第i张图片属于第一类图片的概率;1为第二类图片的类别标识对应的数值,r2为第i张图片属于第二类图片的概率;2为第三类图片的类别标识对应的数值,r3为第i张图片属于第三类图片的概率。
S204、从所述媒体内容的各张图片中筛选出所述期望值符合预定条件的图片作为所述展示图片。
可理解的是,预定条件可以根据需求设置,例如,将选择图片中期望值最高的一张作为预定条件,再例如,选择图片中期望值较高的三张作为预定条件,当然,还可以是其他预定条件。
举例来说,对于某一篇新闻中的三张图片,输入深度学习模型之后,深度学习模型输出每一张图片与不同图片类别之间的匹配度,进而根据匹配度计算出每一张图片作为展示图片的期望值:为1.60、1.25、1.58。可知,第一张图片作为展示图片的期望值最高,其次是第三张图片,因此可以选择第一张图片或者第三张图片作为该篇新闻的展示图片。
本申请实例提供的图片筛选方法,采用深度学习模型确定媒体内容中每一张图片的内容与不同图片类型的匹配度,然后根据匹配度计算每一张图片作为展示图片的期望值,进而根据期望值筛选出符合预定条件的图片作为展示图片。这种方式是基于图片内容的筛选方式,可以筛选出更加适合作为展示图片的图片,使得媒体内容的封面更能体现媒体内容的关键内容,对于此媒体内容的感兴趣用户具有更好的提示作用,进而能吸引到更多对此媒体内容真正感兴趣用户来阅读或观看此媒体内容,从而能改善此媒体内容的展示效果(比如:提高点击率、评论数、点赞数等),同时也减小了用户的无效阅读或观看(比如:在展示图片不合适的情况下,可能吸引到并非真正感兴趣的用户阅读或观看了此媒体内容,此用户很可能短暂浏览而并不会留下评论或点赞),进而能减少无效阅读或观看带来的网络资源浪费,提高了用户操作效率。
在一些实例中,在将获取到的每一张图片输入预先训练的深度学习模型之前,还可以对获取到的每一张图片进行预处理,预处理的方式有多种,例如,通道转换、规格统一以及格式转换中的至少一项;其中:所述通道转换为对所述媒体内容的每一张图片的颜色通道进行转换,以使所述媒体内容的各张图片的颜色通道相同;所述规格统一为对所述媒体内容的每一张图片的宽度和高度进行等比缩放,并进行包边处理,以使所述媒体内容的各张图片的宽度和高度分别相同;所述格式转换为将所述媒体内容的每一张图片中各个像素的颜色值转换为预设格式的数值,所述预设格式满足所述深度学习模型对输入数据的格式要求。
由于有的图片的颜色通道为三通道,有的图片的颜色通道为四通道,这里对颜色通道进行统一,例如,将一媒体内容中的所有图片全部转换为三通道。于不同规格大小的图片,像素矩阵的大小不同,因此这里对图片的规格大小进行统一,为了使图片中的内容不发生改变,在进行规格统一时,对图片的宽度和高度进行等比缩放,也就是说,不对图片进行拉伸处理,只进行等比缩放。然而,由于不同图片的宽高比不同,因此即便缩放之后,各张图片的宽高也不会完全相同,因此这里在缩放之后,再对图片进行包边处理,从而使各张图片的大小一致。例如,将各张图片均处理成256*256大小的图片。由于图片格式有多种,而不同的深度学习模型需要不同格式的输入数据,因此这里对图片进行格式转换,使各张图片的格式满足深度学习模型对输入数据的格式要求。例如,深度学习模型为caffe模型,而该模型要求输入数据为浮点数据,因此格式转换为对图片各个像素的颜色值进行浮点转换,具体可以将图片的像素从取值区0~255转换打击0~1之间的浮点数。可见,这里对图片进行预处理,其目的在于对图片进行规范处理或标准化处理。预处理过程可以基于opencv提供的图片操作应用程序编程接口实现。
在一些实例中,深度学习模型的建立方式可以采用以下方法:
S301、收集多个已推荐的媒体内容中的图片,得到多张图片,所述多张图片形成训练语料库;
上述已推荐的媒体内容,是已经进行推荐的媒体内容,例如,用户可以或能够在客户端上访问、浏览或观看的新闻、视频、游戏等均是已经推荐的媒体内容。举例来说,对于新闻这一媒体内容来说,天天快报、腾讯新闻这些客户端上发布的新闻均是已推荐的新闻。
S302、根据所述训练预料库中每一张图片的线上表现数据,确定该张图片所属的图片类别,并在所述训练语料库中标注该张图片所属的图片类别;
上述线上表现数据是指体现图片的线上表现情况的数据,由于体现图片的线上表现情况的参数有多种,因此可以采用多种参数作为线上表现数据,例如,曝光点击比、阅读停留时间、评论数、转发数、点赞数等参数。
下面以曝光点击比作为线上表现数据,结合下表1对图片类别的确定进行示例说明:
表1图片类别一览表
类别 | 含义 | 类别标识对应的数值 |
第一类 | 不适合做展示图片 | 0 |
第二类 | 适合做展示图片的程度一般 | 1 |
第三类 | 非常适合做展示图片 | 2 |
如果某一图片的曝光点击比CTR<1%,则说明该图片的线上表现比较差,因此可以将其归为不适合作为展示图片的类别中,即该图片为表1中的第一类图片;如果某一图片的曝光点击比5%<CTR<10%,则说明该图片的线上表现一般,因此可以认为该图片为表1中的第二类图片;如果某一图片的曝光点击比大于20%,则说明该图片的线上表现比较好,因此可以认为该图片为表1中的第三类图片。也就是说,根据图片曝光点击比的大小,确定图片的线上表现情况,进而确定图片所属的图片类别。在该步骤中,对图片所属的图片类别进行标注的方式有多种,比较简单的一种方式为:采用类别标识对应的数值对图片进行标注,即对第一类图片标注为0,对第二类图片标注为1,对第三类图片标注为2。
S303、将所述训练语料库输入预设的深度学习框架中进行训练学习,确定不同的图片内容与各个图片类别之间的匹配关系,得到所述深度学习模型。
上述深度学习框架,可以采用开源框架caffe,将各个图片作输入至开源框架caffe中的caffe训练程序中进行学习即可,当然还可以采用其他的深度学习框架,对此本申请实例不做限定。
当然,在将所述训练预料库输入深度学习框架之前,还会预先配置相应的参数,例如,深度学习模型的网络类型、网络层数、梯度更新权重、权重衰减项、最大迭代次数等。
在配置好相关参数之后,将所述训练语料库输入预设的深度学习框架中进行训练学习的具体过程可以包括:将训练语料库中图片的像素数据以及对图片标注的类别所对应的数据文件分别传入深度学习框架的反向训练模块(即backword)中进行训练。
每一次训练,会计算在当前参数下图片对应的分类和预期的分类之间的损失,然后通过梯度偏导运算求解损失值的最小值。然后再根据损失调整各个相关参数,然后再次进行训练,得到损失值的最小值,依次类推,不断的进行训练,直至在某次调整参数后训练得到的损失的最小值满足预设收敛条件,即可得到收敛的深度学习模型。
收敛后的深度训练模型中的文件包括:网络结构定义文件、均值文件、图片标注分类文件、网络参数权重文件等。假设深度学习模型为卷积神经网络模型,则上述网络结构定义文件为卷积神经网络结构定义文件,上述网络参数权重文件为卷积神经网络参数权重文件。
这里利用了海量的图片数据和强大的集群计算能力,不断的学习训练,使得深度学习模型自身发现并刻画了展示图片筛选这一需求复杂的结构特征,从而逼近人工内容识别的逻辑。
在训练得到深度训练模型之后,还可以采用训练集中的数据进行测试,从而可以根据输出结果与测试集中各个图片的标注结果进行对比,从而对深度学习模型的转确性进行测评。其中,训练集中与训练预料库一样,也包括大量的图片,并且也对每张图片进行了标注。
以上介绍了深度学习模型的建立过程,随着深度学习模型的使用,可以对其不断的进行更新或修正,以提高其准确度。具体过程大致包括:
S401、在所述待推荐的媒体内容被推荐之后,采集所述展示图片的线上表现数据,并将所述展示图片添加至所述训练预料库中,以对所述训练语料库进行更新;
在之前进行展示图片筛选的媒体内容被推荐之后,例如,将媒体内容发布在客户端上后,将之前所确定的展示图片反馈添加至训练语料库中,以对训练预料库进行更新,以便进行重新训练。
S402、根据所述展示图片的线上表现数据,确定所述展示图片所属的图片类别,并在所述训练语料库中标注所述展示图片所属的图片类别;
由于展示图片是之前通过步骤S201~S204筛选出来的图片,认为其内容是比较符合展示图片要求的,也就是说,认为该图片属于第三类图片。但是,经过该图片的线上表现数据确定的图片类别实际上才是该图片真正的类别,所以这里通过线上表现数据确定该图片真正的类别,用真正的类别对该图片进行标注。
S403、采用更新后的训练语料库进行训练学习,更新所述匹配关系,以对所述深度学习模型进行更新。
通过进行数据反馈,重新训练深度学习模型,使得模型的收敛状态更加接近线上的数据表现,逐渐提高准确度。通过之前筛选出的展示图片的线上表现数据对深度学习模型不断的进行迭代学习,从而更进一步提高筛选图片的优质度,进而提高媒体内容的点击率。
在一些实例中,在建立深度学习模型的过程中,在将所述训练语料库输入预设的深度学习框架中进行训练学习之前,还可以对通过收集多个已推荐的媒体内容中的图片而得到多张图片进行预处理,所述预处理包括通道转换、规格统一以及格式转换中的至少一项;其中:所述通道转换为对所述多张图片中每一张图片的颜色通道进行转换,以使所述多张图片的颜色通道相同;所述规格统一为对所述多张图片中每一张图片的宽度和高度进行等比缩放,并进行包边处理,以使所述多张图片的宽度和高度分别相同;所述格式转换为将所述多张图片中每一张图片中各个像素的颜色值转换为预设格式的数值,所述预设格式满足所述深度学习框架对输入数据的格式要求。
由于有的图片的颜色通道为三通道,有的图片的颜色通道为四通道,这里对颜色通道进行统一,例如,将所有图片全部转换为三通道。于不同规格大小的图片,像素矩阵的大小不同,因此这里对图片的规格大小进行统一,为了使图片中的内容不发生改变,在进行规格统一时,对图片的宽度和高度进行等比缩放,也就是说,不对图片进行拉伸处理,只进行等比缩放。然而,由于不同图片的宽高比不同,因此即便缩放之后,各张图片的宽高也不会完全相同,因此这里在缩放之后,再对图片进行包边处理,从而使各张图片的大小一致。例如,将各张图片均处理成256*256大小的图片。由于图片格式有多种,而不同的深度学习模型需要不同格式的输入数据,因此这里对图片进行格式转换,使各张图片的格式满足深度学习模型对输入数据的格式要求。例如,深度学习模型为caffe模型,而该模型要求输入数据为浮点数据,因此格式转换为对图片各个像素的颜色值进行浮点转换,具体可以将图片的像素从取值区0~255转换打击0~1之间的浮点数。
当然,通过上述步骤S401采集的展示图片也可以进行上述预处理等过程,具体的过程可以参考上文中的相应内容,此处不再赘述。
下面以新闻作为媒体内容,并结合图4,对筛选封面图片为例对本申请实例提供的方法进行举例说明:
(1)在腾讯新闻上收集海量的图片,形成训练语料库;根据这些图片的曝光点击比,确定其所属的图片类别,并在训练语料库中对这些图片进行类别标注;对语料训练库中的图片进行预处理;将预处理后的图片输入深度学习框架中,进行训练学习,建立不同内容的图片与不同图片类别之间的匹配关系,得到深度学习模型;
(2)当有新闻进入推荐池时,获取该新闻内容中的图片;对获取到的每一张图片进行预处理;对预处理后的每一张图片输入至预先建立的深度学习模型中,并获取该深度学习模型所输出的该图片属于不同图片类别的概率;根据每一张图片属于不同图片类别的概率,计算该图片作为封面图片的期望值;根据该新闻内容中各张图片的期望值,筛选出期望值最高的一张图片作为封面图片,并将该新闻内容展示给用户;
(3)收集上述封面图片的曝光点击比,并将该封面图片添加至训练语料库中;根据该曝光点击比确定该封面图片的图片类别,并在训练语料库中对该封面图片的类别进行标注;然后,对标注后的图片进行预处理,最后将其与其他之前就存在于语料训练库中的图片输入至深度学习框架中,重新进行训练学习,得到更新后的深度学习模型;
这样,当又有新闻进入推荐池时,就可以采用更新后的深度学习模型来获取图片与不同图片类别之间的匹配度,进而确定该新闻的封面图片;进而在收集封面图片的曝光点击比,并将该封面图片添加至训练语料库中,对训练语料库再次进行更新,从而对深度学习模型再次进行更新,依次类推,对深度学习模型不断的进行更新,从而使其不断收敛,封面图片筛选的准确度也不断提高。
本申请实例还提供一种图片筛选装置,该装置的硬件设备可以为服务器,如图5所示,该装置500包括:
第一获取模块501,获取待推荐的媒体内容中的图片;
第二获取模块502,采用预先训练的深度学习模型确定所述图片与各个图片类别之间的匹配度;所述各个图片类别分别对应的图片作为所述媒体内容的展示图片的适合程度不同;
确定模块503,根据所述图片与各个图片类别之间的匹配度,确定所述图片作为所述展示图片的期望值;
筛选模块504,从所述媒体内容的各张图片中筛选出所述期望值符合预定条件的图片作为所述封面图片。
可理解的是,图片筛选装置为上述图片筛选方法的功能架构模块,其有关内容的解释、举例和有益效果等可以参考上述图片筛选方法中的相应内容,此处不再赘述。
在一些实例中,所述第二获取模块502在将获取到的图片输入预先训练的深度学习模型中之前,还可以对获取到的图片进行预处理;所述预处理包括通道转换、规格统一以及格式转换中的至少一项;其中:所述通道转换为对所述媒体内容的图片的颜色通道进行转换,以使所述媒体内容的各张图片的颜色通道相同;所述规格统一为对所述媒体内容的各张图片的宽度和高度进行等比缩放,并进行包边处理,以使所述媒体内容的各张图片的宽度和高度分别相同;所述格式转换为将所述媒体内容的图片中各个像素的颜色值转换为预设格式的数值,所述预设格式满足所述深度学习模型对输入数据的格式要求。
在一些实例中,该张图片与各个图片类别之间的匹配度可以包括该图片属于不同图片类别的概率。
在一些实例中,所述确定模块503可以采用下式计算第i张图片作为所述封面图片的期望值:
式中,Ei为第i张图片作为所述封面图片的期望值,aj为aj类图片的类别标识对应的数值;rj为第i张图片属于aj类图片的概率,N为图片类别的个数,j的取值范围为[0,N]。
在一些实例中,图片筛选装置还可以包括:
模型建立模块,建立所述深度学习模型;
其中,所述模型建立模块包括:
训练库建立单元,收集多个已推荐的媒体内容中的图片,得到多张图片,所述多张图片形成训练语料库;
第一标注单元,根据所述训练预料库中每一张图片的线上表现数据,确定该张图片所属的图片类别,并在所述训练语料库中标注该张图片所属的图片类别;
第一训练单元,将所述训练语料库输入预设的深度学习框架中进行训练学习,确定不同的图片内容与各个图片类别之间的匹配关系,得到所述深度学习模型。
在一些实例中,图片筛选装置还可以包括:
模型更新模块,对所述深度学习模型进行更新;
其中,所述模型更新模块包括:
训练库更新单元,在所述待推荐的媒体内容被推荐之后,采集所述封面图片的线上表现数据,并将所述封面图片添加至所述训练预料库中,以对所述训练语料库进行更新;
第二标注单元,根据所述封面图片的线上表现数据,确定所述封面图片所属的图片类别,并在所述训练语料库中标注所述封面图片所属的图片类别;
第二训练单元,采用更新后的训练语料库进行训练学习,更新所述匹配关系,以对所述深度学习模型进行更新。
在一些实例中,第一获取模块501可以在检测到有媒体内容进入推荐池时,获取该媒体内容中的图片。
在一些实例中,第一训练单元还在将所述训练语料库输入预设的深度学习框架中进行训练学习之前,对所述多张图片中的每一张图片进行预处理,所述预处理包括通道转换、规格统一以及格式转换中的至少一项;其中:所述通道转换为对所述多张图片中每一张图片的颜色通道进行转换,以使所述多张图片的颜色通道相同;所述规格统一为对所述多张图片中每一张图片的宽度和高度进行等比缩放,并进行包边处理,以使所述多张图片的宽度和高度分别相同;所述格式转换为将所述多张图片中每一张图片中各个像素的颜色值转换为预设格式的数值,所述预设格式满足所述深度学习框架对输入数据的格式要求。
本申请实例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本申请实例还提供一种计算机设备,该设备可以为服务器,如图6所示,该计算机设备包括一个或者多个处理器(CPU)602、通信模块604、存储器606、用户接口610,以及用于互联这些组件的通信总线608,其中:
处理器602可通过通信模块604接收和发送数据以实现网络通信和/或本地通信。
用户接口610包括一个或多个输出设备612,其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口610也包括一个或多个输入设备614,其包括诸如,键盘,鼠标,声音命令输入单元或扩音器,触屏显示器,触敏输入板,姿势捕获摄像机或其他输入按钮或控件等。
存储器606可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器606存储处理器602可执行的指令集,包括:
操作系统616,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
应用618,包括用于封面图片筛选的各种应用程序,这种应用程序能够实现上述各实例中的处理流程,比如可以包括图片筛选装置中的部分或者全部指令模块或单元。处理器602通过执行存储器606中各单元中至少一个单元中的机器可执行指令,进而能够实现上述各单元或模块中的至少一个模块的功能。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令,存储在非易失性存储介质中。因此,各实例也可以体现为软件产品。
各例中,硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如,硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。
另外,本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和/或内存)中执行。因此,这样的存储介质也构成了本申请,本申请还提供了一种非易失性存储介质,其中存储有数据处理程序,这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。
图6模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。
以上所述仅为本申请的较佳实例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (14)
1.一种图片筛选方法,其特征在于,包括:
获取待推荐的媒体内容中的图片;
采用预先训练的深度学习模型确定所述图片与各个图片类别之间的匹配度;所述各个图片类别分别对应的图片作为所述媒体内容的展示图片的适合程度不同;
根据所述图片与各个图片类别之间的匹配度,确定所述图片作为所述展示图片的期望值;
从所述媒体内容的各张图片中筛选出所述期望值符合预定条件的图片作为所述展示图片。
2.根据权利要求1所述的方法,其特征在于,所述采用预先训练的深度学习模型确定所述图片与各个图片类别之间的匹配度之前,所述方法还包括:
对获取到的所述图片进行预处理,所述预处理包括通道转换、规格统一以及格式转换中的至少一项;其中:
所述通道转换为对所述媒体内容中的所述图片的颜色通道进行转换,以使所述媒体内容的各张图片的颜色通道相同;
所述规格统一为对所述媒体内容中的所述图片的宽度和高度进行等比缩放,并进行包边处理,以使所述媒体内容中的各张图片的宽度和高度分别相同;
所述格式转换为将所述媒体内容中的所述图片中各个像素的颜色值转换为预设格式的数值,所述预设格式满足所述深度学习模型对输入数据的格式要求。
3.根据权利要求1所述的方法,其特征在于,所述图片与各个图片类别之间的匹配度包括该图片属于各个图片类别的概率。
5.根据权利要求1所述的方法,其特征在于,所述深度学习模型的建立过程包括:
收集多个已推荐的媒体内容中的图片,得到多张图片,所述多张图片形成训练语料库;
根据所述训练语 料库中每一张图片的线上表现数据,确定该张图片所属的图片类别,并在所述训练语料库中标注该张图片所属的图片类别;
将所述训练语料库输入预设的深度学习框架中进行训练学习,确定不同的图片内容与各个图片类别之间的匹配关系,得到所述深度学习模型。
6.根据权利要求5所述的方法,其特征在于,还包括:
在所述待推荐的媒体内容被推荐之后,采集所述展示图片的线上表现数据,并将所述展示图片添加至所述训练语 料库中,以对所述训练语料库进行更新;
根据所述展示图片的线上表现数据,确定所述展示图片所属的图片类别,并在所述训练语料库中标注所述展示图片所属的图片类别;
采用更新后的训练语料库进行训练学习,更新所述匹配关系,以对所述深度学习模型进行更新。
7.根据权利要求5所述的方法,其特征在于,所述将所述训练语料库输入预设的深度学习框架中进行训练学习之前,所述方法还包括:
对所述多张图片中的每一张图片进行预处理,所述预处理包括通道转换、规格统一以及格式转换中的至少一项;其中:
所述通道转换为对所述多张图片中每一张图片的颜色通道进行转换,以使所述多张图片的颜色通道相同;
所述规格统一为对所述多张图片中每一张图片的宽度和高度进行等比缩放,并进行包边处理,以使所述多张图片的宽度和高度分别相同;
所述格式转换为将所述多张图片中每一张图片中各个像素的颜色值转换为预设格式的数值,所述预设格式满足所述深度学习框架对输入数据的格式要求。
8.根据权利要求1~7任一项所述的方法,其特征在于,所述展示图片包括封面图片。
9.一种图片筛选装置,其特征在于,包括:
第一获取模块,获取待推荐的媒体内容中的图片;
第二获取模块,采用预先训练的深度学习模型确定所述图片与各个图片类别之间的匹配度;所述各个图片类别分别对应的图片作为所述媒体内容的展示图片的适合程度不同;
确定模块,根据所述图片与各个图片类别之间的匹配度,确定所述图片作为所述展示图片的期望值;
筛选模块,从所述媒体内容的各张图片中筛选出所述期望值符合预定条件的图片作为所述展示图片。
10.根据权利要求9所述的装置,其特征在于,所述第二获取模块采用预先训练的深度学习模型确定所述图片与各个图片类别之间的匹配度之前,还对获取到的所述图片进行预处理,所述预处理包括通道转换、规格统一以及格式转换中的至少一项;其中:
所述通道转换为对所述媒体内容中的所述图片的颜色通道进行转换,以使所述媒体内容的各张图片的颜色通道相同;
所述规格统一为对所述媒体内容中的所述图片的宽度和高度进行等比缩放,并进行包边处理,以使所述媒体内容中的各张图片的宽度和高度分别相同;
所述格式转换为将所述媒体内容中的所述图片中各个像素的颜色值转换为预设格式的数值,所述预设格式满足所述深度学习模型对输入数据的格式要求。
11.根据权利要求9所述的装置,其特征在于,所述图片与各个图片类别之间的匹配度包括该图片属于各个图片类别的概率。
13.根据权利要求9所述的装置,其特征在于,还包括:
模型建立模块,建立所述深度学习模型;
其中,所述模型建立模块包括:
训练库建立单元,收集多个已推荐的媒体内容中的图片,得到多张图片,所述多张图片形成训练语料库;
第一标注单元,根据所述训练语 料库中每一张图片的线上表现数据,确定该张图片所属的图片类别,并在所述训练语料库中标注该张图片所属的图片类别;
第一训练单元,将所述训练语料库输入预设的深度学习框架中进行训练学习,确定不同的图片内容与各个图片类别之间的匹配关系,得到所述深度学习模型。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~8任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710991271.1A CN110069651B (zh) | 2017-10-23 | 2017-10-23 | 图片筛选方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710991271.1A CN110069651B (zh) | 2017-10-23 | 2017-10-23 | 图片筛选方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110069651A CN110069651A (zh) | 2019-07-30 |
CN110069651B true CN110069651B (zh) | 2023-04-07 |
Family
ID=67364427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710991271.1A Active CN110069651B (zh) | 2017-10-23 | 2017-10-23 | 图片筛选方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110069651B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851635A (zh) * | 2019-09-30 | 2020-02-28 | 拉扎斯网络科技(上海)有限公司 | 图片推送方法、装置、服务器和非易失性存储介质 |
CN111291259B (zh) * | 2020-01-20 | 2023-05-26 | 北京字节跳动网络技术有限公司 | 一种数据筛选方法、装置、电子设备和存储介质 |
CN111310041B (zh) * | 2020-02-12 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 图文发布的方法、模型的训练方法、装置及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001156135A (ja) * | 1999-11-29 | 2001-06-08 | Hitachi Ltd | 欠陥画像の分類方法及びその装置並びにそれを用いた半導体デバイスの製造方法 |
CN101292238A (zh) * | 2005-10-21 | 2008-10-22 | 微软公司 | 语义主题的自动化丰富呈现 |
CN101520782A (zh) * | 2008-02-26 | 2009-09-02 | 陶鹏 | 与在线图片相关联的专题信息的定向发布方法与系统 |
CN101754056A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 支持海量数据自动处理的数字内容编目管理系统及方法 |
CN103988519A (zh) * | 2011-10-14 | 2014-08-13 | 谷歌公司 | 为媒体浏览器创建封面艺术 |
CN104782138A (zh) * | 2012-09-13 | 2015-07-15 | 谷歌公司 | 识别缩略图图像以呈现视频 |
CN106484913A (zh) * | 2016-10-26 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种目标图片确定的方法以及服务器 |
CN106503693A (zh) * | 2016-11-28 | 2017-03-15 | 北京字节跳动科技有限公司 | 视频封面的提供方法及装置 |
CN107169031A (zh) * | 2017-04-17 | 2017-09-15 | 广东工业大学 | 一种基于深度表达的图片素材推荐方法 |
CN107194419A (zh) * | 2017-05-10 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 视频分类方法及装置、计算机设备与可读介质 |
CN107273832A (zh) * | 2017-06-06 | 2017-10-20 | 青海省交通科学研究院 | 基于积分通道特征与卷积神经网络的车牌识别方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4303602B2 (ja) * | 2004-01-09 | 2009-07-29 | 本田技研工業株式会社 | 顔面像取得システム |
US8909531B2 (en) * | 2009-10-02 | 2014-12-09 | Mediatek Inc. | Methods and devices for displaying multimedia data emulating emotions based on image shuttering speed |
US9378529B2 (en) * | 2012-12-14 | 2016-06-28 | Facebook, Inc. | Arranging stories on newsfeeds based on expected value scoring on a social networking system |
-
2017
- 2017-10-23 CN CN201710991271.1A patent/CN110069651B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001156135A (ja) * | 1999-11-29 | 2001-06-08 | Hitachi Ltd | 欠陥画像の分類方法及びその装置並びにそれを用いた半導体デバイスの製造方法 |
CN101292238A (zh) * | 2005-10-21 | 2008-10-22 | 微软公司 | 语义主题的自动化丰富呈现 |
CN101520782A (zh) * | 2008-02-26 | 2009-09-02 | 陶鹏 | 与在线图片相关联的专题信息的定向发布方法与系统 |
CN101754056A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 支持海量数据自动处理的数字内容编目管理系统及方法 |
CN103988519A (zh) * | 2011-10-14 | 2014-08-13 | 谷歌公司 | 为媒体浏览器创建封面艺术 |
CN104782138A (zh) * | 2012-09-13 | 2015-07-15 | 谷歌公司 | 识别缩略图图像以呈现视频 |
CN106484913A (zh) * | 2016-10-26 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种目标图片确定的方法以及服务器 |
CN106503693A (zh) * | 2016-11-28 | 2017-03-15 | 北京字节跳动科技有限公司 | 视频封面的提供方法及装置 |
CN107169031A (zh) * | 2017-04-17 | 2017-09-15 | 广东工业大学 | 一种基于深度表达的图片素材推荐方法 |
CN107194419A (zh) * | 2017-05-10 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 视频分类方法及装置、计算机设备与可读介质 |
CN107273832A (zh) * | 2017-06-06 | 2017-10-20 | 青海省交通科学研究院 | 基于积分通道特征与卷积神经网络的车牌识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
Scalable Active Learning for Multiclass Image Classification;Ajay J. Joshi 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence 》;第34卷(第11期);2259-2273 * |
面向地标的多模态主题意见摘要挖掘研究;汪婷;《中国优秀硕士学位论文全文数据库 信息科技辑》(第08期);I138-1600 * |
Also Published As
Publication number | Publication date |
---|---|
CN110069651A (zh) | 2019-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230103340A1 (en) | Information generating method and apparatus, device, storage medium, and program product | |
CN111368893A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN110069651B (zh) | 图片筛选方法及装置、存储介质 | |
WO2021036589A1 (zh) | 人工智能推荐模型的特征处理方法、装置、电子设备及存储介质 | |
CN111381909A (zh) | 一种页面展示方法、装置、终端设备及存储介质 | |
US10699171B2 (en) | Automated image scale adjustment based upon document and image context | |
JP7240505B2 (ja) | 音声パケット推薦方法、装置、電子機器およびプログラム | |
CN111209970A (zh) | 视频分类方法、装置、存储介质及服务器 | |
CN113408208B (zh) | 模型训练方法、信息提取方法、相关装置及存储介质 | |
US20170293592A1 (en) | Dynamically formatting scalable vector graphics | |
US20230066504A1 (en) | Automated adaptation of video feed relative to presentation content | |
CN110211017B (zh) | 图像处理方法、装置及电子设备 | |
WO2020134754A1 (zh) | 页面通信方法、装置、计算机设备及存储介质 | |
US11190653B2 (en) | Techniques for capturing an image within the context of a document | |
JP2023545052A (ja) | 画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム | |
US11687711B2 (en) | Method and apparatus for generating commentary | |
CN113033677A (zh) | 视频分类方法、装置、电子设备和存储介质 | |
CN112087590A (zh) | 图像处理方法、装置、系统及计算机存储介质 | |
CN113779257A (zh) | 文本分类模型的解析方法、装置、设备、介质及产品 | |
CN108769730B (zh) | 视频的播放方法、装置、计算设备以及存储介质 | |
CN114399497A (zh) | 文本图像质量检测方法、装置、计算机设备及存储介质 | |
CN113987239A (zh) | 图像推送方法、装置、计算机设备、存储介质及产品 | |
WO2021113015A1 (en) | Associating content items with images captured of meeting content | |
CN112950501A (zh) | 基于噪声场的图像降噪方法、装置、设备及存储介质 | |
CN110378406A (zh) | 图像情感分析方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |