CN114168771A - 一种构建配图库的方法及相关装置 - Google Patents

一种构建配图库的方法及相关装置 Download PDF

Info

Publication number
CN114168771A
CN114168771A CN202010953012.1A CN202010953012A CN114168771A CN 114168771 A CN114168771 A CN 114168771A CN 202010953012 A CN202010953012 A CN 202010953012A CN 114168771 A CN114168771 A CN 114168771A
Authority
CN
China
Prior art keywords
picture
sensitivity
target
sensitive
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010953012.1A
Other languages
English (en)
Other versions
CN114168771B (zh
Inventor
杨帆
谢泽华
周泽南
许静芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202010953012.1A priority Critical patent/CN114168771B/zh
Publication of CN114168771A publication Critical patent/CN114168771A/zh
Application granted granted Critical
Publication of CN114168771B publication Critical patent/CN114168771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种构建配图库的方法及相关装置,该方法包括:首先,在广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;然后,通过既包括图片视觉信息过滤器又包括图片元数据过滤器的目标过滤器,过滤候选配图集合中图片获得第一目标配图集合;最后,基于第一目标配图集合中各个图片构建配图库。可见,利用目标过滤器在过滤候选配图集合中图片时,不仅考虑图片的视觉信息,还考虑图片的元数据,从不同角度综合过滤选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,使得构建的配图库中图片作为广告配图更为安全,从而大大降低敏感图片作为广告配图的风险。

Description

一种构建配图库的方法及相关装置
技术领域
本申请涉及图片处理技术领域,尤其涉及一种构建配图库的方法及相关装置。
背景技术
现阶段,配图广告中与广告相匹配的图片称为广告配图,该广告配图能够呈现良好的视觉效果,从而提高该配图广告的点击率。考虑到政府监管和法律规定等,配图广告中不应当出现涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片。因此,在现有技术中,一般是基于图片分类和图片检测方式过滤涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,将过滤后保留下来的图片作为广告配图。
但是,发明人经过研究发现,上述图片分类和图片检测方式的准确性较低,且基于图片分类和图片检测方式过滤图片仅仅考虑图片的视觉信息,并未考虑图片的其他信息,导致该方式过滤后保留下来的图片仍然很大可能包括涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,将其作为广告配图严重影响用户体验。
发明内容
本申请所要解决的技术问题是,提供一种构建配图库的方法及相关装置,不仅考虑图片的视觉信息,还考虑图片的元数据,从不同角度综合过滤涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,使得构建的配图库中图片作为广告配图更为安全,从而大大降低敏感图片作为广告配图的风险。
第一方面,本申请实施例提供了一种构建配图库的方法,所述方法包括:
基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;
基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器;
基于所述第一目标配图集合中各个图片构建配图库。
可选的,所述基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合,包括:
基于所述图片视觉信息过滤器获得所述候选配图集合中每个图片的视觉信息敏感度;
基于所述图片元数据过滤器获得所述候选配图集合中每个图片的元数据敏感度;
基于所述候选配图集合中每个图片的视觉信息敏感度和元数据敏感度,获得所述候选配图集合中每个图片的综合图片敏感度;
过滤所述候选配图集合中综合图片敏感度大于等于第一预设综合图片敏感度的图片,获得所述第一目标配图集合。
可选的,所述图片元数据过滤器包括文本过滤器和/或站点过滤器。
可选的,所述图片视觉信息过滤器包括敏感图片分类器、敏感图标检测器、敏感人物检测器和/或敏感文本检测器;所述文本过滤器包括敏感文本分类器和/或敏感词语检测器;所述站点过滤器包括敏感站点检测器。
可选的,在所述基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合之后,还包括:
若所述第一目标配图集合中第一图片的图片语义特征与过滤配图集合中第二图片的图片语义特征相似度大于预设相似度,且所述第一图片符合预设敏感图片条件,确定所述第一图片为敏感图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集;
过滤所述第一目标配图集合中所述敏感图片获得第二目标图片集合;
对应地,所述基于所述第一目标配图集合中各个图片构建配图库,具体为:
基于所述第二目标配图集合中各个图片构建所述配图库。
可选的,在所述基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合之后,还包括:
基于所述文本过滤器、每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句的综合查询敏感度;
若所述第一目标配图集合中第三图片对应的用户查询语句的综合查询敏感度大于等于预设综合查询敏感度,且所述第三图片的综合图片敏感度大于等于第二预设综合图片敏感度,确定所述第三图片为敏感图片;所述第二预设综合图片敏感度小于所述第一预设综合图片敏感度;
若过滤配图集合中第四图片对应的用户查询语句的综合查询敏感度小于等于预设综合查询敏感度,且所述第四图片的综合图片敏感度小于等于第三预设综合图片敏感度,确定所述第三图片为正常图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集,所述第三预设综合图片敏感度大于所述第一预设综合图片敏感度;
过滤所述第一目标配图集合中所述敏感图片,在所述第一目标配图集合中增加所述正常图片,获得第三目标图片集合;
对应地,所述基于所述第一目标配图集合中各个图片构建配图库,具体为:
基于所述第三目标图片集合中各个图片构建所述配图库。
可选的,所述基于所述文本过滤器、每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句的综合查询敏感度,包括:
基于所述文本过滤器获得每个所述用户查询语句的查询敏感度;
基于每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句对应的敏感图片比例;
基于每个所述用户查询语句的查询敏感度和对应的所述敏感图片比例,获得每个所述用户查询语句的综合查询敏感度。
可选的,还包括:
基于更新过滤需求动态更新所述敏感图标检测器、所述敏感人物检测器和所述敏感文本检测器、所述敏感词语检测器和/或所述敏感站点检测器。
可选的,还包括:
基于所述配图库中各个图片优化更新所述敏感图片分类器和/或所述敏感文本分类器。
第二方面,本申请实施例提供了一种构建配图库的装置,所述装置包括:
第一获得单元,用于基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;
第二获得单元,用于基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器;
构建单元,用于基于所述第一目标配图集合构建配图库。
可选的,所述第二获得单元包括:
第一获得子单元,用于基于所述图片视觉信息过滤器获得所述候选配图集合中每个图片的视觉信息敏感度;
第二获得子单元,用于基于所述图片元数据过滤器获得所述候选配图集合中每个图片的元数据敏感度;
第三获得子单元,用于基于所述候选配图集合中每个图片的视觉信息敏感度和元数据敏感度,获得所述候选配图集合中每个图片的综合图片敏感度;
第四获得子单元,用于过滤所述候选配图集合中综合图片敏感度大于等于第一预设综合图片敏感度的图片,获得所述第一目标配图集合。
可选的,所述图片元数据过滤器包括文本过滤器和/或站点过滤器。
可选的,所述图片视觉信息过滤器包括敏感图片分类器、敏感图标检测器、敏感人物检测器和/或敏感文本检测器;所述文本过滤器包括敏感文本分类器和/或敏感词语检测器;所述站点过滤器包括敏感站点检测器。
可选的,所述装置还包括:
第一确定单元,用于若所述第一目标配图集合中第一图片的图片语义特征与过滤配图集合中第二图片的图片语义特征相似度大于预设相似度,且所述第一图片符合预设敏感图片条件,确定所述第一图片为敏感图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集;
第三获得单元,用于过滤所述第一目标配图集合中所述敏感图片获得第二目标图片集合;
对应地,所述构建单元具体用于:
基于所述第二目标配图集合中各个图片构建所述配图库。
可选的,所述装置还包括:
第四获得单元,用于基于所述文本过滤器、每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句的综合查询敏感度;
第二确定单元,用于若所述第一目标配图集合中第三图片对应的用户查询语句的综合查询敏感度大于等于预设综合查询敏感度,且所述第三图片的综合图片敏感度大于等于第二预设综合图片敏感度,确定所述第三图片为敏感图片;所述第二预设综合图片敏感度小于所述第一预设综合图片敏感度;
第三确定单元,用于若过滤配图集合中第四图片对应的用户查询语句的综合查询敏感度小于等于预设综合查询敏感度,且所述第四图片的综合图片敏感度小于等于第三预设综合图片敏感度,确定所述第三图片为正常图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集,所述第三预设综合图片敏感度大于所述第一预设综合图片敏感度;
第五获得单元,用于过滤所述第一目标配图集合中所述敏感图片,在所述第一目标配图集合中增加所述正常图片,获得第三目标图片集合;
对应地,所述构建单元具体用于:
基于所述第三目标图片集合中各个图片构建所述配图库。
可选的,所述第四获得单元包括:
第五获得子单元,用于基于所述文本过滤器获得每个所述用户查询语句的查询敏感度;
第六获得子单元,用于基于每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句对应的敏感图片比例;
第七获得子单元,用于基于每个所述用户查询语句的查询敏感度和对应的所述敏感图片比例,获得每个所述用户查询语句的综合查询敏感度。
可选的,所述装置还包括:
第一更新单元,用于基于更新过滤需求动态更新所述敏感图标检测器、所述敏感人物检测器和所述敏感文本检测器、所述敏感词语检测器和/或所述敏感站点检测器。
可选的,所述装置还包括:
第二更新单元,用于基于所述配图库中各个图片优化更新所述敏感图片分类器和/或所述敏感文本分类器。
第三方面,本申请实施例提供了一种用于获得目标配图集合的装置,所述装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;
基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器;
基于所述第一目标配图集合构建配图库。
第四方面,本申请实施例提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如上述第一方面任一项所述的构建配图库的方法。
与现有技术相比,本申请至少具有以下优点:
采用本申请实施例的技术方案,首先,在广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;然后,通过既包括图片视觉信息过滤器又包括图片元数据过滤器的目标过滤器,过滤候选配图集合中图片获得第一目标配图集合;最后,基于第一目标配图集合中各个图片构建配图库。由此可见,利用目标过滤器在过滤候选配图集合中图片时,不仅考虑图片的视觉信息,还考虑图片的元数据,从不同角度综合过滤选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,使得构建的配图库中图片作为广告配图更为安全,从而大大降低敏感图片作为广告配图的风险。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种应用场景所涉及的系统框架示意图;
图2为本申请实施例提供的一种构建配图库的方法的流程示意图;
图3为本申请实施例提供的另一种构建配图库的方法的流程示意图;
图4为本申请实施例提供的又一种构建配图库的方法的流程示意图;
图5为本申请实施例提供的一种构建配图库的装置的结构示意图;
图6为本申请实施例提供的一种用于构建配图库的装置的结构示意图;
图7为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,一般是利用图片分类方法和图片检测方法过滤涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,将过滤后保留下来的图片作为广告配图。但是,发明人经过研究发现,上述图片分类方法和图片检测方法的准确性较低,且该方法只是考虑图片的视觉信息,并未考虑图片的其他信息,导致该方法过滤后保留下来的图片仍然很大可能包括涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,将其作为广告配图严重影响用户体验。
为了解决这一问题,在本申请实施例中,在广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;通过既包括图片视觉信息过滤器又包括图片元数据过滤器的目标过滤器,过滤候选配图集合中图片获得第一目标配图集合;基于第一目标配图集合中各个图片构建配图库。可见,利用目标过滤器在过滤候选配图集合中图片时,不仅考虑图片的视觉信息,还考虑图片的元数据,从不同角度综合过滤选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,使得构建的配图库中图片作为广告配图更为安全,从而大大降低敏感图片作为广告配图的风险。
举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中,该场景包括终端101和处理器102,终端101记录与用户相关的广告日志,处理器102从终端101获取广告日志,采用本申请实施例提供的实施方式完成配图库的构建,用户通过终端101从处理器102的配图库中选取图片作为广告配图。
可以理解的是,在上述应用场景中,虽然将本申请实施方式的动作描述由处理器102执行,但是,本申请在执行主体方面不受限制,只要执行了本申请实施方式所公开的动作即可。
可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。
下面结合附图,通过实施例来详细说明本申请实施例中构建配图库的方法及相关装置的具体实现方式。
示例性方法
参见图2,示出了本申请实施例中一种构建配图库的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤201:基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合。
在本申请实施例中,由于配图广告中不应当出现涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,因此,需要对大量与广告相匹配的图片进行过滤,以去除涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片;在过滤之前首先需要获取大量与广告相匹配的图片以形成候选配图集合。
具体地,广告日志记录用户查询语句、用户查询语句的查询数、用户查询语句对应的图片、图片的点击数和展示数,可以从广告日志中选取查询数较高的用户查询语句对应的点击数或展示数较高的图片形成候选配图集合。即,首先,从广告日志中选取查询数大于等于预设查询数的各个用户查询语句所对应的各个图片,然后选取点击数大于等于预设点击数或展示数大于等于预设展示数的图片形成候选配图集合。
步骤202:基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器。
由于现有技术中基于图片分类和图片检测方式过滤涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片的准确性较低,且仅仅考虑图片的视觉信息,并未考虑图片的其他信息,导致该方式过滤后保留下来的图片仍然很大可能包括涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片。因此,在本申请实施例中,在过滤步骤201获得的候选配图集合中图片时,不仅需要考虑图片的视觉信息,还需要考虑图片的元数据,从不同角度综合过滤选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片;即,可以将图片视觉信息过滤器和图片元数据过滤器相结合作为目标过滤器,用于过滤步骤201获得的候选配图集合中图片。
在本申请实施例中,由于图片的元数据一般是指图片的标题和/或描述等文本数据,以及图片的所属的站点数据;因此,图片元数据过滤器既可以是文本过滤器,也可以是站点过滤器,还可以是文本过滤器和站点过滤器相结合得到的。即,在本申请实施例一种可选的实施方式中,所述图片元数据过滤器包括文本过滤器和/或站点过滤器。
在本申请实施例中,图片视觉信息过滤器用于过滤在视觉信息层面上涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,该在视觉信息层面上涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片是指图片类别为敏感图片、包括敏感图标元素的图片、包括敏感人物元素的图片以及包括敏感文本元素的图片等等。文本过滤器用于过滤在文本数据层面上涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,该在文本数据层面上涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片是指文本类别为敏感文本、文本数据包括敏感词语元素的图片等等。站点过滤器过滤在站点数据层面上涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,该在站点数据层面上涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片是指站点数据属于敏感站点的图片等等。因此,在本申请实施例一种可选的实施方式中,所述图片视觉信息过滤器包括敏感图片分类器、敏感图标检测器、敏感人物检测器和/或敏感文本检测器;所述文本过滤器包括敏感文本分类器和/或敏感词语检测器;所述站点过滤器包括敏感站点检测器。
作为一种示例,目标过滤器包括图片视觉信息过滤器和图片元数据过滤器,图片元数据过滤器包括文本过滤器和站点过滤器;图片视觉信息过滤器包括敏感图片分类器、敏感图标检测器、敏感人物检测器和敏感文本检测器;文本过滤器包括敏感文本分类器和敏感词语检测器;站点过滤器包括敏感站点检测器。利用该目标过滤器执行步骤202,融合敏感图片分类、敏感图标检测、敏感人物检测、敏感文本检测、敏感文本分类、敏感词语检测和敏感站点检测等技术,综合过滤选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,相较于其他过滤器,使得过滤候选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片的准确更高,即,过滤候选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片的效果更好。
在本申请实施例中,步骤202具体实施过程是指利用目标过滤器中图片视觉信息过滤器可以计算候选配图集合中每个图片的视觉信息敏感度,同理,利用目标过滤器中图片元数据过滤器可以计算候选配图集合中每个图片的元数据敏感度;针对选配图集合中每个图片,综合其视觉信息敏感度和元数据敏感度可以计算得到其综合图片敏感度。综合图片敏感度越高表示图片为涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片的概率越高,综合图片敏感度越低表示图片为涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片的概率越低。预先设置一个较为合适的综合图片敏感度作为第一预设综合图片敏感度,若选配图集合中图片的预设综合图片敏感度大于等于第一预设综合图片敏感度,表示该图片为需要过滤的涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片。在过滤候选配图集合中综合图片敏感度大于等于第一预设综合图片敏感度的图片后,所保留的图片形成第一目标配图集合。因此,在本申请实施例一种可选的实施方式中,所述步骤202例如可以包括以下步骤:
步骤A:基于所述图片视觉信息过滤器获得所述候选配图集合中每个图片的视觉信息敏感度。
步骤B:基于所述图片元数据过滤器获得所述候选配图集合中每个图片的元数据敏感度。
步骤C:基于所述候选配图集合中每个图片的视觉信息敏感度和元数据敏感度,获得所述候选配图集合中每个图片的综合图片敏感度。
步骤D:过滤所述候选配图集合中综合图片敏感度大于等于第一预设综合图片敏感度的图片,获得所述第一目标配图集合。
作为一种示例,第一预设综合图片敏感度为80,若候选配图集合中图片A的综合图片敏感度为90,综合图片敏感度为90大于第一预设综合图片敏感度80,表示图片A为需要过滤的涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片;若候选配图集合中图片B的综合图片敏感度为70,综合图片敏感度为70小于第一预设综合图片敏感度80,表示图片B为需要保留的不涉及政治、黄色、恐怖、暴力等敏感因素的正常图片。
步骤203:基于所述第一目标配图集合中各个图片构建配图库。
由于步骤202获得第一目标配图集合中各个图片均是综合图片敏感度小于第一预设综合图片敏感度的图片,认为是不涉及政治、黄色、恐怖、暴力等敏感因素的正常图片,可以作为广告配图;因此,在本申请实施例中,通过第一目标配图集合中各个图片构建配图库,能够使得构建的配图库中图片作为广告配图更为安全,从而大大降低敏感图片作为广告配图的风险。
在本申请实施例中,当过滤需求发生更新时,敏感图标、敏感人物、敏感文本、敏感词语以及敏感站点可能发生变化,需要根据更新后的过滤需求,记为更新过滤需求,及时更新敏感图标检测器、敏感人物检测器和敏感文本检测器、敏感词语检测器和/或敏感站点检测器,以提高目标过滤器的过滤准确性和过滤效果。因此,在本申请实施例一种可选的实施方式中,例如还可以包括步骤:基于更新过滤需求动态更新所述敏感图标检测器、所述敏感人物检测器和所述敏感文本检测器、所述敏感词语检测器和/或所述敏感站点检测器。
在本申请实施例中,由于配图库中各个图片认为是不涉及政治、黄色、恐怖、暴力等敏感因素的正常图片,因此,还可以将配图库中各个图片作为标记正常标签的正常图片样本和标记敏感标签的涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片样本,共同训练敏感图片分类器和/或敏感文本分类器,以优化更新敏感图片分类器和/或敏感文本分类器。即,在本申请实施例一种可选的实施方式中,例如还包括步骤:基于所述配图库中各个图片优化更新所述敏感图片分类器和/或所述敏感文本分类器。当然,在敏感图片分类器和/或敏感文本分类器被优化更新后,其过滤准确性更高,即在获得视觉信息敏感度和/或元数据敏感度时更准确;因此,还可以动态调整第一预设综合图片敏感度的。
在本申请实施例中,广告具有时效性,在一段时间后,新广告日志相较于原有的广告日志更具有价值,需要从新广告日志中选取查询数大于等于预设查询数的各个用户查询语句所对应的各个图片中点击数大于等于预设点击数或展示数大于等于预设展示数的图片形成候选配图集合。因此,在本申请实施例一种可选的实施方式中,例如还可以包括步骤:基于新广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合。
通过本实施例提供的各种实施方式,首先,在广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;然后,通过既包括图片视觉信息过滤器又包括图片元数据过滤器的目标过滤器,过滤候选配图集合中图片获得第一目标配图集合;其中,图片元数据过滤器包括文本过滤器和/或站点过滤器;最后,基于第一目标配图集合中各个图片构建配图库。由此可见,利用目标过滤器在过滤候选配图集合中图片时,不仅考虑图片的视觉信息,还考虑图片的元数据,从不同角度综合过滤选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,使得构建的配图库中图片作为广告配图更为安全,从而大大降低敏感图片作为广告配图的风险。
需要说明的是,在上述步骤201-步骤202获得第一目标配图集合的基础上,第一目标配图集合中各个图片的综合图片敏感度均小于第一预设综合图片敏感度,但是第一预设综合图片敏感度是预先设置的,综合图片敏感度均小于第一预设综合图片敏感度的图片并不一定是不涉及政治、黄色、恐怖、暴力等敏感因素的正常图片。为了进一步过滤第一目标配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,将之前从候选配图集合过滤的图片形成过滤配图集合,可以判断第一目标配图集合中图片的图片语义特征与过滤配图集合中图片的图片语义特征的相似度;当第一目标配图集合中某个图片与过滤配图集合中某个或某些图片的图片语义特征的相似度较高,且该图片符合基于敏感图片的特性设定的预设敏感图片条件,也认为该图片为需要过滤的涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片;基于此过滤后的第一目标配图集合中上述敏感图片获得第二目标配图集合。基于第二目标配图集合中各个图片构建配图库,相较于第一目标配图集合,使得构建的配图库中图片作为广告配图更为安全,从而进一步大大降低敏感图片作为广告配图的风险。
参见图3,示出了本申请实施例中另一种构建配图库的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤301:基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合。
步骤302:基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器。
在本实施例中,由于步骤301-步骤302与上述实施例中步骤201-步骤202相同,因此,步骤301-步骤302的详细说明参见上述实施例中步骤201-步骤202的详细说明,在此不再赘述。
步骤303:若所述第一目标配图集合中第一图片的图片语义特征与过滤配图集合中第二图片的图片语义特征相似度大于预设相似度,且所述第一图片符合预设敏感图片条件,确定所述第一图片为敏感图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集。
步骤304:过滤所述第一目标配图集合中所述敏感图片获得第二目标图片集合。
步骤305:基于所述第二目标配图集合中各个图片构建所述配图库。
在本申请实施例一种可选的实施方式中,所述方法还包括:基于更新过滤需求动态更新所述敏感图标检测器、所述敏感人物检测器和所述敏感文本检测器、所述敏感词语检测器和/或所述敏感站点检测器。
在本申请实施例一种可选的实施方式中,所述方法还包括:基于所述配图库中各个图片优化更新所述敏感图片分类器和/或所述敏感文本分类器。
在本申请实施例一种可选的实施方式中,所述方法还包括:基于新广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合。
通过本实施例提供的各种实施方式,利用目标过滤器在过滤候选配图集合中图片时,不仅考虑图片的视觉信息,还考虑图片的元数据,从不同角度综合过滤选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片获得第一目标配图集合;通过图片语义特征和预设敏感图片条件进一步过滤第一目标配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片获得第二目标配图集合;使得构建的配图库中图片作为广告配图更为安全,从而进一步大大降低敏感图片作为广告配图的风险。
需要说明的是,在上述步骤201-步骤202获得第一目标配图集合的基础上,第一目标配图集合中各个图片的综合图片敏感度均小于第一预设综合图片敏感度,但是第一预设综合图片敏感度是预先设置的,综合图片敏感度均小于第一预设综合图片敏感度的图片并不一定是不涉及政治、黄色、恐怖、暴力等敏感因素的正常图片,综合图片敏感度均大于等于第一预设综合图片敏感度的图片也并不一定是涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片。
为了进一步过滤第一目标配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,将之前从候选配图集合过滤的图片中不涉及政治、黄色、恐怖、暴力等敏感因素的正常图片重新增加至第一目标配图集合;可以通过文本过滤器以及用户查询语句对应的各个图片的综合图片敏感度是否大于等于第一预设综合图片敏感度,计算用户查询语句的综合查询敏感度,对于综合查询敏感度较高的用户查询语句,即使其对应的图片的综合图片敏感度比第一预设综合图片敏感度低一些,也应该将该图片认定为需要过滤的涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片;而对于综合查询敏感度较低的用户查询语句,即使其对应的图片的综合图片敏感度比第一预设综合图片敏感度高一些,也应该将该图片认定为需要重新增加至第一目标配图集合的不涉及政治、黄色、恐怖、暴力等敏感因素的正常图片,从而得到第三目标配图集合。基于第三目标配图集合中各个图片构建配图库,相较于第一目标配图集合,使得构建的配图库中图片作为广告配图更为安全,从而进一步大大降低敏感图片作为广告配图的风险。
参见图4,示出了本申请实施例中又一种构建配图库的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤401:基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合。
步骤402:基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器。
在本实施例中,由于步骤401-步骤402与上述实施例中步骤201-步骤202相同,因此,步骤401-步骤402的详细说明参见上述实施例中步骤201-步骤202的详细说明,在此不再赘述。
步骤403:基于所述文本过滤器、每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句的综合查询敏感度。
在本申请实施例中,步骤202具体实施过程是指利用文本过滤器可以计算每个用户查询语句的查询敏感度;通过每个用户查询语句对应的各个图片的综合图片敏感度是否大于等于第一预设综合图片敏感度,确定图片是否为敏感图片,以计算每个用户查询语句对应的各个图片中敏感图片比例;针对每个用户查询语句而言,综合其查询敏感度和对应的敏感图片比例可以计算得到其综合查询敏感度。因此,在本申请实施例一种可选的实施方式中,所述步骤403例如可以包括以下步骤:
步骤E:基于所述文本过滤器获得每个所述用户查询语句的查询敏感度。
步骤F:基于每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句对应的敏感图片比例。
步骤G:基于每个所述用户查询语句的查询敏感度和对应的所述敏感图片比例,获得每个所述用户查询语句的综合查询敏感度。
步骤404:若所述第一目标配图集合中第三图片对应的用户查询语句的综合查询敏感度大于等于预设综合查询敏感度,且所述第三图片的综合图片敏感度大于等于第二预设综合图片敏感度,确定所述第三图片为敏感图片;所述第二预设综合图片敏感度小于所述第一预设综合图片敏感度。
步骤405:若过滤配图集合中第四图片对应的用户查询语句的综合查询敏感度小于等于预设综合查询敏感度,且所述第四图片的综合图片敏感度小于等于第三预设综合图片敏感度,确定所述第三图片为正常图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集,所述第三预设综合图片敏感度大于所述第一预设综合图片敏感度。
步骤406:过滤所述第一目标配图集合中所述敏感图片,在所述第一目标配图集合中增加所述正常图片,获得第三目标图片集合。
步骤407:基于所述第三目标图片集合中各个图片构建所述配图库。
在本申请实施例一种可选的实施方式中,所述方法还包括:基于更新过滤需求动态更新所述敏感图标检测器、所述敏感人物检测器和所述敏感文本检测器、所述敏感词语检测器和/或所述敏感站点检测器。
在本申请实施例一种可选的实施方式中,所述方法还包括:基于所述配图库中各个图片优化更新所述敏感图片分类器和/或所述敏感文本分类器。
在本申请实施例一种可选的实施方式中,所述方法还包括:基于新广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合。
通过本实施例提供的各种实施方式,利用目标过滤器在过滤候选配图集合中图片时,不仅考虑图片的视觉信息,还考虑图片的元数据,从不同角度综合过滤选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片获得第一目标配图集合;通过用户查询语句的综合查询敏感度的高低,针对性地调整图片的综合图片敏感度的阈值,进一步过滤第一目标配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,并重新增加之前为了获得第一目标配图集合而过滤的不涉及政治、黄色、恐怖、暴力等敏感因素的正常图片,以获得第三目标配图集合;使得构建的配图库中图片作为广告配图更为安全,从而进一步大大降低敏感图片作为广告配图的风险。
示例性装置
参见图5,示出了本申请实施例中一种构建配图库的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:
第一获得单元501,用于基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;
第二获得单元502,用于基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器;
构建单元503,用于基于所述第一目标配图集合构建配图库。
在本申请实施例一种可选的实施方式中,所述第二获得单元502包括:
第一获得子单元,用于基于所述图片视觉信息过滤器获得所述候选配图集合中每个图片的视觉信息敏感度;
第二获得子单元,用于基于所述图片元数据过滤器获得所述候选配图集合中每个图片的元数据敏感度;
第三获得子单元,用于基于所述候选配图集合中每个图片的视觉信息敏感度和元数据敏感度,获得所述候选配图集合中每个图片的综合图片敏感度;
第四获得子单元,用于过滤所述候选配图集合中综合图片敏感度大于等于第一预设综合图片敏感度的图片,获得所述第一目标配图集合。
在本申请实施例一种可选的实施方式中,所述图片元数据过滤器包括文本过滤器和/或站点过滤器。
在本申请实施例一种可选的实施方式中,所述图片视觉信息过滤器包括敏感图片分类器、敏感图标检测器、敏感人物检测器和/或敏感文本检测器;所述文本过滤器包括敏感文本分类器和/或敏感词语检测器;所述站点过滤器包括敏感站点检测器。
在本申请实施例一种可选的实施方式中,所述装置还包括:
第一确定单元,用于若所述第一目标配图集合中第一图片的图片语义特征与过滤配图集合中第二图片的图片语义特征相似度大于预设相似度,且所述第一图片符合预设敏感图片条件,确定所述第一图片为敏感图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集;
第三获得单元,用于过滤所述第一目标配图集合中所述敏感图片获得第二目标图片集合;
对应地,所述构建单元503具体用于:
基于所述第二目标配图集合中各个图片构建所述配图库。
在本申请实施例一种可选的实施方式中,所述装置还包括:
第四获得单元,用于基于所述文本过滤器、每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句的综合查询敏感度;
第二确定单元,用于若所述第一目标配图集合中第三图片对应的用户查询语句的综合查询敏感度大于等于预设综合查询敏感度,且所述第三图片的综合图片敏感度大于等于第二预设综合图片敏感度,确定所述第三图片为敏感图片;所述第二预设综合图片敏感度小于所述第一预设综合图片敏感度;
第三确定单元,用于若过滤配图集合中第四图片对应的用户查询语句的综合查询敏感度小于等于预设综合查询敏感度,且所述第四图片的综合图片敏感度小于等于第三预设综合图片敏感度,确定所述第三图片为正常图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集,所述第三预设综合图片敏感度大于所述第一预设综合图片敏感度;
第五获得单元,用于过滤所述第一目标配图集合中所述敏感图片,在所述第一目标配图集合中增加所述正常图片,获得第三目标图片集合;
对应地,所述构建单元503具体用于:
基于所述第三目标图片集合中各个图片构建所述配图库。
在本申请实施例一种可选的实施方式中,所述第四获得单元包括:
第五获得子单元,用于基于所述文本过滤器获得每个所述用户查询语句的查询敏感度;
第六获得子单元,用于基于每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句对应的敏感图片比例;
第七获得子单元,用于基于每个所述用户查询语句的查询敏感度和对应的所述敏感图片比例,获得每个所述用户查询语句的综合查询敏感度。
在本申请实施例一种可选的实施方式中,所述装置还包括:
第一更新单元,用于基于更新过滤需求动态更新所述敏感图标检测器、所述敏感人物检测器和所述敏感文本检测器、所述敏感词语检测器和/或所述敏感站点检测器。
在本申请实施例一种可选的实施方式中,所述装置还包括:
第二更新单元,用于基于所述配图库中各个图片优化更新所述敏感图片分类器和/或所述敏感文本分类器。
通过本实施例提供的各种实施方式,首先,在广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;然后,通过既包括图片视觉信息过滤器又包括图片元数据过滤器的目标过滤器,过滤候选配图集合中图片获得第一目标配图集合;最后,基于第一目标配图集合中各个图片构建配图库。由此可见,利用目标过滤器在过滤候选配图集合中图片时,不仅考虑图片的视觉信息,还考虑图片的元数据,从不同角度综合过滤选配图集合中涉及政治、黄色、恐怖、暴力等敏感因素的敏感图片,使得构建的配图库中图片作为广告配图更为安全,从而大大降低敏感图片作为广告配图的风险。
图6是根据一示例性实施例示出的一种用于构建配图库的装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相互关联的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种构建配图库的方法,所述方法包括:
基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;
基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器;
基于所述第一目标配图集合中各个图片构建配图库。
图7是本申请实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (10)

1.一种构建配图库的方法,其特征在于,包括:
基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;
基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器;
基于所述第一目标配图集合中各个图片构建配图库。
2.根据权利要求1所述的方法,其特征在于,所述基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合,包括:
基于所述图片视觉信息过滤器获得所述候选配图集合中每个图片的视觉信息敏感度;
基于所述图片元数据过滤器获得所述候选配图集合中每个图片的元数据敏感度;
基于所述候选配图集合中每个图片的视觉信息敏感度和元数据敏感度,获得所述候选配图集合中每个图片的综合图片敏感度;
过滤所述候选配图集合中综合图片敏感度大于等于第一预设综合图片敏感度的图片,获得所述第一目标配图集合。
3.根据权利要求1所述的方法,其特征在于,所述图片元数据过滤器包括文本过滤器和/或站点过滤器。
4.根据权利要求3所述的方法,其特征在于,所述图片视觉信息过滤器包括敏感图片分类器、敏感图标检测器、敏感人物检测器和/或敏感文本检测器;所述文本过滤器包括敏感文本分类器和/或敏感词语检测器;所述站点过滤器包括敏感站点检测器。
5.根据权利要求1所述的方法,其特征在于,在所述基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合之后,还包括:
若所述第一目标配图集合中第一图片的图片语义特征与过滤配图集合中第二图片的图片语义特征相似度大于预设相似度,且所述第一图片符合预设敏感图片条件,确定所述第一图片为敏感图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集;
过滤所述第一目标配图集合中所述敏感图片获得第二目标图片集合;
对应地,所述基于所述第一目标配图集合中各个图片构建配图库,具体为:
基于所述第二目标配图集合中各个图片构建所述配图库。
6.根据权利要求2所述的方法,其特征在于,在所述基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合之后,还包括:
基于所述文本过滤器、每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句的综合查询敏感度;
若所述第一目标配图集合中第三图片对应的用户查询语句的综合查询敏感度大于等于预设综合查询敏感度,且所述第三图片的综合图片敏感度大于等于第二预设综合图片敏感度,确定所述第三图片为敏感图片;所述第二预设综合图片敏感度小于所述第一预设综合图片敏感度;
若过滤配图集合中第四图片对应的用户查询语句的综合查询敏感度小于等于预设综合查询敏感度,且所述第四图片的综合图片敏感度小于等于第三预设综合图片敏感度,确定所述第三图片为正常图片;所述过滤配图集合为所述候选配图集合与所述第一目标配图集合的差集,所述第三预设综合图片敏感度大于所述第一预设综合图片敏感度;
过滤所述第一目标配图集合中所述敏感图片,在所述第一目标配图集合中增加所述正常图片,获得第三目标图片集合;
对应地,所述基于所述第一目标配图集合中各个图片构建配图库,具体为:
基于所述第三目标图片集合中各个图片构建所述配图库。
7.根据权利要求6所述的方法,其特征在于,所述基于所述文本过滤器、每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句的综合查询敏感度,包括:
基于所述文本过滤器获得每个所述用户查询语句的查询敏感度;
基于每个所述用户查询语句对应的各个图片的综合图片敏感度和所述第一预设综合图片敏感度,获得每个所述用户查询语句对应的敏感图片比例;
基于每个所述用户查询语句的查询敏感度和对应的所述敏感图片比例,获得每个所述用户查询语句的综合查询敏感度。
8.一种构建配图库的装置,其特征在于,包括:
第一获得单元,用于基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;
第二获得单元,用于基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器;
构建单元,用于基于所述第一目标配图集合构建配图库。
9.一种用于获得目标配图集合的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
基于广告日志挖掘各个用户查询语句和对应的各个图片获得候选配图集合;
基于目标过滤器过滤所述候选配图集合中图片获得第一目标配图集合;所述目标过滤器包括图片视觉信息过滤器和图片元数据过滤器;
基于所述第一目标配图集合构建配图库。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中任一项所述的构建配图库的方法。
CN202010953012.1A 2020-09-11 2020-09-11 一种构建配图库的方法及相关装置 Active CN114168771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010953012.1A CN114168771B (zh) 2020-09-11 2020-09-11 一种构建配图库的方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010953012.1A CN114168771B (zh) 2020-09-11 2020-09-11 一种构建配图库的方法及相关装置

Publications (2)

Publication Number Publication Date
CN114168771A true CN114168771A (zh) 2022-03-11
CN114168771B CN114168771B (zh) 2024-10-29

Family

ID=80475975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010953012.1A Active CN114168771B (zh) 2020-09-11 2020-09-11 一种构建配图库的方法及相关装置

Country Status (1)

Country Link
CN (1) CN114168771B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 在互联网上堵截色情图像与不良信息的系统
CN102323955A (zh) * 2011-09-16 2012-01-18 邹春城 私有云搜索系统及其实现方法
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法
CN105740752A (zh) * 2014-12-11 2016-07-06 世纪龙信息网络有限责任公司 敏感图片过滤方法和系统
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN110489990A (zh) * 2018-05-15 2019-11-22 中国移动通信集团浙江有限公司 一种敏感数据处理方法、装置、电子设备及存储介质
CN111414845A (zh) * 2020-03-18 2020-07-14 浙江大学 利用空间-时间图推理网络解决多形态语句视频定位任务的方法
CN111460247A (zh) * 2019-01-21 2020-07-28 重庆邮电大学 网络图片敏感文字自动检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 在互联网上堵截色情图像与不良信息的系统
CN102323955A (zh) * 2011-09-16 2012-01-18 邹春城 私有云搜索系统及其实现方法
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法
CN105740752A (zh) * 2014-12-11 2016-07-06 世纪龙信息网络有限责任公司 敏感图片过滤方法和系统
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN110489990A (zh) * 2018-05-15 2019-11-22 中国移动通信集团浙江有限公司 一种敏感数据处理方法、装置、电子设备及存储介质
CN111460247A (zh) * 2019-01-21 2020-07-28 重庆邮电大学 网络图片敏感文字自动检测方法
CN111414845A (zh) * 2020-03-18 2020-07-14 浙江大学 利用空间-时间图推理网络解决多形态语句视频定位任务的方法

Also Published As

Publication number Publication date
CN114168771B (zh) 2024-10-29

Similar Documents

Publication Publication Date Title
US9942690B2 (en) Method and device for information push
CN109799916B (zh) 一种候选项联想方法和装置
CN109961791B (zh) 一种语音信息处理方法、装置及电子设备
US20160314164A1 (en) Methods and devices for sharing cloud-based business card
RU2656978C2 (ru) Способ и устройство для рекомендации облачной карты
CN106815291B (zh) 搜索结果项展现方法、装置和用于搜索结果项展现的装置
US11546663B2 (en) Video recommendation method and apparatus
CN110020082B (zh) 一种搜索方法及装置
CN111177521A (zh) 一种查询词分类模型的确定方法和装置
CN112130839A (zh) 一种构建数据库、语音编程的方法及相关装置
CN109901726B (zh) 一种候选词生成方法、装置及用于候选词生成的装置
CN111831132A (zh) 一种信息推荐方法、装置和电子设备
CN110648657A (zh) 一种语言模型训练方法、构建方法和装置
CN109842688B (zh) 一种内容推荐方法、装置、电子设备及存储介质
CN110213062B (zh) 处理消息的方法及装置
CN112363631A (zh) 一种输入方法、装置及用于输入的装置
CN109144286B (zh) 一种输入方法及装置
CN107515853B (zh) 一种细胞词库推送方法及装置
CN104933107A (zh) 推送消息的搜索方法及装置
CN114168771B (zh) 一种构建配图库的方法及相关装置
CN113870195A (zh) 目标贴图检测模型的训练、贴图检测方法及装置
CN113946228A (zh) 语句推荐方法、装置、电子设备和可读存储介质
CN112732098A (zh) 一种输入的方法及相关装置
CN111221710A (zh) 一种识别用户类型的方法、装置和设备
CN112528170B (zh) 一种用户兴趣挖掘的方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant