CN104504104A - 用于搜索引擎的图片物料处理方法、装置和搜索引擎 - Google Patents

用于搜索引擎的图片物料处理方法、装置和搜索引擎 Download PDF

Info

Publication number
CN104504104A
CN104504104A CN201410841895.1A CN201410841895A CN104504104A CN 104504104 A CN104504104 A CN 104504104A CN 201410841895 A CN201410841895 A CN 201410841895A CN 104504104 A CN104504104 A CN 104504104A
Authority
CN
China
Prior art keywords
picture
sheet material
pending
search engine
target area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410841895.1A
Other languages
English (en)
Other versions
CN104504104B (zh
Inventor
秦首科
张泽明
韩友
江焱
陈志扬
程小华
徐培治
马小林
文石磊
陈世佳
李旭斌
陈敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410841895.1A priority Critical patent/CN104504104B/zh
Publication of CN104504104A publication Critical patent/CN104504104A/zh
Application granted granted Critical
Publication of CN104504104B publication Critical patent/CN104504104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种用于搜索引擎的图片物料处理方法、装置和搜索引擎,其中,该用于搜索引擎的图片物料处理方法,包括以下步骤:获取源图片物料;对源图片物料进行过滤以生成待处理图片物料;对待处理图片物料进行特征提取以生成待处理图片物料对应的信息特征;根据待处理图片物料对应的信息特征确定待处理图片物料的目标区域;以及根据目标区域对待处理图片物料进行处理以生成图片。本发明的用于搜索引擎的图片物料处理方法,通过利用深度学习处理技术对待处理图片进行处理后可为搜索引擎提供充足、丰富且高质量的图片物料,能够适应不同的搜索引擎产品规范和要求、满足网民对高质量的图片的需求。

Description

用于搜索引擎的图片物料处理方法、装置和搜索引擎
技术领域
本发明涉及搜索技术领域,特别涉及一种用于搜索引擎的图片物料处理方法、装置和搜索引擎。
背景技术
目前,搜索引擎可根据网民输入的搜索词提供相应的搜索结果,其中,网民输入的搜索词不仅仅可包含文字,还可包含多媒体信息,如语音、图片等。图片是多媒体信息中非常重要的组成部分,网民可通过适宜的图片来表达其搜索需求,并进行搜索。从而,搜索引擎能够返回理想的图片搜索结果给网民。
搜索引擎智能出图的核心目标是将质量出色、与网民的搜索需求有良好相关性的图片展示给网民。在网民需求复杂化多样化的前提下,必须准备数量足够多,内容足够丰富,质量足够高的图片物料,才可能在整体上提升出图的效果,满足网民需求。因此,准备可展示的图片物料数据是重要的基础性工作。
但是,受到图片数据来源、搜索结果展示面积等原因的限制,搜索引擎可提供、展现的图片存在图片的数量较少、质量差异度较大、图片与网民搜索需求的匹配程度较低等问题。例如,搜索引擎可提供的多媒体物料中一部分物料主要来自于客户自己提交,如客户的一些标志图片、多媒体信息或者产品的注册商标、图案等信息。但是受到客户制作物料能力等客观因素限制,物料的丰富性和质量都比较匮乏。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种用于搜索引擎的图片物料处理方法,可为搜索引擎提供充足、丰富且高质量的图片物料,能够适应不同的搜索引擎产品规范和要求、满足网民对高质量的图片的需求。
本发明的第二个目的在于提出一种用于搜索引擎的图片物料处理装置。
本发明的第三个目的在于搜索引擎。
为达上述目的,根据本发明第一方面实施例提出了一种用于搜索引擎的图片物料处理方法,包括以下步骤:获取源图片物料;对所述源图片物料进行过滤以生成待处理图片物料;对所述待处理图片物料进行特征提取以生成所述待处理图片物料对应的信息特征;根据所述待处理图片物料对应的信息特征确定所述待处理图片物料的目标区域;以及根据所述目标区域对所述待处理图片物料进行处理以生成图片。
本发明实施例的用于搜索引擎的图片物料处理方法,通过获取源图片物料,并对源图片物料进行过滤以生成待处理图片物料,然后提取待处理图片物料的信息特征,并确定待处理图片物料的目标区域,并根据目标区域对待处理图片物料进行处理以生成供搜索引擎使用的图片,通过利用深度学习处理技术对待处理图片进行处理后可为搜索引擎提供充足、丰富且高质量的图片物料,能够适应不同的搜索引擎产品规范和要求、符合网民需求的高质量的图片物料,一方面有利于图片对应的结果的推广和普及,另一方面,能够更好的满足网民可具象化的需求,符合网民不同场景下的搜索要求,提升了网民体验。
此外,本发明的实施例有利于将图片物料处理技术进行大规模应用并形成标准流程化操作,通过对此流程进行工具化的封装,能够支持长期大批量的数据处理,为搜索引擎提供丰富、充足、高质量的图片来源。并且,能够针对不同行业属性、不同规模的客户,根据客户自身所有的图片物料,最大程度利用资源,生成每一位客户独立的图片数据库,并跟随数据源的变化不断更新。
本发明第二方面实施例提出了一种用于搜索引擎的图片物料处理装置,包括:获取模块,用于获取源图片物料;过滤模块,用于对所述源图片物料进行过滤以生成待处理图片物料;特征提取模块,用于对所述待处理图片物料进行特征提取以生成所述待处理图片物料对应的信息特征;确定模块,用于根据所述待处理图片物料对应的信息特征确定所述待处理图片物料的目标区域;以及生成模块,用于根据所述目标区域对所述待处理图片物料进行处理以生成图片。
本发明实施例的用于搜索引擎的图片物料处理装置,通过获取源图片物料,并对源图片物料进行过滤以生成待处理图片物料,然后提取待处理图片物料的信息特征,并确定待处理图片物料的目标区域,并根据目标区域对待处理图片物料进行处理以生成供搜索引擎使用的图片,通过利用深度学习处理技术对待处理图片进行处理后可为搜索引擎提供充足、丰富且高质量的图片物料,能够适应不同的搜索引擎产品规范和要求、满足网民对高质量的图片的需求,一方面有利于图片对应的结果的推广和普及,另一方面,能够更好的满足网民可具象化的需求,符合网民不同场景下的搜索要求,提升了网民体验。
此外,本发明的实施例有利于将图片物料处理技术进行大规模应用并形成标准流程化操作,通过对此流程进行工具化的封装,能够支持长期大批量的数据处理,为搜索引擎提供丰富、充足、高质量的图片来源。并且,能够针对不同行业属性、不同规模的客户,根据客户自身所有的图片物料,最大程度利用资源,生成每一位客户独立的图片数据库,并跟随数据源的变化不断更新。
本发明第三方面实施例提出了一种搜索引擎,包括本发明第二方面实施例的用于搜索引擎的图片物料处理装置。
本发明实施例的搜索引擎,通过获取源图片物料,并对源图片物料进行过滤以生成待处理图片物料,然后提取待处理图片物料的信息特征,并确定待处理图片物料的目标区域,并根据目标区域对待处理图片物料进行处理以生成供搜索引擎使用的图片,通过利用深度学习处理技术对待处理图片进行处理后可为搜索引擎提供充足、丰富且高质量的图片物料,能够适应不同的搜索引擎产品规范和要求、满足网民对高质量的图片的需求,一方面有利于图片对应的结果的推广和普及,另一方面,能够更好的满足网民可具象化的需求,符合网民不同场景下的搜索要求,提升了网民体验。
此外,本发明的实施例有利于将图片物料处理技术进行大规模应用并形成标准流程化操作,通过对此流程进行工具化的封装,能够支持长期大批量的数据处理,为搜索引擎提供丰富、充足、高质量的图片来源。并且,能够针对不同行业属性、不同规模的客户,根据客户自身所有的图片物料,最大程度利用资源,生成每一位客户独立的图片数据库,并跟随数据源的变化不断更新。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的用于搜索引擎的图片物料处理方法的流程图;
图2a为根据本发明一个实施例的待处理图片物料的示意图;
图2b和图2c为根据本发明实施例的根据图2a所示待处理图片物料生成的图片的示意图;
图2d为根据本发明另一个实施例的待处理图片物料的示意图;
图2e和图2f为根据本发明实施例的根据图2d所示待处理图片物料生成的图片的示意图;
图3为根据本发明另一个实施例的用于搜索引擎的图片物料处理方法的流程图;
图4为根据本发明又一个实施例的用于搜索引擎的图片物料处理方法的流程图;
图5为根据本发明一个实施例的用于搜索引擎的图片物料处理装置的结构示意图;
图6为根据本发明另一个实施例的用于搜索引擎的图片物料处理装置的结构示意图;
图7为根据本发明又一个实施例的用于搜索引擎的图片物料处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
由于搜索引擎的不同产品,在不同的场景下,对图片物料有标准化和规范化的要求,例如必须满足特定尺寸,不能包含非法信息,不能出现让网民感到不适、伤害网民体验的信息,不能出现过于简单无实质内容的信息,因此,为了能够为搜索引擎提供更丰富,质量更高、符合搜索引擎标准和规范的图片物料,以更好地满足网民的搜索需求,本发明提出了一种用于搜索引擎的图片物料处理方法、装置和搜索引擎。下面参考附图描述根据本发明实施例的用于搜索引擎的图片物料处理方法、装置和搜索引擎。
其中,网民是指使用搜索引擎输入搜索关键词进行搜索,以获得自身所需要的信息的群体。
一种用于搜索引擎的图片物料处理方法,包括以下步骤:获取源图片物料;对源图片物料进行过滤以生成待处理图片物料;对待处理图片物料进行特征提取以生成待处理图片物料对应的信息特征;根据待处理图片物料对应的信息特征确定待处理图片物料的目标区域;以及根据目标区域对待处理图片物料进行处理以生成图片。
图1为根据本发明一个实施例的用于搜索引擎的图片物料处理方法的流程图。
如图1所示,根据本发明实施例的用于搜索引擎的图片物料处理方法,包括:
S101,获取源图片物料。
目前,互联网上有充足的多媒体物料来源,如一些客户自身的站点、拥有版权的物料库以及由开发者或者客户设计并上传的图片资源等。因此,在本发明的实施例中,获得授权许可的前提下,可通过多渠道来源获取源图片物料。例如,收集互联网中各个站点中的图片、获得第三方版权物料库的授权后从物料库中获取图片等。当然,也可以自建源图片物料、获取或接收开发者或者客户设计后提供或上传的图片等。
其中,客户是指使用搜索引擎出图商业产品,购买了搜索关键词的广告主。
S102,对源图片物料进行过滤以生成待处理图片物料。
在本发明的实施例中,可过滤掉源图片物料中的已损坏的图片、尺寸不满足最低要求的图片(如长和/或宽小于最低要求)、信息量过少的图片(如二维码图片、纯色图片等)、质量低(不清晰)的图片、包含不当信息的图片等。
其中,不当信息可包括但不限于非法内容(如色情、暴力内容)、使网民感到不适的内容(如网民看到会感到恶心的内容)等。
具体地,可采用OCR(Optical Character Recognition,光学字符识别)、主体区域识别(如,可通过通用目标检测框技术进行主体区域识别)、人脸识别、特殊图片识别模型等技术对源图片物料中的文字、内容等进行识别以及信息提取分析,以识别出不当信息。当然,本发明对信息提取分析的方法不做限定,也可使用其他方法或模型对源图片物料进行信息提取分析。
S103,对待处理图片物料进行特征提取以生成待处理图片物料对应的信息特征。
在本发明的一个实施例中,可根据对待处理图片物料的图像识别结果进行分析以提取出待处理图片物料的信息特征。其中,信息特征可包括但不限于人脸、人物、文字、主体区域、前景、背景、地域、自然环境等。
具体的识别分析方法可参照相关技术,在此不再赘述。
其中,待处理图片物料的图像识别结果可以是S102中的识别结果,或者利用其他识别技术进行更精准的识别,在此对识别技术不进行一一列举。
此外,由于有些图片时由一张或多张独立的图片拼接而成的图片(拼接图),这类图片中包含着2张以上的独立子图。因此,为了能够识别出拼接图,并对拼接图中的对子图进行准确拆分,提高信息特征提取的准确度,在本发明的一个实施例中,还需要先进行拼接图识别,并对识别出的拼接图拆分为独立的子图,并分别提取每个子图的信息特征。
S104,根据待处理图片物料对应的信息特征确定待处理图片物料的目标区域。
由于人脸信息在一张图中十分重要,在裁剪图片时保留人脸信息可以起到加分作用,在裁剪图片时可以根据人脸所在区域提供禁止裁图的区域,从而避免出现人脸被裁剪掉一半的情况。另外,由于文字不容易被完整包含在裁剪图中,并且文字在缩放过程中很容易造成模糊,因此,优质裁剪图不应该含有大量的文字。根据经验可知,前景区域的信息量非常重要,目标区域在前景范围内更容易获得有意义的图像信息。
因此,在本发明的一个实施例中,可对提取的信息特征进行分析,通过获取的人脸、人物、文字、主体区域、前景背景等信息特征,确定待处理图片物料的目标区域。
具体地,对于待处理图片物料或者其子图,如果图片的尺寸与预设的目标区域的尺寸(长宽)的误差小于预设范围,则可将该待处理图片物料或者子图作为待处理图片物料的目标区域。否则,需要从待处理图片物料或者子图上确定目标区域。更具体地,可通过算法确定待处理图片物料或者子图中覆盖人脸最多、覆盖文字最少,且前景和主体区域占待处理图片物料或子图的面积大于预设面积阈值的区域,并将该区域作为目标区域。
举例来说,可先确定待处理图片物料或者子图中覆盖人脸最多的主体区域,然后对这个区域进行长宽调整,以使该区域的尺寸满足预设的目标区域的尺寸,之后进行边界调整以躲避人脸和文字区域。最后,对进行边界调整之后的区域进行置信度估计,即根据该区域包含的人脸数、包含的文字数、包含的前景面积、包含的主体面积、变形程度等信息进行综合考察,并将满足置信度要求的区域确定为目标区域。
S105,根据目标区域对待处理图片物料进行处理以生成图片。
在本发明的一个实施例中,根据目标区域对待处理图片物料进行处理可具体包括:根据目标区域对待处理图片物料进行裁剪并缩放。
具体地,可根据目标区域从待处理图片物料中裁剪出来,并将裁剪得到的图片缩放至目标尺寸,得到最终的图片。
举例来说,对于图2a所示的待处理图片物料,通过S103-S105的步骤,可裁剪并缩小为如图2b所示的长方形图片,或缩小为如图2c所示的正方形图片。由此,搜索引擎将处理后的图片作为搜索结果提供给网民时,就不会因为图片尺寸太大而占据大部分搜索结果界面而导致网民无法获取全面的搜索结果信息,提升了网民体验。
本发明实施例的用于搜索引擎的图片物料处理方法,通过获取源图片物料,并对源图片物料进行过滤以生成待处理图片物料,然后提取待处理图片物料的信息特征,并确定待处理图片物料的目标区域,并根据目标区域对待处理图片物料进行处理以生成供搜索引擎使用的图片,通过利用深度学习处理技术对待处理图片进行处理后可为搜索引擎提供充足、丰富且高质量的图片物料,能够适应不同的搜索引擎产品规范和要求、满足网民对高质量的图片的需求,一方面有利于图片对应的结果的推广和普及,另一方面,能够更好的满足网民可具象化的需求,符合网民不同场景下的搜索要求,提升了网民体验。
此外,本发明的实施例有利于将图片物料处理技术进行大规模应用并形成标准流程化操作,通过对此流程进行工具化的封装,能够支持长期大批量的数据处理,为搜索引擎提供丰富、充足、高质量的图片来源。并且,能够针对不同行业属性、不同规模的客户,根据客户自身所有的图片物料,最大程度利用资源,生成每一位客户独立的图片数据库,并跟随数据源的变化不断更新。
应当理解,在本发明的实施例中,在根据目标区域对待处理图片物料进行处理以生成图片之后,可根据图片之间的相关性,将相关的图片进行拼接,从而能够得到更多新的图片,为搜索引擎提供更丰富的图片资源,用以满足网民的搜索需求。
图3为根据本发明另一个实施例的用于搜索引擎的图片物料处理方法的流程图。
如图3所示,根据本发明实施例的用于搜索引擎的图片物料处理方法,包括:
S301,获取源图片物料。
目前,互联网上有充足的多媒体物料来源,如一些客户自身的站点、拥有版权的物料库以及由开发者或者客户设计并上传的图片资源等。因此,在本发明的实施例中,获得授权许可的前提下,可通过多渠道来源获取源图片物料。例如,收集互联网中各个站点中的图片、获得第三方版权物料库的授权后从物料库中获取图片等。当然,也可以自建源图片物料、获取或接收开发者或者客户设计后提供或上传的图片等。
其中,客户是指使用搜索引擎出图商业产品,购买了搜索关键词的广告主。
S302,对源图片物料进行过滤以生成待处理图片物料。
在本发明的实施例中,可过滤掉源图片物料中的已损坏的图片、尺寸不满足最低要求的图片(如长和/或宽小于最低要求)、信息量过少的图片(如二维码图片、纯色图片等)、质量低(不清晰)的图片、包含不当信息的图片等。
其中,不当信息可包括但不限于非法内容(如色情、暴力内容)、使网民感到不适的内容(如网民看到会感到恶心的内容)等。
具体地,可采用OCR(Optical Character Recognition,光学字符识别)、主体区域识别(如,可通过通用目标检测框技术进行主体区域识别)、人脸识别、特殊图片识别模型等技术对源图片物料中的文字、内容等进行识别以及信息提取分析,以识别出不当信息。当然,本发明对信息提取分析的方法不做限定,也可使用其他方法或模型对源图片物料进行信息提取分析。
S303,对待处理图片物料进行特征提取以生成待处理图片物料对应的信息特征。
在本发明的一个实施例中,可根据对待处理图片物料的图像识别结果进行分析以提取出待处理图片物料的信息特征。其中,信息特征可包括但不限于人脸、人物、文字、主体区域、前景、背景、地域、自然环境等。具体的识别分析方法可参照相关技术,在此不再赘述。
其中,待处理图片物料的图像识别结果可以是S302中的识别结果,或者利用其他识别技术进行更精准的识别,在此对识别技术不进行一一列举。
此外,由于有些图片时由一张或多张独立的图片拼接而成的图片(拼接图),这类图片中包含着2张以上的独立子图。因此,为了能够识别出拼接图,并对拼接图中的对子图进行准确拆分,提高信息特征提取的准确度,在本发明的一个实施例中,还需要先进行拼接图识别,并对识别出的拼接图拆分为独立的子图,并分别提取每个子图的信息特征。
S304,根据待处理图片物料对应的信息特征确定待处理图片物料的目标区域。
由于人脸信息在一张图中十分重要,在裁剪图片时保留人脸信息可以起到加分作用,在裁剪图片时可以根据人脸所在区域提供禁止裁图的区域,从而避免出现人脸被裁剪掉一半的情况。另外,由于文字不容易被完整包含在裁剪图中,并且文字在缩放过程中很容易造成模糊,因此,优质裁剪图不应该含有大量的文字。根据经验可知,前景区域的信息量非常重要,目标区域在前景范围内更容易获得有意义的图像信息。
因此,在本发明的一个实施例中,可对提取的信息特征进行分析,通过获取的人脸、人物、文字、主体区域、前景背景等信息特征,确定待处理图片物料的目标区域。
具体地,对于待处理图片物料或者其子图,如果图片的尺寸与预设的目标区域的尺寸(长宽)的误差小于预设范围,则可将该待处理图片物料或者子图作为待处理图片物料的目标区域。否则,需要从待处理图片物料或者子图上确定目标区域。更具体地,可通过算法确定待处理图片物料或者子图中覆盖人脸最多、覆盖文字最少,且前景和主体区域占待处理图片物料或子图的面积大于预设面积阈值的区域,并将该区域作为目标区域。
举例来说,可先确定待处理图片物料或者子图中覆盖人脸最多的主体区域,然后对这个区域进行长宽调整,以使该区域的尺寸满足预设的目标区域的尺寸,之后进行边界调整以躲避人脸和文字区域。最后,对进行边界调整之后的区域进行置信度估计,即根据该区域包含的人脸数、包含的文字数、包含的前景面积、包含的主体面积、变形程度等信息进行综合考察,并将满足置信度要求的区域确定为目标区域。
S305,根据目标区域对待处理图片物料进行处理以生成图片。
在本发明的一个实施例中,根据目标区域对待处理图片物料进行处理可具体包括:根据目标区域对待处理图片物料进行裁剪并缩放。
具体地,可根据目标区域从待处理图片物料中裁剪出来,并将裁剪得到的图片缩放至目标尺寸,得到最终的图片。
举例来说,对于图2a所示的待处理图片物料,通过S303-S305的步骤,可裁剪并缩小为如图2b所示的长方形图片,或缩小为如图2c所示的正方形图片。由此,搜索引擎将处理后的图片作为搜索结果提供给网民时,就不会因为图片尺寸太大而占据大部分搜索结果界面而导致网民无法获取全面的搜索结果信息,提升了网民体验。
S306,根据待处理图片物料对应的信息特征对处理后生成的图片进行评分,其中,搜索引擎根据评分结果选择使用。
在本发明的实施例中,可评估人脸、文字、主体区域、前景面积等信息特征的保留完整性和裁剪质量,并设定不同信息特征的权重,结合图片变形程度,综合计算出图片质量对应的评分。
具体地,根据待处理图片物料对应的信息特征对处理后生成的图片进行评分具体包括:根据所述待处理图片物料对应的信息特征确定所述处理后生成的图片的质量参数;根据所述质量参数生成所述处理后生成的图片的评分。
其中,质量参数,即图片质量可包括但不限于内容丰富程度、主体完整性、信息表述是否直观等。
举例来说,可对每个质量参数设定一个基础分值,如果一个质量参数满足其对应的质量要求(例如主体保留完整),即进行加分,如果不满足质量要求,则进行减分。由此,通过设定覆盖面尽可能广的质量参数的质量要求,得到每个质量参数对应的质量分数,然后将各个质量参数对应的质量分数进行求和得到图片的评分。在本发明的一个实施例中,可预先设定每个质量参数对应的权重,从而对各个质量参数对应的质量分数进行加权求和得到图片的评分。
在本发明的一个实施例中,可通过设定分数阈值判断图片是否可用,即是否适合在搜索引擎上展现给网民。如果图片的评分低于分数阈值,则认为该图片的质量不符合搜索引擎展现要求,进行过滤处理,不予使用。如果图片的评分不低于分数阈值,则认为该图片的质量符合搜索引擎展现要求,可作为搜索引擎的可用图片。搜索引擎在提供搜索结果时,可按照评分高低选择符合网民需求的图片,并展示给网民。
举例来说,对于图2d所示的图片中的标的物体在图2e和图2f两个裁剪结果中的信息保留程度有差异,其中图2e所示的图片保留了完整信息,图2f所示的图片裁剪掉了部分信息,因此图2e所示的图片的评分为10分,图2f所示的图片的评分为0分。
由此,搜索引擎可根据评分结果,将与网民的搜索需求相符且评分较高的图片提供给网民,从而网民能够得到高质量的搜索结果,提升了网民的搜索体验。
本发明实施例的用于搜索引擎的图片物料处理方法,可根据待处理图片物料对应的信息特征对处理后生成的图片进行评分,以使搜索引擎根据评分结果选择相应的图片作为搜索结果提供给网民,使网民能够获得高质量的搜索结果,提升了网民的搜索体验。
图4为根据本发明又一个实施例的用于搜索引擎的图片物料处理方法的流程图。
如图4所示,根据本发明实施例的用于搜索引擎的图片物料处理方法,包括:
S401,获取源图片物料。
目前,互联网上有充足的多媒体物料来源,如一些客户自身的站点、拥有版权的物料库以及由开发者或者客户设计并上传的图片资源等。因此,在本发明的实施例中,获得授权许可的前提下,可通过多渠道来源获取源图片物料。例如,收集互联网中各个站点中的图片、获得第三方版权物料库的授权后从物料库中获取图片等。当然,也可以自建源图片物料、获取或接收开发者或者客户设计后提供或上传的图片等。
其中,客户是指使用搜索引擎出图商业产品,购买了搜索关键词的广告主。
S402,对源图片物料进行过滤以生成待处理图片物料。
在本发明的实施例中,可过滤掉源图片物料中的已损坏的图片、尺寸不满足最低要求的图片(如长和/或宽小于最低要求)、信息量过少的图片(如二维码图片、纯色图片等)、质量低(不清晰)的图片、包含不当信息的图片等。
其中,不当信息可包括但不限于非法内容(如色情、暴力内容)、使网民感到不适的内容(如网民看到会感到恶心的内容)等。
具体地,可采用OCR(Optical Character Recognition,光学字符识别)、主体区域识别(如,可通过通用目标检测框技术进行主体区域识别)、人脸识别、特殊图片识别模型等技术对源图片物料中的文字、内容等进行识别以及信息提取分析,以识别出不当信息。当然,本发明对信息提取分析的方法不做限定,也可使用其他方法或模型对源图片物料进行信息提取分析。
S403,对待处理图片物料进行特征提取以生成待处理图片物料对应的信息特征。
在本发明的一个实施例中,可根据对待处理图片物料的图像识别结果进行分析以提取出待处理图片物料的信息特征。其中,信息特征可包括但不限于人脸、人物、文字、主体区域、前景、背景、地域、自然环境等。具体的识别分析方法可参照相关技术,在此不再赘述。
其中,待处理图片物料的图像识别结果可以是S402中的识别结果,或者利用其他识别技术进行更精准的识别,在此对识别技术不进行一一列举。
此外,由于有些图片时由一张或多张独立的图片拼接而成的图片(拼接图),这类图片中包含着2张以上的独立子图。因此,为了能够识别出拼接图,并对拼接图中的对子图进行准确拆分,提高信息特征提取的准确度,在本发明的一个实施例中,还需要先进行拼接图识别,并对识别出的拼接图拆分为独立的子图,并分别提取每个子图的信息特征。
S404,根据待处理图片物料对应的信息特征确定待处理图片物料的目标区域。
由于人脸信息在一张图中十分重要,在裁剪图片时保留人脸信息可以起到加分作用,在裁剪图片时可以根据人脸所在区域提供禁止裁图的区域,从而避免出现人脸被裁剪掉一半的情况。另外,由于文字不容易被完整包含在裁剪图中,并且文字在缩放过程中很容易造成模糊,因此,优质裁剪图不应该含有大量的文字。根据经验可知,前景区域的信息量非常重要,目标区域在前景范围内更容易获得有意义的图像信息。
因此,在本发明的一个实施例中,可对提取的信息特征进行分析,通过获取的人脸、人物、文字、主体区域、前景背景等信息特征,确定待处理图片物料的目标区域。
具体地,对于待处理图片物料或者其子图,如果图片的尺寸与预设的目标区域的尺寸(长宽)的误差小于预设范围,则可将该待处理图片物料或者子图作为待处理图片物料的目标区域。否则,需要从待处理图片物料或者子图上确定目标区域。更具体地,可通过算法确定待处理图片物料或者子图中覆盖人脸最多、覆盖文字最少,且前景和主体区域占待处理图片物料或子图的面积大于预设面积阈值的区域,并将该区域作为目标区域。
举例来说,可先确定待处理图片物料或者子图中覆盖人脸最多的主体区域,然后对这个区域进行长宽调整,以使该区域的尺寸满足预设的目标区域的尺寸,之后进行边界调整以躲避人脸和文字区域。最后,对进行边界调整之后的区域进行置信度估计,即根据该区域包含的人脸数、包含的文字数、包含的前景面积、包含的主体面积、变形程度等信息进行综合考察,并将满足置信度要求的区域确定为目标区域。
S405,根据目标区域对待处理图片物料进行处理以生成图片。
在本发明的一个实施例中,根据目标区域对待处理图片物料进行处理可具体包括:根据目标区域对待处理图片物料进行裁剪并缩放。
具体地,可根据目标区域从待处理图片物料中裁剪出来,并将裁剪得到的图片缩放至目标尺寸,得到最终的图片。
举例来说,对于图2a所示的待处理图片物料,通过S403-S405的步骤,可裁剪并缩小为如图2b所示的长方形图片,或缩小为如图2c所示的正方形图片。由此,搜索引擎将处理后的图片作为搜索结果提供给网民时,就不会因为图片尺寸太大而占据大部分搜索结果界面而导致网民无法获取全面的搜索结果信息,提升了网民体验。
S406,根据网民所请求的查询词,对多个图片或者图片与文字进行拼接。
在本发明的实施例中,当网民进行搜索时,搜索引擎可根据网民的查询词获取与该查询出相关的文字,并从预先经过上述处理得到的图片中获取与该查询相关的图片,然后对这些图片进行拼接,或者将图片与文字进行拼接,得到信息更加丰富的拼接图,从而能够为网民提供更丰富的搜索结果和资源。
例如,对于一家教育客户,名称为“XXX汽修学校”,客户自己提交的物料仅包含自身的企业logo。另外,还可从该客户的网站上获得的学校的环境、住宿生活条件、教学设施、训练设备和场地、所获奖项等相关的图片物料。通过本发明实施例,可根据该企业logo、学校的环境、住宿生活条件、教学设施、训练设备和场地、所获奖项等相关的图片物料进行裁剪、缩放、拼接,从而得到数量远远多于客户自己提交的,质量较好且更丰富的图片。
S407,根据待处理图片物料对应的信息特征对处理后生成的图片进行评分,其中,搜索引擎根据评分结果选择使用。
在本发明的实施例中,可评估人脸、文字、主体区域、前景面积等信息特征的保留完整性和裁剪质量,并设定不同信息特征的权重,结合图片变形程度,综合计算出图片质量对应的评分。
具体地,根据待处理图片物料对应的信息特征对处理后生成的图片进行评分具体包括:根据所述待处理图片物料对应的信息特征确定所述处理后生成的图片的质量参数;根据所述质量参数生成所述处理后生成的图片的评分。
其中,质量参数,即图片质量可包括但不限于内容丰富程度、主体完整性、信息表述是否直观等。
举例来说,可对每个质量参数设定一个基础分值,如果一个质量参数满足其对应的质量要求(例如主体保留完整),即进行加分,如果不满足质量要求,则进行减分。由此,通过设定覆盖面尽可能广的质量参数的质量要求,得到每个质量参数对应的质量分数,然后将各个质量参数对应的质量分数进行求和得到图片的评分。在本发明的一个实施例中,可预先设定每个质量参数对应的权重,从而对各个质量参数对应的质量分数进行加权求和得到图片的评分。
在本发明的一个实施例中,可通过设定分数阈值判断图片是否可用,即是否适合在搜索引擎上展现给网民。如果图片的评分低于分数阈值,则认为该图片的质量不符合搜索引擎展现要求,进行过滤处理,不予使用。如果图片的评分不低于分数阈值,则认为该图片的质量符合搜索引擎展现要求,可作为搜索引擎的可用图片。搜索引擎在提供搜索结果时,可按照评分高低选择符合网民需求的图片,并展示给网民。
举例来说,对于图2d所示的图片中的标的物体在图2e和图2f两个裁剪结果中的信息保留程度有差异,其中图2e所示的图片保留了完整信息,图2f所示的图片裁剪掉了部分信息,因此图2e所示的图片的评分为10分,图2f所示的图片的评分为0分。
由此,搜索引擎可根据评分结果,将与网民的搜索需求相符且评分较高的图片提供给网民,从而网民能够得到高质量的搜索结果,提升了网民的搜索体验。
其中,S407也可在S406之前。
本发明实施例的用于搜索引擎的图片物料处理方法,可根据网民所请求的查询词,对多个图片或图片与文字进行拼接,得到信息更加丰富的拼接图,拓展了图片来源,更好地满足网民需求,进一步提升了网民体验。
为了实现上述实施例,本发明还提出一种用于搜索引擎的图片物料处理装置。
一种用于搜索引擎的图片物料处理装置,包括:获取模块,用于获取源图片物料;过滤模块,用于对源图片物料进行过滤以生成待处理图片物料;特征提取模块,用于对待处理图片物料进行特征提取以生成待处理图片物料对应的信息特征;确定模块,用于根据待处理图片物料对应的信息特征确定待处理图片物料的目标区域;以及生成模块,用于根据目标区域对待处理图片物料进行处理以生成图片。
图5为根据本发明一个实施例的用于搜索引擎的图片物料处理装置的结构示意图。
如图5所示,根据本发明实施例的用于搜索引擎的图片物料处理装置,包括:获取模块10、过滤模块20、特征提取模块30、确定模块40和生成模块50。
具体地,获取模块10用于获取源图片物料。
目前,互联网上有充足的多媒体物料来源,如一些客户自身的站点、拥有版权的物料库以及由开发者或者客户设计并上传的图片资源等。因此,在本发明的实施例中,获得授权许可的前提下,获取模块10可通过多渠道来源获取源图片物料。例如,收集互联网中各个站点中的图片、获得第三方版权物料库的授权后从物料库中获取图片等。当然,也可以自建源图片物料、获取或接收开发者或者客户设计后提供或上传的图片等。其中,客户是指使用搜索引擎出图商业产品,购买了搜索关键词的广告主。
过滤模块20用于对源图片物料进行过滤以生成待处理图片物料。
在本发明的实施例中,过滤模块20可过滤掉源图片物料中的已损坏的图片、尺寸不满足最低要求的图片(如长和/或宽小于最低要求)、信息量过少的图片(如二维码图片、纯色图片等)、质量低(不清晰)的图片、包含不当信息的图片等。
其中,不当信息可包括但不限于非法内容(如色情、暴力内容)、使网民感到不适的内容(如网民看到会感到恶心的内容)等。
具体地,过滤模块20可采用OCR(Optical Character Recognition,光学字符识别)、主体区域识别(如,可通过通用目标检测框技术进行主体区域识别)、人脸识别、特殊图片识别模型等技术对源图片物料中的文字、内容等进行识别以及信息提取分析,以识别出不当信息。当然,本发明对信息提取分析的方法不做限定,也可使用其他方法或模型对源图片物料进行信息提取分析。
特征提取模块30用于对待处理图片物料进行特征提取以生成待处理图片物料对应的信息特征。
在本发明的一个实施例中,特征提取模块30可根据对待处理图片物料的图像识别结果进行分析以提取出待处理图片物料的信息特征。其中,信息特征可包括但不限于人脸、人物、文字、主体区域、前景、背景、地域、自然环境等。
具体的识别分析方法可参照相关技术,在此不再赘述。
其中,待处理图片物料的图像识别结果可以是过滤模块20在过滤过程中得到的识别结果,或者利用其他识别技术进行更精准的识别,在此对识别技术不进行一一列举。
此外,由于有些图片时由一张或多张独立的图片拼接而成的图片(拼接图),这类图片中包含着2张以上的独立子图。因此,为了能够识别出拼接图,并对拼接图中的对子图进行准确拆分,提高信息特征提取的准确度,在本发明的一个实施例中,还需要先进行拼接图识别,并对识别出的拼接图拆分为独立的子图,并分别提取每个子图的信息特征。
确定模块40用于根据待处理图片物料对应的信息特征确定待处理图片物料的目标区域。
由于人脸信息在一张图中十分重要,在裁剪图片时保留人脸信息可以起到加分作用,在裁剪图片时可以根据人脸所在区域提供禁止裁图的区域,从而避免出现人脸被裁剪掉一半的情况。另外,由于文字不容易被完整包含在裁剪图中,并且文字在缩放过程中很容易造成模糊,因此,优质裁剪图不应该含有大量的文字。根据经验可知,前景区域的信息量非常重要,目标区域在前景范围内更容易获得有意义的图像信息。
因此,在本发明的一个实施例中,确定模块40可对提取的信息特征进行分析,通过获取的人脸、人物、文字、主体区域、前景背景等信息特征,确定待处理图片物料的目标区域。
更具体地,对于待处理图片物料或者其子图,如果图片的尺寸与预设的目标区域的尺寸(长宽)的误差小于预设范围,则确定模块40可将该待处理图片物料或者子图作为待处理图片物料的目标区域。否则,需要从待处理图片物料或者子图上确定目标区域。更具体地,可通过算法确定待处理图片物料或者子图中覆盖人脸最多、覆盖文字最少,且前景和主体区域占待处理图片物料或子图的面积大于预设面积阈值的区域,并将该区域作为目标区域。
举例来说,确定模块40可先确定待处理图片物料或者子图中覆盖人脸最多的主体区域,然后对这个区域进行长宽调整,以使该区域的尺寸满足预设的目标区域的尺寸,之后进行边界调整以躲避人脸和文字区域。最后,确定模块40对进行边界调整之后的区域进行置信度估计,即根据该区域包含的人脸数、包含的文字数、包含的前景面积、包含的主体面积、变形程度等信息进行综合考察,并将满足置信度要求的区域确定为目标区域。
生成模块50用于根据目标区域对待处理图片物料进行处理以生成图片。
在本发明的一个实施例中,生成模块50可具体用于:根据目标区域对待处理图片物料进行裁剪并缩放。
更具体地,生成模块50可根据目标区域从待处理图片物料中裁剪出来,并将裁剪得到的图片缩放至目标尺寸,得到最终的图片。
举例来说,对于图2a所示的待处理图片物料,通过特征提取模块30、确定模块40和生成模块50可将其裁剪并缩小为如图2b所示的长方形图片,或缩小为如图2c所示的正方形图片。由此,搜索引擎将处理后的图片作为搜索结果提供给网民时,就不会因为图片尺寸太大而占据大部分搜索结果界面而导致网民无法获取全面的搜索结果信息,提升了网民体验。
本发明实施例的用于搜索引擎的图片物料处理装置,通过获取源图片物料,并对源图片物料进行过滤以生成待处理图片物料,然后提取待处理图片物料的信息特征,并确定待处理图片物料的目标区域,并根据目标区域对待处理图片物料进行处理以生成供搜索引擎使用的图片,通过利用深度学习处理技术对待处理图片进行处理后可为搜索引擎提供充足、丰富且高质量的图片物料,能够适应不同的搜索引擎产品规范和要求、满足网民对高质量的图片的需求,一方面有利于图片对应的结果的推广和普及,另一方面,能够更好的满足网民可具象化的需求,符合网民不同场景下的搜索要求,提升了网民体验。
此外,本发明的实施例有利于将图片物料处理技术进行大规模应用并形成标准流程化操作,通过对此流程进行工具化的封装,能够支持长期大批量的数据处理,为搜索引擎提供丰富、充足、高质量的图片来源。并且,能够针对不同行业属性、不同规模的客户,根据客户自身所有的图片物料,最大程度利用资源,生成每一位客户独立的图片数据库,并跟随数据源的变化不断更新。
应当理解,在本发明的实施例中,在根据目标区域对待处理图片物料进行处理以生成图片之后,可根据图片之间的相关性,将相关的图片进行拼接,从而能够得到更多新的图片,为搜索引擎提供更丰富的图片资源,用以满足网民的搜索需求。
图6为根据本发明另一个实施例的用于搜索引擎的图片物料处理装置的结构示意图。
如图6所示,根据本发明实施例的用于搜索引擎的图片物料处理装置,包括:获取模块10、过滤模块20、特征提取模块30、确定模块40、生成模块50和评分模块60。
具体地,获取模块10、过滤模块20、特征提取模块30、确定模块40和生成模块50可参照图5所示实施例,在此不再赘述。
评分模块60用于根据待处理图片物料对应的信息特征对处理后生成的图片进行评分,其中,搜索引擎根据评分结果选择使用。
在本发明的实施例中,评分模块60可评估人脸、文字、主体区域、前景面积等信息特征的保留完整性和裁剪质量,并设定不同信息特征的权重,结合图片变形程度,综合计算出图片质量对应的评分。
更具体地,评分模块60可具体用于:根据所述待处理图片物料对应的信息特征确定所述处理后生成的图片的质量参数;根据所述质量参数生成所述处理后生成的图片的评分。
其中,质量参数,即图片质量可包括但不限于内容丰富程度、主体完整性、信息表述是否直观等。
举例来说,评分模块60可对每个质量参数设定一个基础分值,如果一个质量参数满足其对应的质量要求(例如主体保留完整),即进行加分,如果不满足质量要求,则进行减分。由此,通过设定覆盖面尽可能广的质量参数的质量要求,得到每个质量参数对应的质量分数,然后将各个质量参数对应的质量分数进行求和得到图片的评分。在本发明的一个实施例中,可预先设定每个质量参数对应的权重,从而对各个质量参数对应的质量分数进行加权求和得到图片的评分。
在本发明的一个实施例中,可通过设定分数阈值判断图片是否可用,即是否适合在搜索引擎上展现给网民。如果图片的评分低于分数阈值,则认为该图片的质量不符合搜索引擎展现要求,进行过滤处理,不予使用。如果图片的评分不低于分数阈值,则认为该图片的质量符合搜索引擎展现要求,可作为搜索引擎的可用图片。搜索引擎在提供搜索结果时,可按照评分高低选择符合网民需求的图片,并展示给网民。
举例来说,对于图2d所示的图片中的标的物体在图2e和图2f两个裁剪结果中的信息保留程度有差异,其中图2e所示的图片保留了完整信息,图2f所示的图片裁剪掉了部分信息,因此图2e所示的图片的评分为10分,图2f所示的图片的评分为0分。
由此,搜索引擎可根据评分结果,将与网民的搜索需求相符且评分较高的图片提供给网民,从而网民能够得到高质量的搜索结果,提升了网民的搜索体验。
本发明实施例的用于搜索引擎的图片物料处理装置,可根据待处理图片物料对应的信息特征对处理后生成的图片进行评分,以使搜索引擎根据评分结果选择相应的图片作为搜索结果提供给网民,使网民能够获得高质量的搜索结果,提升了网民的搜索体验。
图7为根据本发明又一个实施例的用于搜索引擎的图片物料处理装置的结构示意图。
如图7所示,根据本发明实施例的用于搜索引擎的图片物料处理装置,包括:获取模块10、过滤模块20、特征提取模块30、确定模块40、生成模块50、评分模块60和拼接模块70。
具体地,获取模块10、过滤模块20、特征提取模块30、确定模块40、生成模块50和评分模块60可参照图6所示实施例,在此不再赘述。
拼接模块70用于根据网民所请求的查询词,对多个图片或者图片与文字进行拼接。
在本发明的实施例中,当网民进行搜索时,拼接模块70可根据网民的查询词获取与该查询出相关的文字,并从预先经过上述处理得到的图片中获取与该查询相关的图片,然后对这些图片进行拼接,或者将图片与文字进行拼接,得到信息更加丰富的拼接图,从而能够为网民提供更丰富的搜索结果和资源。
例如,对于一家教育客户,名称为“XXX汽修学校”,客户自己提交的物料仅包含自身的企业logo。另外,还可从该客户的网站上获得的学校的环境、住宿生活条件、教学设施、训练设备和场地、所获奖项等相关的图片物料。通过本发明实施例,可根据该企业logo、学校的环境、住宿生活条件、教学设施、训练设备和场地、所获奖项等相关的图片物料进行裁剪、缩放、拼接,从而得到数量远远多于客户自己提交的,质量较好且更丰富的图片。
本发明实施例的用于搜索引擎的图片物料处理装置,可根据网民所请求的查询词,对多个图片或图片与文字进行拼接,得到信息更加丰富的拼接图,拓展了图片来源,更好地满足网民需求,进一步提升了网民体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种用于搜索引擎的图片物料处理方法,其特征在于,包括以下步骤:
获取源图片物料;
对所述源图片物料进行过滤以生成待处理图片物料;
对所述待处理图片物料进行特征提取以生成所述待处理图片物料对应的信息特征;
根据所述待处理图片物料对应的信息特征确定所述待处理图片物料的目标区域;以及
根据所述目标区域对所述待处理图片物料进行处理以生成图片。
2.如权利要求1所述的用于搜索引擎的图片物料处理方法,其特征在于,所述根据所述目标区域对所述待处理图片物料进行处理具体包括:
根据所述目标区域对所述待处理图片物料进行裁剪并缩放。
3.如权利要求1所述的用于搜索引擎的图片物料处理方法,其特征在于,还包括:
根据所述待处理图片物料对应的信息特征对处理后生成的图片进行评分,其中,所述搜索引擎根据所述评分结果选择使用。
4.如权利要求3所述的用于搜索引擎的图片物料处理方法,其特征在于,所述根据所述待处理图片物料对应的信息特征对处理后生成的图片进行评分具体包括:
根据所述待处理图片物料对应的信息特征确定所述处理后生成的图片的质量参数;
根据所述质量参数生成所述处理后生成的图片的评分。
5.如权利要求1所述的用于搜索引擎的图片物料处理方法,其特征在于,还包括:
根据网民所请求的查询词,对多个所述图片或者所述图片与文字进行拼接。
6.一种用于搜索引擎的图片物料处理装置,其特征在于,包括:
获取模块,用于获取源图片物料;
过滤模块,用于对所述源图片物料进行过滤以生成待处理图片物料;
特征提取模块,用于对所述待处理图片物料进行特征提取以生成所述待处理图片物料对应的信息特征;
确定模块,用于根据所述待处理图片物料对应的信息特征确定所述待处理图片物料的目标区域;以及
生成模块,用于根据所述目标区域对所述待处理图片物料进行处理以生成图片。
7.如权利要求6所述的用于搜索引擎的图片物料处理装置,其特征在于,所述生成模块具体用于:
根据所述目标区域对所述待处理图片物料进行裁剪并缩放。
8.如权利要求6所述的用于搜索引擎的图片物料处理装置,其特征在于,还包括:
评分模块,用于根据所述待处理图片物料对应的信息特征对处理后生成的图片进行评分,其中,所述搜索引擎根据所述评分结果选择使用。
9.如权利要求8所述的用于搜索引擎的图片物料处理装置,其特征在于,所述评分模块具体用于:
根据所述待处理图片物料对应的信息特征确定所述处理后生成的图片的质量参数;
根据所述质量参数生成所述处理后生成的图片的评分。
10.如权利要求6所述的用于搜索引擎的图片物料处理装置,其特征在于,还包括:
拼接模块,用于根据网民所请求的查询词,对多个所述图片或者所述图片与文字进行拼接。
11.一种搜索引擎,其特征在于,包括如权利要求6至10任一项所述的用于搜索引擎的图片物料处理装置。
CN201410841895.1A 2014-12-30 2014-12-30 用于搜索引擎的图片物料处理方法、装置和搜索引擎 Active CN104504104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410841895.1A CN104504104B (zh) 2014-12-30 2014-12-30 用于搜索引擎的图片物料处理方法、装置和搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410841895.1A CN104504104B (zh) 2014-12-30 2014-12-30 用于搜索引擎的图片物料处理方法、装置和搜索引擎

Publications (2)

Publication Number Publication Date
CN104504104A true CN104504104A (zh) 2015-04-08
CN104504104B CN104504104B (zh) 2018-09-07

Family

ID=52945502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410841895.1A Active CN104504104B (zh) 2014-12-30 2014-12-30 用于搜索引擎的图片物料处理方法、装置和搜索引擎

Country Status (1)

Country Link
CN (1) CN104504104B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016107125A1 (zh) * 2014-12-30 2016-07-07 百度在线网络技术(北京)有限公司 信息搜索方法及装置
CN108170742A (zh) * 2017-12-19 2018-06-15 百度在线网络技术(北京)有限公司 图片舆情获取方法、装置、计算机设备及存储介质
WO2020037762A1 (zh) * 2018-08-21 2020-02-27 深圳码隆科技有限公司 商品信息识别方法和系统
CN113256660A (zh) * 2021-06-04 2021-08-13 北京有竹居网络技术有限公司 图片处理方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102362491A (zh) * 2009-03-25 2012-02-22 日本胜利株式会社 缩略图生成装置及缩略图生成方法
CN102436342A (zh) * 2011-10-13 2012-05-02 上海合合信息科技发展有限公司 图像预览及处理方法
CN104063444A (zh) * 2014-06-13 2014-09-24 百度在线网络技术(北京)有限公司 缩略图的生成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102362491A (zh) * 2009-03-25 2012-02-22 日本胜利株式会社 缩略图生成装置及缩略图生成方法
CN102436342A (zh) * 2011-10-13 2012-05-02 上海合合信息科技发展有限公司 图像预览及处理方法
CN104063444A (zh) * 2014-06-13 2014-09-24 百度在线网络技术(北京)有限公司 缩略图的生成方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016107125A1 (zh) * 2014-12-30 2016-07-07 百度在线网络技术(北京)有限公司 信息搜索方法及装置
CN108170742A (zh) * 2017-12-19 2018-06-15 百度在线网络技术(北京)有限公司 图片舆情获取方法、装置、计算机设备及存储介质
WO2020037762A1 (zh) * 2018-08-21 2020-02-27 深圳码隆科技有限公司 商品信息识别方法和系统
CN113256660A (zh) * 2021-06-04 2021-08-13 北京有竹居网络技术有限公司 图片处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN104504104B (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
CN104281699B (zh) 搜索推荐方法及装置
Gready The public life of narratives: Ethics, politics, methods
CN105975558B (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
CN107657056B (zh) 基于人工智能展示评论信息的方法和装置
CN111212303B (zh) 视频推荐方法、服务器和计算机可读存储介质
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN113691836B (zh) 视频模板生成方法、视频生成方法、装置和电子设备
CN104794171B (zh) 标记图片地理位置信息的方法及装置
CN109902670A (zh) 数据录入方法及系统
CN104504104A (zh) 用于搜索引擎的图片物料处理方法、装置和搜索引擎
CN104268192A (zh) 一种网页信息提取方法、装置及终端
CN104504108A (zh) 信息搜索方法及装置
CN114465737A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112199582A (zh) 一种内容推荐方法、装置、设备及介质
CN111930976A (zh) 演示文稿生成方法、装置、设备及存储介质
CN111311601B (zh) 一种拼接图像的分割方法及装置
US11010562B2 (en) Visual storyline generation from text story
CN111008295A (zh) 书页检索方法、装置、电子设备和存储介质
DE112019006199T5 (de) Datenverarbeitungsvorrichtung, Datenverarbeitungssystem und Datenverarbeitungsverfahren und Programm
CN114579796A (zh) 机器阅读理解方法及装置
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质
CN108062333A (zh) 劣质题目数据的处理方法和装置
CN110879868A (zh) 顾问方案生成方法、装置、系统、电子设备及介质
CN112257438B (zh) 一种具有关联机制的语言知识处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant