CN104063489A - 一种确定网页图片相关度及显示检索结果的方法及装置 - Google Patents

一种确定网页图片相关度及显示检索结果的方法及装置 Download PDF

Info

Publication number
CN104063489A
CN104063489A CN201410317567.1A CN201410317567A CN104063489A CN 104063489 A CN104063489 A CN 104063489A CN 201410317567 A CN201410317567 A CN 201410317567A CN 104063489 A CN104063489 A CN 104063489A
Authority
CN
China
Prior art keywords
picture
target web
correlation
degree
described target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410317567.1A
Other languages
English (en)
Inventor
陶涛
牛正雨
郭荣锋
张梦涵
郭瑞
张岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410317567.1A priority Critical patent/CN104063489A/zh
Publication of CN104063489A publication Critical patent/CN104063489A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种确定网页图片相关度及显示检索结果的方法及装置,所述确定网页图片相关度的方法包括:获取目标网页中的图片;根据图片在目标网页中的位置、图片的周边信息和图片与目标网页主题的相关度中的至少一项,确定图片与目标网页的相关度;根据图片与目标网页之间的相关度,建立网页图片信息索引库。通过本发明公开的一种确定网页图片相关度及显示检索结果的方法及装置,可以确定图片与所述目标网页之间的相关度,建立网页图片信息索引库,并且在检索结果中显示网页主图,使得用户通过网页主图直观的获得页面主题,判断该页面是否是正确的检索结果,提高了用户检索的效率。

Description

一种确定网页图片相关度及显示检索结果的方法及装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种确定网页图片相关度及显示检索结果的方法及装置。
背景技术
随着互联网技术的发展,图文并茂形态的网页越来越多,图片可以直观向用户传达所包含的内容,尤其是网页主图,最能体现网页主题。
在当前的搜索引擎中,用户输入检索请求,检索结果展现出与检索请求相对应的网页的标题、正文摘要、更新时间等网页相关的信息。例如用户输入的检索请求为:黄杨,检索结果如图1所示。若用户无法从文字上获得正确的检索结果,则需要用户点击与网页相关的链接,跳转至网页的正文部分,查看图片,并且需要逐个查看各个图片,判断哪幅图片最能代表网页主题,进一步判断该网页是否是正确的检索结果,由此造成检索效率不高。
发明内容
本发明实施例提供一种确定网页图片相关度及显示检索结果的方法及装置,以实现提高用户的检索效率。
本发明实施例提供了一种确定网页图片相关度的方法,包括:
获取目标网页中的图片;
根据所述图片在所述目标网页中的位置、所述图片的周边信息和所述图片与目标网页主题的相关度中的至少一项,确定所述图片与所述目标网页的相关度;
根据所述图片与所述目标网页之间的相关度,建立网页图片信息索引库。
本发明实施例提供了一种显示检索结果的方法,包括:
接收用户输入的检索请求;
获取与所述检索请求相对应的检索结果;
依据网页图片信息索引库中图片与目标网页的相关度,将所述检索结果中的网页进行排序,并展示所述网页的图片。
本发明实施例提供了一种确定网页图片相关度的装置,包括:图片获取模块、相关度确定模块和网页图片信息索引库建立模块;
所述图片获取模块,用于获取目标网页中的图片;
所述相关度确定模块,用于根据所述图片在所述目标网页中的位置、所述图片的周边信息和所述图片与目标网页主题的相关度中的至少一项,确定所述图片与所述目标网页的相关度;
所述网页图片信息索引库建立模块,用于根据所述图片与所述目标网页之间的相关度,建立网页图片信息索引库。
本发明实施例还提供了一种显示检索结果的装置,包括:检索请求接收模块、检索结果获取模块和网页排序模块;
所述检索请求接收模块,用于接收用户输入的检索请求;
所述检索结果获取模块,用于获取与所述检索请求相对应的检索结果;
所述网页排序模块,用于依据网页图片信息索引库中图片与目标网页的相关度,将所述检索结果中的网页进行排序,并展示所述网页的图片。
本发明实施例通过一种确定网页图片相关度及显示检索结果的方法及装置,可以建立图片与网页的对应关系,并且在检索结果中显示网页主图,使得用户通过网页主图直观的获得页面主题,判断该页面是否是正确的检索结果,提高了用户检索的效率。
附图说明
图1为现有技术中检索结果示意图;
图2为本发明实施例一提供的一种确定网页图片相关度的方法的流程示意图;
图3为本发明实施例四提供的一种显示检索结果的方法流程示意图;
图4为本发明实施例四提供的检索结果示意图;
图5为本发明实施例五提供的一种确定网页图片相关度的装置结构示意图;
图6为本发明实施例八提供的显示检索结果的装置结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图2为本发明实施例一提供的一种确定网页图片相关度的方法的流程示意图,该方法可适用于用户使用互联网进行检索的情况下,该方法可以由确定网页图片相关度的装置来执行,该装置可以由硬件和/或软件来实现,该装置可以配置能够处理网页数据的服务器。该方法具体包括:
S201,获取目标网页中的图片;
目标网页中可以包括文本和图片,图片一般为至少一幅。
S202,根据图片在目标网页中的位置、图片的周边信息和图片与目标网页主题的相关度中的至少一项,确定图片与目标网页的相关度。
在上述操作中,图片在目标网页中的位置可以位于目标网页的正文或边框位置;图片的周边信息可以包括周边文本字样、周边标签、图片正下方的短文本和图片尺寸等信息。
S203,根据图片与目标网页之间的相关度,建立网页图片信息索引库。
在上述操作中,可以确定网页中每幅图片与该网页之间的相关度,相关度可以用百分比等量化形式进行表示,也可以将相关度划分为几类,例如确定网页的主图。优选是,图片与目标网页之间的相关度可以包括:目标网页的主体部分包含图片,其中第N张图片为目标网页的主图;或者,目标网页的边框部分包含图片,其中第N张图片为目标网页的主图,其中,N为自然数。从而,可以通过查询网页图片信息索引库,获得图片与目标网页之间的相关度。
通过本发明实施例一公开的一种确定网页图片相关度的方法,可以通过依据图片在目标网页中的位置、图片的周边标签和图片与目标网页主题的相关度中的至少一项,确定图片与目标网页的相关度。
实施例二
本实施例二在实施例一的基础上,优选是将实施例一中的操作S102,根据图片在目标网页中的位置、图片的周边信息和图片与目标网页主题的相关度中的至少一项,确定图片与目标网页的相关度,进一步优化为:如果图片的位置位于目标网页的主体部分,依据图片的周边的标签信息,确定图片与目标网页的相关度。
在上述操作中,图片的周边信息可以包括:周边文本字体样式、周边标签、正下方的短文本和尺寸等信息。则如果图片的位置位于目标网页的主体部分,依据图片的周边信息,确定图片与目标网页的相关度的方式可以包括以下至少一项:
如果图片的周边文本字体样式为预设样式,则图片为目标网页的主图,预设样式可以为字体加粗、字体颜色与其他字体颜色有明显差异;
如果图片的周边标签为预设的标签,则图片为目标网页的主图,预设的标签可以为p标签(定义段落)、center标签(对其包围的文本进行水平居中处理)和ignore_js_os标签;
如果图片正下方的短文本不是锚文本,则图片为目标网页的主图,其中,锚文本又称锚文本链接,是链接形式的一种;
如果图片尺寸位于预设的尺寸范围内,则图片为目标网页的主图。其中,尺寸中的长度与宽度可以是以像素为单位。
通过本发明实施例二公开的一种确定网页图片相关度的方法,在实施例一的基础上,可以依据图片的周边的标签信息,确定图片与目标网页的相关度。
实施例三
本实施例三在实施例一的基础上,优选是将实施例一中的操作S102,根据图片在目标网页中的位置、图片的周边信息和图片与目标网页主题的相关度中的至少一项,确定图片与目标网页的相关度,进一步优化为:如果图片的位置位于目标网页的边框部分,依据图片与目标网页主题的相关度,确定图片与目标网页的相关度。
在上述操作中,可以通过获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页主题之间的相似性,根据相似性确定图片与目标网页的相关度。
具体的,可以通过以下至少一种方式,根据相似性确定图片与目标网页的相关度:
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的共有词数量超过预设数量的图片为目标网页的主图;
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的字符串之间的编辑距离小于第一预设距离的图片为目标网页的主图;
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的字符串之间的向量距离小于预设的第二距离的图片为目标网页的主图;向量距离可以是KL距离、欧式距离、马氏距离和明氏距离中的任意一种。
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的字符串之间的向量相似度大于预设的相似度的图片为目标网页的主图;向量相似度可以是余弦夹角,Dice系数,Jaccard系数中的任意一种。
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的字符串之间的向量相关系数大于预设的相关系数的图片为目标网页的主图;向量相关系数可以是皮尔逊系数,肯德尔系数,斯皮尔曼系数。
通过本发明实施例三公开的一种确定网页图片相关度的方法,在实施例一的基础上,依据图片与目标网页主题的相关度,确定图片与目标网页的相关度。
实施例四
图3为本发明实施例四提供的一种显示检索结果的方法流程示意图;图4为本发明实施例四提供的检索结果示意图。
该方法可适用于用户使用互联网进行检索的情况下,该方法可以由显示检索结果的装置来执行,该装置可以由硬件和/或软件来实现,该装置可以配置能够处理网页数据的服务器。该方法具体包括:
S301,接收用户输入的检索请求。
在上述操作中,检索请求可以是用户在检索界面上直接输入的文字、符号、字母和数字任意的组合。
S302,获取与检索请求相对应的检索结果。
在上述操作中,可以通过无线连接或者有线连接的方式向处理页面数据的服务器发送检索请求,处理页面数据的服务器接收该检索请求,进行检索,并返回与检索请求相对应的检索结果,从而获得与检索请求相对应的检索结果。
S303,依据网页图片信息索引库中图片与目标网页的相关度,将检索结果中的网页进行排序,并展示网页的图片。
在上述操作中,检索结果可以包括两个及两个以上的网页,并可以按照网页图片信息索引库中图片与目标网页的相关度由高到低的顺序,对各个网页进行排序,优选的可以是,将检索结果中的网页的主体部分包含主图的网页,进行优先排序,并且展示的网页图片可以是与目标网页的相关度最高的图片。
在本发明实施例四中,以检索请求为“黄杨”为例,对检索结果中的各个网页进行排序后的如图4所示。
通过本发明实施例四公开的一种显示检索结果的方法,对检索结果中各个网页进行排序,用户优先查看到具有网页主图的网页,通过网页主图直观的获得页面主题,判断该页面是否是正确的检索结果,提高了用户检索的效率。
实施例五
图5为本发明实施例五提供的一种确定网页图片相关度的装置结构示意图。本实施例可适用于用户使用互联网进行检索的情况下情况,该确定网页图片相关度的装置的具体结构包括:
图片获取模块51、相关度确定模块52和网页图片信息索引库建立模块53。
其中,图片获取模块51,用于获取目标网页中的图片;相关度确定模块52,用于根据图片在目标网页中的位置、图片的周边标签和图片与目标网页主题的相关度中的至少一项,确定图片与目标网页的相关度;网页图片信息索引库建立模块53,用于根据图片与目标网页之间的相关度,建立网页图片信息索引库。
在图片获取模块51中,目标网页中可以包括文本和图片,图片一般为至少一幅。
在相关度确定模块52中,图片在目标网页中的位置可以位于目标网页的正文或边框位置;图片的周边信息可以包括周边文本字样、周边标签、图片正下方的短文本和图片尺寸等信息。
网页图片信息索引库建立模块53,可以确定网页中每幅图片与该网页之间的相关度,相关度可以用百分比等量化形式进行表示,也可以将相关度划分为几类,例如确定网页的主图。优选是,图片与目标网页之间的相关度可以包括:目标网页的主体部分包含图片,其中第N张图片为目标网页的主图;或者,目标网页的边框部分包含图片,其中第N张图片为目标网页的主图,其中,N为自然数。从而,可以通过查询网页图片信息索引库,获得图片与目标网页之间的相关度。
通过本发明实施例五公开的一种确定网页图片相关度的装置,可以通过依据图片在目标网页中的位置、图片的周边标签和图片与目标网页主题的相关度中的至少一项,确定图片与目标网页的相关度。
实施例六
本实施例在实施例五的基础上,实施例六提供的一种确定网页图片相关度的装置,优选是将在相关度确定模块进一步优化为:相关度确定第一模块。
相关度确定第一模块,用于如果图片的位置位于目标网页的主体部分,依据图片的周边的标签信息,确定图片与目标网页的相关度。
由于图片的周边信息可以包括周边文本字样、周边标签、图片正下方的短文本和图片尺寸等信息,则相关度确定第一模块,可以通过以下至少一种方式确定图片与目标网页的相关度,即所述相关度确定第一模块具体用于执行下述至少一项:
如果图片的周边文本字体样式为预设样式,则图片为目标网页的主图,预设样式可以为字体加粗、字体颜色与其他字体颜色有明显差异;
如果图片的周边标签为预设的标签,则图片为目标网页的主图,预设的标签可以为p标签(定义段落)、center标签(对其包围的文本进行水平居中处理)和ignore_js_os标签;
如果图片正下方的短文本不是锚文本,则图片为目标网页的主图,其中,锚文本又称锚文本链接,是链接形式的一种;
如果图片尺寸位于预设的尺寸范围内,则图片为目标网页的主图。其中,尺寸中的长度与宽度可以是以像素为单位。
通过本发明实施例六公开的一种确定网页图片相关度的装置,在实施例五的基础上,可以依据图片的周边的标签信息,确定图片与目标网页的相关度。
实施例七
本实施例在实施例五的基础上,实施例七提供的一种确定网页图片相关度的装置,优选是将在相关度确定模块进一步优化为:相关度确定第二模块。
相关度确定第二模块,用于如果图片的位置位于目标网页的边框部分,依据图片与目标网页主题的相关度,确定图片与目标网页的相关度。
具体的,可以通过以下方式根据相似性确定图片与目标网页的相关度,即所述相关度确定第二模块具体用于执行下述至少一项:
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的共有词数量超过预设数量的图片为目标网页的主图;
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的字符串之间的编辑距离小于第一预设距离的图片为目标网页的主图;
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的字符串之间的向量距离小于预设的第二距离的图片为目标网页的主图;向量距离可以是KL距离、欧式距离、马氏距离和明氏距离中的任意一种。
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的字符串之间的向量相似度大于预设的相似度的图片为目标网页的主图;向量相似度可以是余弦夹角,Dice系数,Jaccard系数中的任意一种。
获取图片的标签文字属性、标签标题属性和描述内容中的至少一项,与目标网页的文章标题或页面标题的字符串之间的向量相关系数大于预设的相关系数的图片为目标网页的主图;向量相关系数可以是皮尔逊系数,肯德尔系数,斯皮尔曼系数。
通过本发明实施例其公开的一种确定网页图片相关度的装置,在实施例五的基础上,依据图片与目标网页主题的相关度,确定图片与目标网页的相关度。
实施例八
图6为本发明实施例八提供的显示检索结果的装置结构示意图。
本发明实施例八提供了一种显示检索结果的装置,包括:检索请求接收模块61、检索结果获取模块62和网页排序模块63;其中,检索请求接收模块61,用于接收用户输入的检索请求;检索结果获取模块62,用于获取与检索请求相对应的检索结果;网页排序模块63,用于依据网页图片信息索引库中图片与目标网页的相关度,将检索结果中的网页进行排序,并展示网页的图片。
在检索请求接收模块61中,检索请求可以是用户在检索界面上直接输入的文字、符号、字母和数字任意的组合。
在检索结果获取模块62中,可以通过无线连接或者有线连接的方式向处理页面数据的服务器发送检索请求,处理页面数据的服务器接收该检索请求,进行检索,并返回与检索请求相对应的检索结果,从而获得与检索请求相对应的检索结果。
在网页排序模块63中依据网页图片信息索引库中图片与目标网页的相关度,将检索结果中的网页进行排序,并展示网页的图片。
在上述操作中,检索结果可以包括两个及两个以上的网页,并可以按照网页图片信息索引库中图片与目标网页的相关度由高到低的顺序,对各个网页进行排序,优选的可以是,将检索结果中的网页的主体部分包含主图的网页,进行优先排序,并且展示的网页图片可以是与目标网页的相关度最高的图片。
通过本发明实施例八公开的一种显示检索结果的装置,对检索结果中各个网页进行排序,用户优先查看到具有网页主图的网页,通过网页主图直观的获得页面主题,判断该页面是否是正确的检索结果,提高了用户检索的效率。
请注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (16)

1.一种确定网页图片相关度的方法,其特征在于,包括:
获取目标网页中的图片;
根据所述图片在所述目标网页中的位置、所述图片的周边信息和所述图片与目标网页主题的相关度中的至少一项,确定所述图片与所述目标网页的相关度;
根据所述图片与所述目标网页之间的相关度,建立网页图片信息索引库。
2.根据权利要求1所述的方法,其特征在于,所述根据所述图片在所述目标网页中的位置、所述图片的周边信息和所述图片与目标网页主题的相关度中的至少一项,确定所述图片与所述目标网页的相关度包括:
如果所述图片的位置位于所述目标网页的主体部分,依据所述图片的周边信息,确定所述图片与所述目标网页的相关度;或
如果所述图片的位置位于所述目标网页的边框部分,依据所述图片与所述目标网页主题的相关度,确定所述图片与所述目标网页的相关度。
3.根据权利要求2所述的方法,其特征在于,所述依据所述图片的周边信息,确定所述图片与所述目标网页的相关度包括下述至少一项:
如果所述图片的周边文本字体样式为预设样式,则所述图片为所述目标网页的主图;
如果所述图片的周边标签为预设的标签,则所述图片为所述目标网页的主图;
如果所述图片正下方的短文本不是锚文本,则所述图片为所述目标网页的主图;
如果所述图片尺寸位于预设的尺寸范围内,则所述图片为所述目标网页的主图。
4.根据权利要求2所述的方法,其特征在于,依据所述图片与所述目标网页主题的相关度,确定所述图片与所述目标网页的相关度包括:
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页主题之间的相似性,根据所述相似性确定所述图片与所述目标网页的相关度。
5.根据权利要求4所述的方法,其特征在于,获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页主题之间的相似性,根据所述相似性确定所述图片与所述目标网页的相关度包括下述至少一项:
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的共有词数量超过预设数量的图片为所述目标网页的主图;
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的字符串之间的编辑距离小于第一预设距离的图片为所述目标网页的主图;
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的字符串之间的向量距离小于预设的第二距离的图片为所述目标网页的主图;
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的字符串之间的向量相似度大于预设的相似度的图片为所述目标网页的主图;
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的字符串之间的向量相关系数大于预设的相关系数的图片为所述目标网页的主图。
6.根据权利要求1所述的方法,其特征在于,所述图片与所述目标网页之间的相关度包括:
所述目标网页的主体部分包含所述图片,其中第N张所述图片为所述目标网页的主图;或
所述目标网页的边框部分包含所述图片,其中第N张所述图片为所述目标网页的主图,其中,N为自然数。
7.一种显示检索结果的方法,其特征在于,包括:
接收用户输入的检索请求;
获取与所述检索请求相对应的检索结果;
依据网页图片信息索引库中图片与目标网页的相关度,将所述检索结果中的网页进行排序,并展示所述网页的图片。
8.根据权利要求7所述的方法,其特征在于,所述依据网页图片信息索引库中图片与目标网页的相关度,将所述检索结果中的网页进行排序包括:
依据网页图片信息索引库中图片与目标网页的相关度,将所述检索结果中的网页的主体部分包含主图的网页,进行优先排序。
9.一种确定网页图片相关度的装置,其特征在于,包括:图片获取模块、相关度确定模块和网页图片信息索引库建立模块;
所述图片获取模块,用于获取目标网页中的图片;
所述相关度确定模块,用于根据所述图片在所述目标网页中的位置、所述图片的周边信息和所述图片与目标网页主题的相关度中的至少一项,确定所述图片与所述目标网页的相关度;
所述网页图片信息索引库建立模块,用于根据所述图片与所述目标网页之间的相关度,建立网页图片信息索引库。
10.根据权利要求9所述的装置,其特征在于,所述相关度确定模块包括:相关度确定第一模块或相关度确定第二模块;
所述相关度确定第一模块,用于如果所述图片的位置位于所述目标网页的主体部分,依据所述图片的周边信息,确定所述图片与所述目标网页的相关度;
所述相关度确定第二模块,用于如果所述图片的位置位于所述目标网页的边框部分,依据所述图片与所述目标网页主题的相关度,确定所述图片与所述目标网页的相关度。
11.根据权利要求10所述的装置,其特征在于,所述相关度确定第一模块具体用于执行下述至少一项:
如果所述图片的周边文本字体样式为预设样式,则所述图片为所述目标网页的主图;
如果所述图片的周边标签为预设的标签,则所述图片为所述目标网页的主图;
如果所述图片正下方的短文本不是锚文本,则所述图片为所述目标网页的主图;
如果所述图片尺寸位于预设的尺寸范围内,则所述图片为所述目标网页的主图。
12.根据权利要求10所述的装置,其特征在于,所述相关度确定第二模块具体用于,获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页主题之间的相似性,根据所述相似性确定所述图片与所述目标网页的相关度。
13.根据权利要求12所述的装置,其特征在于,所述相关度确定第二模块具体用于执行下述至少一项:
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的共有词数量超过预设数量的图片为所述目标网页的主图;
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的字符串之间的编辑距离小于第一预设距离的图片为所述目标网页的主图;
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的字符串之间的向量距离小于预设的第二距离的图片为所述目标网页的主图;
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的字符串之间的向量相似度大于预设的相似度的图片为所述目标网页的主图;
获取所述图片的标签文字属性、标签标题属性和描述内容中的至少一项,与所述目标网页的文章标题或页面标题的字符串之间的向量相关系数大于预设的相关系数的图片为所述目标网页的主图。
14.根据权利要求10所述的装置,其特征在于,在所述网页图片信息索引库建立模块中,所述图片与所述目标网页之间的相关度包括:
所述目标网页的主体部分包含所述图片,其中第N张所述图片为所述目标网页的主图;或
所述目标网页的边框部分包含所述图片,其中第N张所述图片为所述目标网页的主图,其中,N为自然数。
15.一种显示检索结果的装置,其特征在于,包括:检索请求接收模块、检索结果获取模块和网页排序模块;
所述检索请求接收模块,用于接收用户输入的检索请求;
所述检索结果获取模块,用于获取与所述检索请求相对应的检索结果;
所述网页排序模块,用于依据网页图片信息索引库中图片与目标网页的相关度,将所述检索结果中的网页进行排序,并展示所述网页的图片。
16.根据权利要求15所述的装置,其特征在于,所述网页排序模块具体用于,依据网页图片信息索引库中图片与目标网页的相关度,将所述检索结果中的网页的主体部分包含主图的网页,进行优先排序。
CN201410317567.1A 2014-07-04 2014-07-04 一种确定网页图片相关度及显示检索结果的方法及装置 Pending CN104063489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410317567.1A CN104063489A (zh) 2014-07-04 2014-07-04 一种确定网页图片相关度及显示检索结果的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410317567.1A CN104063489A (zh) 2014-07-04 2014-07-04 一种确定网页图片相关度及显示检索结果的方法及装置

Publications (1)

Publication Number Publication Date
CN104063489A true CN104063489A (zh) 2014-09-24

Family

ID=51551203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410317567.1A Pending CN104063489A (zh) 2014-07-04 2014-07-04 一种确定网页图片相关度及显示检索结果的方法及装置

Country Status (1)

Country Link
CN (1) CN104063489A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376114A (zh) * 2014-12-01 2015-02-25 百度在线网络技术(北京)有限公司 一种搜索结果展示方法及装置
CN106484913A (zh) * 2016-10-26 2017-03-08 腾讯科技(深圳)有限公司 一种目标图片确定的方法以及服务器
CN106777143A (zh) * 2016-12-19 2017-05-31 北京麒麟合盛网络技术有限公司 一种新闻聚合方法及新闻聚合服务器
CN106844685A (zh) * 2017-01-26 2017-06-13 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN107066596A (zh) * 2017-04-19 2017-08-18 北京小米移动软件有限公司 生成链接信息的方法和装置
CN107766475A (zh) * 2017-10-09 2018-03-06 李亚强 一种网页信息主图的选择方法及装置
CN108228720A (zh) * 2017-12-07 2018-06-29 北京字节跳动网络技术有限公司 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质
WO2018120575A1 (zh) * 2016-12-30 2018-07-05 百度在线网络技术(北京)有限公司 网页主图识别方法和装置
CN109299353A (zh) * 2018-11-14 2019-02-01 江苏中威科技软件系统有限公司 一种网页信息搜索方法及装置
CN109685085A (zh) * 2017-10-18 2019-04-26 阿里巴巴集团控股有限公司 一种主图提取方法以及装置
CN110020078A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种生成相关性映射字典及其验证相关性的方法和相关装置
CN110020042A (zh) * 2017-08-25 2019-07-16 杭州海康威视数字技术股份有限公司 一种基于网页的图像获取方法及装置
CN111815645A (zh) * 2020-06-23 2020-10-23 广州筷子信息科技有限公司 一种广告视频画面裁剪的方法和系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376114B (zh) * 2014-12-01 2018-01-30 百度在线网络技术(北京)有限公司 一种搜索结果展示方法及装置
CN104376114A (zh) * 2014-12-01 2015-02-25 百度在线网络技术(北京)有限公司 一种搜索结果展示方法及装置
CN106484913A (zh) * 2016-10-26 2017-03-08 腾讯科技(深圳)有限公司 一种目标图片确定的方法以及服务器
CN106484913B (zh) * 2016-10-26 2021-09-07 腾讯科技(深圳)有限公司 一种目标图片确定的方法以及服务器
CN106777143A (zh) * 2016-12-19 2017-05-31 北京麒麟合盛网络技术有限公司 一种新闻聚合方法及新闻聚合服务器
US10963690B2 (en) 2016-12-30 2021-03-30 Baidu Online Network Technology (Beijing) Co., Ltd. Method for identifying main picture in web page
WO2018120575A1 (zh) * 2016-12-30 2018-07-05 百度在线网络技术(北京)有限公司 网页主图识别方法和装置
CN106844685B (zh) * 2017-01-26 2020-07-28 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN106844685A (zh) * 2017-01-26 2017-06-13 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN107066596A (zh) * 2017-04-19 2017-08-18 北京小米移动软件有限公司 生成链接信息的方法和装置
CN110020042A (zh) * 2017-08-25 2019-07-16 杭州海康威视数字技术股份有限公司 一种基于网页的图像获取方法及装置
CN107766475A (zh) * 2017-10-09 2018-03-06 李亚强 一种网页信息主图的选择方法及装置
CN109685085A (zh) * 2017-10-18 2019-04-26 阿里巴巴集团控股有限公司 一种主图提取方法以及装置
CN109685085B (zh) * 2017-10-18 2023-09-26 阿里巴巴集团控股有限公司 一种主图提取方法以及装置
CN110020078A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种生成相关性映射字典及其验证相关性的方法和相关装置
CN110020078B (zh) * 2017-12-01 2021-08-20 北京搜狗科技发展有限公司 一种生成相关性映射字典及其验证相关性的方法和相关装置
CN108228720A (zh) * 2017-12-07 2018-06-29 北京字节跳动网络技术有限公司 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质
CN109299353A (zh) * 2018-11-14 2019-02-01 江苏中威科技软件系统有限公司 一种网页信息搜索方法及装置
CN111815645A (zh) * 2020-06-23 2020-10-23 广州筷子信息科技有限公司 一种广告视频画面裁剪的方法和系统
CN111815645B (zh) * 2020-06-23 2021-05-11 广州筷子信息科技有限公司 一种广告视频画面裁剪的方法和系统

Similar Documents

Publication Publication Date Title
CN104063489A (zh) 一种确定网页图片相关度及显示检索结果的方法及装置
US8064727B2 (en) Adaptive image maps
US8478701B2 (en) Locating a user based on aggregated tweet content associated with a location
CN106462559B (zh) 任意大小内容项生成
US20150169710A1 (en) Method and apparatus for providing search results
US11030389B2 (en) Acquisition of a font portion using a compression mechanism
CN103345493B (zh) 用于移动终端上的文本内容显示的方法、装置及系统
CN107092652B (zh) 目标页面的导航方法及装置
US20140330814A1 (en) Method, client of retrieving information and computer storage medium
CN103500332B (zh) 图片内文字显示方法及装置
CN105637509A (zh) 在图像内搜索和注释
CN102934112A (zh) 用于生成基于地图的片段的方法和装置
CN103136259A (zh) 一种基于内容块标识处理网页内容的方法与设备
CN106575303B (zh) 显示网页的方法和设备
US20140164341A1 (en) Method and apparatus for obtaining and managing contact information
US20140098031A1 (en) Device and method for extracting data on a touch screen
CN108369647B (zh) 基于图像的质量控制
US11521244B2 (en) Information processing device, information processing method, and information processing program
KR20210120203A (ko) 웹 페이지에 기반한 메타데이터 생성방법
CN105808636A (zh) 一种基于app信息数据的超文本链接推送系统
JP5372990B2 (ja) 広告処理装置及び方法
CN108052525B (zh) 获取音频信息的方法、装置、存储介质及电子设备
CN105701232A (zh) 一种基于app信息数据的超文本链接清单推送系统
CN105786853A (zh) 一种论坛帖子智能摘要的显示方法和系统
CN106484710B (zh) 动态数据处理方法和装置、信息显示方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140924