CN103425644B - 网页正文中图片的提取方法及装置 - Google Patents

网页正文中图片的提取方法及装置 Download PDF

Info

Publication number
CN103425644B
CN103425644B CN201210148409.9A CN201210148409A CN103425644B CN 103425644 B CN103425644 B CN 103425644B CN 201210148409 A CN201210148409 A CN 201210148409A CN 103425644 B CN103425644 B CN 103425644B
Authority
CN
China
Prior art keywords
picture
node
web page
description information
page text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210148409.9A
Other languages
English (en)
Other versions
CN103425644A (zh
Inventor
蔡兵
张凯
徐羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210148409.9A priority Critical patent/CN103425644B/zh
Publication of CN103425644A publication Critical patent/CN103425644A/zh
Application granted granted Critical
Publication of CN103425644B publication Critical patent/CN103425644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页正文中图片的提取方法及装置,属于计算机技术领域。所述方法包括:获取网页正文中的图片节点,并获取所述图片节点的文字描述信息;根据所述图片节点的文字描述信息在获取的图片节点中提取与所述网页正文相关程度最大的图片。本发明还公开了一种网页正文中图片的提取装置,所述装置包括:第一获取模块和第一提取模块。本发明提高了提取的图片与网页正文的相关度,从而使得所提取的图片所代表的网页信息主题更明确,极大地提升了用户的体验。

Description

网页正文中图片的提取方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种网页正文中图片的提取方法及装置。
背景技术
随着网络信息量的增长,用户在输入关键字搜索信息时,将获得大量与关键字相关的网页信息,这些网页信息以文本为载体进行显示,使得用户需要浏览网页中的文字进行信息采集,增加了用户获取信息的难度。
现有技术中,浏览器提供与网页正文相关的多媒体信息,如图片和视频等,向用户展示与网页正文相关的视觉信息。具体来说,如果网页正文中包含图片,则获取网页正文中的所有图片节点,提取该网页正文中第一张图片或者从所有的图片节点中任意提取一张图片作为与该网页的正文相关程度最大的图片,作为网页信息显示给用户,以便用户通过该图片了解网页的相关内容。
在实现本发明的过程中,发明人发现现有技术至少存在以下缺点:
提取网页正文中第一张图片或者从所有的图片节点中任意提取一张图片作为代表该网页的图片,可能提取出与网页正文内容无关的图片,导致提取的图片与网页正文的相关度较低,使得该图片所代表的网页信息主题不明确,影响了用户的体验。
发明内容
本发明实施例提供了一种网页正文中图片的提取方法及装置,以提高提取的图片与网页正文的相关度。所述技术方案如下:
一方面,提供了一种网页正文中图片的提取方法,所述方法包括:
获取网页正文中的图片节点,并获取所述图片节点的文字描述信息;
根据所述图片节点的文字描述信息在获取的图片节点中提取与所述网页正文相关程度最大的图片;
所述获取所述图片节点的文字描述信息,包括:查找所述网页正文中与所述图片节点相邻的下一个文字节点;根据所述文字节点的文字内容获取所述图片节点的文字描述信息;
其中,所述根据所述文字节点的文字内容获取所述图片节点的文字描述信息,包括:如果所述图片节点的排版属性和所述文字节点的排版属性均为居中,则获取所述文字节点的文字内容,并将所述文字内容作为所述图片节点的文字描述信息;或者,如果所述文字节点的文字样式与所述图片节点的文字样式相同,则获取所述文字节点的文字内容,并将所述文字内容作为所述图片节点的文字描述信息。
其中,根据所述图片节点的文字描述信息在获取的图片节点中提取与所述网页正文相关程度最大的图片,包括:
计算所述文字描述信息与所述网页正文的网页标题的相似度;
在相似度大于或等于预设的阈值的图片节点中,提取相似度最大的图片。
另外,所述方法还包括:
如果未获取到所述图片节点的文字描述信息,或者获取到所述图片节点的文字描述信息但所述文字描述信息与所述网页正文的网页标题的相似度小于预设的阈值,则获取所述图片节点的统一资源定位符URL的长度;
判断获取的所述图片节点中是否具有URL的长度相同的图片节点;
如果获取的所述图片节点中无URL的长度相同的图片节点,则提取所述网页正文中的第一张图片;
如果获取的所述图片节点中有URL的长度相同的图片节点,则在所述URL的长度相同的图片节点中提取在所述网页正文中位置最前的图片。
进一步地,在所述URL的长度相同的图片节点中提取在所述网页正文中位置最前的图片,包括:
判断URL的长度相同的图片节点是否为多组,其中各组的URL的长度均不同;
如果是,则选取包含图片节点的个数最多的组,在该组内提取在所述网页正文中位置最前的图片;
否则,在所述URL的长度相同的组内提取在所述网页正文中位置最前的图片。
优选地,获取网页正文中的图片节点之后,还包括:
在获取的所述图片节点中过滤掉广告图片。
可选地,根据所述图片节点的文字描述信息在获取的图片节点中提取与所述网页正文相关程度最大的图片之后,还包括:
如果所述提取的图片的属性信息中未包含文字描述信息,则将所述网页正文的网页标题作为文字描述信息添加在所述图片的属性信息中。
另一方面,还提供了一种网页正文中图片的提取装置,所述装置包括:
第一获取模块,用于获取网页正文中的图片节点,并获取所述图片节点的文字描述信息;
第一提取模块,用于根据所述图片节点的文字描述信息在获取的图片节点中提取与所述网页正文相关程度最大的图片;
所述第一获取模块包括:查找单元,用于查找所述网页正文中与所述图片节点相邻的下一个文字节点;第三获取单元,用于根据所述文字节点的文字内容获取所述图片节点的文字描述信息;
其中,所述第三获取单元包括:第二获取子单元,用于如果所述图片节点的排版属性和所述文字节点的排版属性均为居中,则获取所述文字节点的文字内容作为所述图片节点的文字描述信息;或者,第三获取子单元,用于如果所述文字节点的文字样式与所述图片节点的文字样式相同,则获取所述文字节点的文字内容,并将所述文字内容作为所述图片节点的文字描述信息。
所述第一提取模块包括:
计算单元,用于计算所述文字描述信息与所述网页正文的网页标题的相似度;
第一提取单元,用于在相似度大于或等于预设的阈值的图片节点中,提取相似度最大的图片。
所述装置还包括:
第二获取模块,用于如果未获取到所述图片节点的文字描述信息,或者获取到所述图片节点的文字描述信息但所述文字描述信息与所述网页正文的网页标题的相似度小于预设的阈值,则获取所述图片节点的统一资源定位符URL的长度;
判断模块,用于判断所述第一获取模块获取的所述图片节点中是否具有URL的长度相同的图片节点;
第二提取模块,用于当所述判断模块判断出获取的所述图片节点中无URL的长度相同的图片节点时,提取所述网页正文中的第一张图片;
第三提取模块,用于当所述判断模块判断出获取的所述图片节点中有URL的长度相同的图片节点时,在所述URL的长度相同的图片节点中提取在所述网页正文中位置最前的图片。
所述第三提取模块包括:
判断单元,用于判断URL的长度相同的图片节点是否为多组,其中各组的URL的长度均不同;
第二提取单元,用于当所述判断单元判断出URL的长度相同的图片节点为多组时,选取包含图片节点的个数最多的组,在该组内提取在所述网页正文中位置最前的图片;
第三提取单元,用于当所述判断单元判断出URL的长度相同的图片节点为一组时,在所述URL的长度相同的组内提取在所述网页正文中位置最前的图片。
所述装置还包括:
过滤模块,用于在所述第一获取模块获取的所述图片节点中过滤掉广告图片。
所述装置还包括:
添加模块,用于在所述第一提取模块提取图片之后,如果提取的图片的属性信息中未包含文字描述信息,则将所述网页正文的网页标题作为文字描述信息添加在所述图片的属性信息中。
本发明实施例提供的技术方案的有益效果是:
通过获取网页正文中的图片节点,并获取图片节点的文字描述信息,根据图片节点的文字描述信息在获取的图片节点中提取与网页正文相关程度最大的图片,提高了提取的图片与网页正文的相关度,从而使得所提取的图片所代表的网页信息主题更明确,极大地提升了用户的体验。
通过在获取的图片节点中过滤掉广告图片,可避免将广告图片提取出来,进而提高了提取图片的准确性;另外,如果提取的图片的属性信息中未包含文字描述信息,则将网页正文的网页标题作为文字描述信息添加在该图片的属性信息中,完善了图片的属性信息,从而方便用户根据该文字描述信息搜索图片,降低了后续用户搜索该图片的难度,进一步提升了用户的体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种网页正文中图片的提取方法流程图;
图2是本发明实施例二提供的一种网页正文中图片的提取方法流程图;
图3是本发明实施例三提供的一种网页正文中图片的提取方法流程图;
图4是本发明实施例四提供的一种网页正文中图片的提取装置的结构示意图;
图5是本发明实施例四提供的另一种网页正文中图片的提取装置的结构示意图;
图6是本发明实施例四提供的一种第一获取模块的结构示意图;
图7是本发明实施例四提供的另一种第一获取模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本实施例涉及网页正文中图片的提取方法,该方法应用于计算机中,或者,应用于移动终端中,所述移动终端包括但不限于:手机、平板电脑、PDA(PersonalDigitalAssistant,个人数字助理)等。
实施例一
参见图1,本实施例提供了一种网页正文中图片的提取方法,该方法流程具体如下:
101:获取网页正文中的图片节点,并获取该图片节点的文字描述信息。
102:根据该图片节点的文字描述信息在获取的图片节点中提取与网页正文相关程度最大的图片。
其中,根据该图片节点的文字描述信息在获取的图片节点中提取与网页正文相关程度最大的图片,包括:
计算文字描述信息与网页正文的网页标题的相似度;
在相似度大于或等于预设的阈值的图片节点中,提取相似度最大的图片。
具体地,获取该图片节点的文字描述信息,包括:
获取该图片节点的属性信息;
在属性信息中查找alt字段,从该alt字段中获取图片节点的文字描述信息。
或者,获取该图片节点的文字描述信息,包括:
查找网页正文中与图片节点相邻的下一个文字节点;
根据该文字节点的文字内容获取图片节点的文字描述信息。
另外,所述方法还包括:
如果未获取到该图片节点的文字描述信息,或者获取到该图片节点的文字描述信息但该文字描述信息与网页正文的网页标题的相似度小于预设的阈值,则获取图片节点的URL(Uniform/UniversalResourceLocator,统一资源定位符)的长度;
判断获取的图片节点中是否具有URL的长度相同的图片节点;
如果获取的图片节点中无URL的长度相同的图片节点,则提取网页正文中的第一张图片;
如果获取的图片节点中有URL的长度相同的图片节点,则在URL的长度相同的图片节点中提取在网页正文中位置最前的图片。
优选地,获取网页正文中的图片节点之后,还包括:
在获取的图片节点中过滤掉广告图片。
可选地,根据图片节点的文字描述信息在获取的图片节点中提取与网页正文相关程度最大的图片之后,还包括:
如果提取的图片的属性信息中未包含文字描述信息,则将网页正文的网页标题作为文字描述信息添加在图片的属性信息中。
本实施例提供的上述方法,通过获取网页正文中的图片节点,并获取图片节点的文字描述信息,根据图片节点的文字描述信息在获取的图片节点中提取与网页正文相关程度最大的图片,提高了提取的图片与网页正文的相关度,从而使得所提取的图片所代表的网页信息主题更明确,极大地提升了用户的体验。
通过在获取的图片节点中过滤掉广告图片,可避免将广告图片提取出来,进而提高了提取图片的准确性;另外,如果提取的图片的属性信息中未包含文字描述信息,则将网页正文的网页标题作为文字描述信息添加在该图片的属性信息中,完善了图片的属性信息,从而方便用户根据该文字描述信息搜索图片,降低了后续用户搜索该图片的难度,进一步提升了用户的体验。
实施例二
参见图2,本实施例提供了一种网页正文中图片的提取方法,该方法流程具体如下:
201:获取网页正文中的图片节点。
本实施例中,图片节点是网页正文的一部分,通常网页正文中包括图片和文字等,为了方便图片提取,可以预先将网页正文进行分割,得到图片节点和文字节点。具体地,可通过网页的DOM(DocumentObjectModel,文档对象模型)树对网页进行分割,当然也可以采用其它方式,本发明对此不限定。相应地,可以利用DOM树的节点特征来获取网页正文中的图片节点,此处不赘述。
202:获取上述图片节点的属性信息。
所述图片节点的属性信息至少包括alt字段和图片的URL。优选地,所述属性信息还可以包括以下至少一种:位置属性、排版属性和class属性等。其中,所述alt字段用于存放图片节点的文字描述信息,所述URL是图片的地址信息,所述class属性则定义了图片节点的宽高、图片背景和文字样式等信息。
203:在该属性信息中查找alt字段,并判断该alt字段中是否包含图片节点的文字描述信息,如果是,执行步骤204;否则,执行步骤205。
具体地,可通过判断alt字段是否为空来实现,如果该alt字段不为空,则确定该alt字段包含该图片节点的文字描述信息;如果该alt字段为空,则确定该alt字段不包含该图片节点的文字描述信息。
204:从alt字段中获取所述图片节点的文字描述信息,然后执行步骤207。
205:查找网页正文中与该图片节点相邻的下一个文字节点。
本实施例中,网页正文中的图片节点和文字节点都有各自的位置,相邻的节点是指两个节点按照排版的顺序在网页正文上相邻。
206:根据所述文字节点的文字内容获取所述图片节点的文字描述信息。
具体地,根据所述文字节点的文字内容获取所述图片节点的文字描述信息,包括:
获取所述文字节点的文字内容,将该文字内容作为图片节点的文字描述信息;或者,
如果该图片节点的排版属性和该文字节点的排版属性均为居中,则获取该文字节点的文字内容,并将该文字内容作为该图片节点的文字描述信息;或者,
如果该文字节点的文字样式与该图片节点的文字样式相同,则获取该文字节点的文字内容,并将该文字内容作为该图片节点的文字描述信息。
例如,对于新闻页面的图片,其相邻的下一个文字节点的文字内容通常包含“xxx摄”、“如图”等文字,则可以获取该文字内容并作为图片节点的文字描述信息;或者,图片节点的文字样式为宋体、五号,如果该文字节点的文字样式也为宋体、五号,则获取该文字节点的文字内容并作为图片节点的文字描述信息。
其中,图片节点的排版属性可以从图片节点的属性信息中获得,文字节点的排版属性可以从文字节点的属性信息中获得。文字节点的文字样式可以从文字节点的class属性中获得,图片节点的文字样式可以从图片节点的class属性中获得。
207:计算获取的文字描述信息与网页正文的网页标题的相似度,并在相似度大于或等于预设的阈值的图片节点中,提取相似度最大的图片,流程结束。
本实施例中,在计算文字描述信息与网页标题的相似度之前,预先设置相似度阈值,用来判断该图片节点是否与网页正文相关。当相似度大于或等于该阈值时,认为获取的文字描述信息与网页正文相关;当相似度小于该阈值时,认为获取的文字描述信息与网页正文无关;进一步地,在相似度大于或等于预设的阈值的图片节点中,提取相似度最大的图片可以保证该图片与网页正文最相关,从而可以作为代表网页正文的图片。
所述阈值可自行设定,例如,将阈值设置为指定字符数3,如果文字描述信息与网页正文的网页标题的相同的字符数大于或等于3,则确定该图片节点与网页正文相关。进一步地,还可对该阈值进行修改,例如,将指定字符数由3改成6等等,本发明对此不作限定。优选地,还可将阈值设定为相似比例,即将文字描述信息与网页标题相同的字符数除以文字描述信息总字符数,判断上述计算得到的相似比例是否大于或等于预设的相似比例,如果是,则确定该图片节点与网页正文相关。所述相似比例可以为50%,或者70%等,本实施例不作限定。
进一步地,如果上述步骤判断出与网页正文相关的图片节点数为1,则提取该图片,作为与网页正文相关程度最大的图片;如果上述步骤判断出与网页正文相关的图片节点数大于或等于2,则比较所述图片节点相似度,选取相似度最大的图片节点,并提取该图片,作为与网页正文相关程度最大的图片。
另外,上述方法还可以包括以下步骤:
如果步骤206中根据所述文字节点的文字内容获取所述图片节点的文字描述信息失败,即未获取到图片节点的文字描述信息,则可以直接提取网页正文中的第一张图片,将其作为与网页正文相关程度最大的图片,流程结束。
进一步地,上述方法还可以包括:在获取的图片节点中过滤掉广告图片,从而可以避免将广告图片提取出来,提高了图片提取的准确性。
具体地,对广告图片的过滤方法包括但不限于:
广告图片的URL的长度普遍较长,则可根据经验值设定过滤阈值,如果图片节点的URL的长度大于或等于该阈值,则认为该图片为广告图片,对其进行过滤;或者,
广告图片的URL为动态链接且广告图片的域名与网页正文图片的域名不同,例如http://www.taobao.com/imgextra/1.jpg,包含“taobao”字符,则可根据该图片节点的URL的链接状态和域名内容对广告图片进行过滤;或者,
广告图片的URL的结构与网页正文图片的URL结构不同,例如http://www.xxx.com/ad/1.jpg,包含“ad”特征,则可根据URL的特征对广告图片进行过滤等等,本实施例不对过滤广告图片的方法作限定。
优选地,上述方法还可以包括:在提取图片之后,如果提取的图片的属性信息中未包含文字描述信息,则将网页正文的网页标题作为文字描述信息添加在该图片的属性信息中。
本实施例提供的上述方法,通过获取网页正文中的图片节点,并获取图片节点的文字描述信息,根据图片节点的文字描述信息在获取的图片节点中提取与网页正文相关程度最大的图片,提高了提取的图片与网页正文的相关度,从而使得所提取的图片所代表的网页信息主题更明确,极大地提升了用户的体验。
通过在获取的图片节点中过滤掉广告图片,可避免将广告图片提取出来,进而提高了提取图片的准确性;另外,如果提取的图片的属性信息中未包含文字描述信息,则将网页正文的网页标题作为文字描述信息添加在该图片的属性信息中,完善了图片的属性信息,从而方便用户根据该文字描述信息搜索图片,降低了后续用户搜索该图片的难度,进一步提升了用户的体验。
实施例三
参见图3,本实施例提供了一种网页正文中图片的提取方法,与实施例二的区别在于:本实施例通过图片节点的URL的长度对网页正文中的图片进行提取,该方法流程具体如下:
301:获取网页正文中的图片节点。
具体地,可利用DOM树的节点特征来获取网页正文中的图片节点,此处不赘述。
302:如果未获取到该图片节点的文字描述信息,或者获取到该图片节点的文字描述信息但该文字描述信息与网页正文的网页标题的相似度小于预设的阈值,则获取该图片节点的URL的长度。
具体地,可以从图片节点的属性信息中获取图片节点的URL的长度。
303:判断上述获取的图片节点中是否具有URL的长度相同的图片节点,如果是,执行步骤304;否则,执行步骤305。
本实施例中,网页正文可包含一组相似的图片,例如,介绍产品的一组图片,包括该产品的正视图(http://www.xxx.com/product/1.jpg)、侧视图(http://www.xxx.com/product/2.jpg)和俯视图(http://www.xxx.com/product/3.jpg)等等,则这些图片的URL的长度相同,为网页正文的相关图片的可能性较大,因此,可根据图片节点的URL的长度提取与网页正文相关程度最大的图片。
其中,URL的长度相同的图片节点可以是网页正文中的全部图片节点,也可以是网页正文中的部分图片节点,本发明对此不限定。例如,一个网页正文中有5个图片节点,一种场景下5个图片节点的URL长度均相同,另一种场景下,其中有3个图片节点的长度相同,等等。所述没有URL的长度相同的图片节点是指获取的各个图片节点的URL长度均不相同。
304:在上述URL的长度相同的图片节点中提取在网页正文中位置最前的图片,流程结束。
其中,在上述URL的长度相同的图片节点中提取在网页正文中位置最前的图片,包括:
判断URL的长度相同的图片节点是否为多组,其中各组的URL的长度均不同;
如果是,则选取包含图片节点的个数最多的组,在该组内提取在网页正文中位置最前的图片;
否则,在所述URL长度相同的组内提取在网页正文中位置最前的图片。
本实施例中,当URL的长度相同的图片节点为多组时,可以从中任选一组,优选地,选取包含图片节点的个数最多的组,在该组内提取在网页正文中位置最前的图片,作为与网页正文相关程度最大的图片。
例如,URL的长度相同的图片节点有两组,其中,URL的长度为10的组中有5个图片节点,URL的长度为13的组中有4个图片节点,则选取URL的长度为10的一组提取图片,从该组的5个图片节点中提取在网页正文中位置最前的图片。
进一步地,如果图片节点的个数最多的组数大于或等于2,即有两个以上的组其中的图片节点的个数相等且均为最多,则将这些组合并组成一个集合从中提取在网页正文中位置最前的图片,作为与网页正文相关程度最大的图片。例如,URL的长度为11的组中有5个图片节点,URL的长度为12的组中也有5个图片节点,组内图片节点的个数相同且均为最多的个数,其余的组内的图片节点的个数均小于5,则将这两个组内的图片节点看成一个集合,从该集合内的10个图片节点中提取在网页正文中位置最前的图片。
305:这种情况下,获取的所有图片节点的URL的长度都不同,则提取网页正文中的第一张图片,流程结束。
进一步地,上述方法还包括:在获取的图片节点中过滤掉广告图片。
具体地,过滤广告图片的方法详见实施例二中的描述,此处不赘述。
本实施例提供的上述方法,通过获取网页正文中的图片节点的URL的长度,根据图片节点的URL的长度在获取的图片节点中提取与网页正文相关程度最大的图片,提高了提取的图片与网页正文的相关度,从而使得所提取的图片所代表的网页信息主题更明确,极大地提升了用户的体验。另外,通过在获取的图片节点中过滤掉广告图片,可避免将广告图片提取出来,进而提高了提取图片的准确性。
优选地,还可将实施例二和实施例三结合,对网页正文中的图片进行提取,所述方法如下:
获取网页正文中的图片节点,并获取该图片节点的属性信息,在该属性信息中查找alt字段,并判断该alt字段中是否包含图片节点的文字描述信息,如果是,则从该alt字段中获取图片节点的文字描述信息;如果否,则查找网页正文中与该图片节点相邻的下一个文字节点,根据所述文字节点的文字内容获取所述图片节点的文字描述信息。
如果获取到图片节点的文字描述信息,则计算获取的文字描述信息与网页正文的网页标题的相似度,并在相似度大于或等于预设的阈值的图片节点中,提取相似度最大的图片,流程结束。
如果未获取到图片节点的文字描述信息,或者获取到该图片节点的文字描述信息但该文字描述信息与网页正文的网页标题的相似度小于预设的阈值,则获取该图片节点的URL的长度,并判断上述获取的图片节点中是否具有URL的长度相同的图片节点,若上述获取的图片节点中具有URL的长度相同的图片节点,则在上述URL的长度相同的图片节点中提取在网页正文中位置最前的图片,流程结束;若上述获取的图片节点中所有图片节点的URL的长度都不同,则提取网页正文中的第一张图片,流程结束。
实施例四
参见图4,本实施例提供了一种网页正文中图片的提取装置,该装置包括:
第一获取模块401,用于获取网页正文中的图片节点,并获取该图片节点的文字描述信息;
第一提取模块402,用于根据图片节点的文字描述信息在获取的图片节点中提取与网页正文相关程度最大的图片。
参见图5,本实施例中,第一提取模块402包括:
计算单元402A,用于计算文字描述信息与网页正文的网页标题的相似度;
第一提取单元402B,用于在相似度大于或等于预设的阈值的图片节点中,提取相似度最大的图片。
参见图6,本实施例中,第一获取模块401包括:
第一获取单元401A,用于获取图片节点的属性信息;
第二获取单元401B,用于在属性信息中查找alt字段,从该alt字段中获取图片节点的文字描述信息。
参见图7,本实施例中,第一获取模块401包括:
查找单元401C,用于查找网页正文中与图片节点相邻的下一个文字节点;
第三获取单元401D,用于根据该文字节点的文字内容获取图片节点的文字描述信息。
本实施例中,第三获取单元401D包括:
第一获取子单元,用于获取文字节点的文字内容,并将该文字内容作为图片节点的文字描述信息;或者,
第二获取子单元,用于如果图片节点的排版属性和文字节点的排版属性均为居中,则获取该文字节点的文字内容作为图片节点的文字描述信息;或者,
第三获取子单元,用于如果文字节点的文字样式与图片节点的文字样式相同,则获取该文字节点的文字内容,并将文字内容作为图片节点的文字描述信息。
参见图5,本实施例中,所述装置还包括:
第二获取模块403,用于如果未获取到图片节点的文字描述信息,或者获取到图片节点的文字描述信息但该文字描述信息与网页正文的网页标题的相似度小于预设的阈值,则获取该图片节点的统一资源定位符URL的长度;
判断模块404,用于判断第一获取模块401获取的图片节点中是否具有URL的长度相同的图片节点;
第二提取模块405,用于当判断模块404判断出获取的图片节点中无URL的长度相同的图片节点时,提取网页正文中的第一张图片;
第三提取模块406,用于当判断模块404判断出获取的图片节点中有URL的长度相同的图片节点时,在URL的长度相同的组内提取在网页正文中位置最前的图片。
其中,图中第二获取模块403或者与第一获取模块401具有连接关系,或者与第一提取模块402具有连接关系,图中把这二个连接关系均画出来了,仅仅为了表示方便,并不代表同时具有这两个连接关系。如果第一获取模块401未获取到图片节点的文字描述信息,则执行第二获取模块403,通过第二获取模块403获取该图片节点的URL的长度;如果第一获取模块401获取到图片节点的文字描述信息,但第一提取模块402计算出该文字描述信息与网页正文的网页标题的相似度小于预设的阈值,则执行第二获取模块403,通过第二获取模块403获取该图片节点的URL的长度。
参见图5,本实施例中,第三提取模块406包括:
判断单元406A,用于判断URL的长度相同的图片节点是否为多组,其中各组的URL的长度均不同;
第二提取单元406B,用于当判断单元406A判断出URL的长度相同的图片节点为多组时,选取包含图片节点的个数最多的组,在该组内提取在网页正文中位置最前的图片;
第三提取单元406C,用于当判断单元406A判断出URL的长度相同的图片节点为一组时,在该URL的长度相同的组内提取在网页正文中位置最前的图片。
本实施例中,所述装置还包括:
过滤模块,用于在第一获取模块401获取的图片节点中过滤掉广告图片。
本实施例中,所述装置还包括:
添加模块,用于在第一提取模块402提取图片之后,如果提取的图片的属性信息中未包含文字描述信息,则将网页正文的网页标题作为文字描述信息添加在该图片的属性信息中。
本实施例提供的上述装置可以是独立的应用程序;或者,也可以内置于某一应用程序中,例如内置于浏览器中,本发明对此不作限定。
本实施例提供的上述装置,可以执行上述任一方法实施例中提供的网页正文中图片的提取方法,具体过程详见方法实施例中的描述,此处不赘述。
本实施例提供的装置,通过获取网页正文中的图片节点,并获取图片节点的文字描述信息,根据图片节点的文字描述信息在获取的图片节点中提取与网页正文相关程度最大的图片,对网页正文内容进行概括,明确了网页正文的主题,提高了用户获取网页信息的准确性;另外,通过获取图片节点的文字描述信息,可降低用户搜索图片的难度,极大地提升了用户的体验。
通过在获取的图片节点中过滤掉广告图片,可避免将广告图片提取出来,进而提高了提取图片的准确性;另外,如果提取的图片的属性信息中未包含文字描述信息,则将网页正文的网页标题作为文字描述信息添加在图片的属性信息中,对该图片节点的文字描述信息进行添加,降低了后续用户搜索该图片的难度,进一步提升了用户的体验。
需要说明的是:上述实施例提供的网页正文中图片的提取装置在提取图片时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网页正文中图片的提取装置与网页正文中图片的提取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的全部或部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种网页正文中图片的提取方法,其特征在于,所述方法包括:
获取网页正文中的图片节点,并获取所述图片节点的文字描述信息;
根据所述图片节点的文字描述信息在获取的图片节点中提取与所述网页正文相关程度最大的图片;
所述获取所述图片节点的文字描述信息,包括:查找所述网页正文中与所述图片节点相邻的下一个文字节点;根据所述文字节点的文字内容获取所述图片节点的文字描述信息;
其中,所述根据所述文字节点的文字内容获取所述图片节点的文字描述信息,包括:如果所述图片节点的排版属性和所述文字节点的排版属性均为居中,则获取所述文字节点的文字内容,并将所述文字内容作为所述图片节点的文字描述信息;或者,如果所述文字节点的文字样式与所述图片节点的文字样式相同,则获取所述文字节点的文字内容,并将所述文字内容作为所述图片节点的文字描述信息。
2.根据权利要求1所述的方法,其特征在于,根据所述图片节点的文字描述信息在获取的图片节点中提取与所述网页正文相关程度最大的图片,包括:
计算所述文字描述信息与所述网页正文的网页标题的相似度;
在相似度大于或等于预设的阈值的图片节点中,提取相似度最大的图片。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
如果未获取到所述图片节点的文字描述信息,或者获取到所述图片节点的文字描述信息但所述文字描述信息与所述网页正文的网页标题的相似度小于预设的阈值,则获取所述图片节点的统一资源定位符URL的长度;
判断获取的所述图片节点中是否具有URL的长度相同的图片节点;
如果获取的所述图片节点中无URL的长度相同的图片节点,则提取所述网页正文中的第一张图片;
如果获取的所述图片节点中有URL的长度相同的图片节点,则在所述URL的长度相同的图片节点中提取在所述网页正文中位置最前的图片。
4.根据权利要求3所述的方法,其特征在于,在所述URL的长度相同的图片节点中提取在所述网页正文中位置最前的图片,包括:
判断URL的长度相同的图片节点是否为多组,其中各组的URL的长度均不同;
如果是,则选取包含图片节点的个数最多的组,在该组内提取在所述网页正文中位置最前的图片;
否则,在所述URL的长度相同的组内提取在所述网页正文中位置最前的图片。
5.根据权利要求1所述的方法,其特征在于,获取网页正文中的图片节点之后,还包括:
在获取的所述图片节点中过滤掉广告图片。
6.根据权利要求1所述的方法,其特征在于,根据所述图片节点的文字描述信息在获取的图片节点中提取与所述网页正文相关程度最大的图片之后,还包括:
如果所述提取的图片的属性信息中未包含文字描述信息,则将所述网页正文的网页标题作为文字描述信息添加在所述图片的属性信息中。
7.一种网页正文中图片的提取装置,其特征在于,所述装置包括:
第一获取模块,用于获取网页正文中的图片节点,并获取所述图片节点的文字描述信息;
第一提取模块,用于根据所述图片节点的文字描述信息在获取的图片节点中提取与所述网页正文相关程度最大的图片;
所述第一获取模块包括:查找单元,用于查找所述网页正文中与所述图片节点相邻的下一个文字节点;第三获取单元,用于根据所述文字节点的文字内容获取所述图片节点的文字描述信息;
其中,所述第三获取单元包括:第二获取子单元,用于如果所述图片节点的排版属性和所述文字节点的排版属性均为居中,则获取所述文字节点的文字内容作为所述图片节点的文字描述信息;或者,第三获取子单元,用于如果所述文字节点的文字样式与所述图片节点的文字样式相同,则获取所述文字节点的文字内容,并将所述文字内容作为所述图片节点的文字描述信息。
8.根据权利要求7所述的装置,其特征在于,所述第一提取模块包括:
计算单元,用于计算所述文字描述信息与所述网页正文的网页标题的相似度;
第一提取单元,用于在相似度大于或等于预设的阈值的图片节点中,提取相似度最大的图片。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于如果未获取到所述图片节点的文字描述信息,或者获取到所述图片节点的文字描述信息但所述文字描述信息与所述网页正文的网页标题的相似度小于预设的阈值,则获取所述图片节点的统一资源定位符URL的长度;
判断模块,用于判断所述第一获取模块获取的所述图片节点中是否具有URL的长度相同的图片节点;
第二提取模块,用于当所述判断模块判断出获取的所述图片节点中无URL的长度相同的图片节点时,提取所述网页正文中的第一张图片;
第三提取模块,用于当所述判断模块判断出获取的所述图片节点中有URL的长度相同的图片节点时,则在所述URL的长度相同的图片节点中提取在所述网页正文中位置最前的图片。
10.根据权利要求9所述的装置,其特征在于,所述第三提取模块包括:
判断单元,用于判断URL的长度相同的图片节点是否为多组,其中各组的URL的长度均不同;
第二提取单元,用于当所述判断单元判断出URL的长度相同的图片节点为多组时,选取包含图片节点的个数最多的组,在该组内提取在所述网页正文中位置最前的图片;
第三提取单元,用于当所述判断单元判断出URL的长度相同的图片节点为一组时,在所述URL的长度相同的组内提取在所述网页正文中位置最前的图片。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
过滤模块,用于在所述第一获取模块获取的所述图片节点中过滤掉广告图片。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
添加模块,用于在所述第一提取模块提取图片之后,如果提取的图片的属性信息中未包含文字描述信息,则将所述网页正文的网页标题作为文字描述信息添加在所述图片的属性信息中。
CN201210148409.9A 2012-05-14 2012-05-14 网页正文中图片的提取方法及装置 Active CN103425644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210148409.9A CN103425644B (zh) 2012-05-14 2012-05-14 网页正文中图片的提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210148409.9A CN103425644B (zh) 2012-05-14 2012-05-14 网页正文中图片的提取方法及装置

Publications (2)

Publication Number Publication Date
CN103425644A CN103425644A (zh) 2013-12-04
CN103425644B true CN103425644B (zh) 2016-04-06

Family

ID=49650406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210148409.9A Active CN103425644B (zh) 2012-05-14 2012-05-14 网页正文中图片的提取方法及装置

Country Status (1)

Country Link
CN (1) CN103425644B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731824B (zh) * 2013-12-24 2018-12-18 腾讯科技(深圳)有限公司 一种显示图片的方法及装置
CN104836779B (zh) * 2014-02-12 2019-07-26 上海携程商务有限公司 XSS漏洞检测方法、系统和Web服务器
CN104123363B (zh) * 2014-07-21 2018-07-13 北京奇虎科技有限公司 网页主图提取方法及装置
CN104156458B (zh) * 2014-08-20 2017-09-22 北京小度互娱科技有限公司 一种信息的提取方法及装置
CN104881428B (zh) * 2015-04-02 2019-03-29 广州神马移动信息科技有限公司 一种信息图网页的信息图提取、检索方法和装置
CN105868346A (zh) * 2016-03-28 2016-08-17 乐视控股(北京)有限公司 一种应用于网页的图片提取方法及装置
CN106503129A (zh) * 2016-10-20 2017-03-15 福建中金在线信息科技有限公司 一种在网页文章中展示图片的方法及装置
CN106777143A (zh) * 2016-12-19 2017-05-31 北京麒麟合盛网络技术有限公司 一种新闻聚合方法及新闻聚合服务器
CN107066596A (zh) * 2017-04-19 2017-08-18 北京小米移动软件有限公司 生成链接信息的方法和装置
CN110020042B (zh) * 2017-08-25 2021-09-10 杭州海康威视数字技术股份有限公司 一种基于网页的图像获取方法及装置
CN110619103A (zh) * 2019-09-18 2019-12-27 珠海格力电器股份有限公司 网页图文检测方法、装置及存储介质
CN112966596B (zh) * 2021-03-04 2024-05-14 北京秒针人工智能科技有限公司 视频光学字符识别系统方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582080A (zh) * 2009-06-22 2009-11-18 浙江大学 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN101944109A (zh) * 2010-09-06 2011-01-12 华南理工大学 一种基于页面分块的图片摘要提取系统及方法
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎
CN102368266A (zh) * 2011-10-21 2012-03-07 浙江大学 一种用于网络搜索的无标注图片的排序方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582080A (zh) * 2009-06-22 2009-11-18 浙江大学 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN101944109A (zh) * 2010-09-06 2011-01-12 华南理工大学 一种基于页面分块的图片摘要提取系统及方法
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎
CN102368266A (zh) * 2011-10-21 2012-03-07 浙江大学 一种用于网络搜索的无标注图片的排序方法

Also Published As

Publication number Publication date
CN103425644A (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
CN103425644B (zh) 网页正文中图片的提取方法及装置
CN102156737B (zh) 一种中文网页主题内容的提取方法
CN104239298B (zh) 文本信息推荐方法、服务器、浏览器及系统
CN102663135B (zh) 用于嵌入式浏览器的图形化书签实现方法、装置及终端
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN104598556A (zh) 搜索方法及装置
CN101025740A (zh) 图片搜索结果自动播放方法
US20110209046A1 (en) Optimizing web content display on an electronic mobile reader
CN105094775B (zh) 网页生成方法和装置
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN104503988B (zh) 搜索方法及装置
CN104077415A (zh) 搜索方法及装置
CN105550359B (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN105302876A (zh) 基于正则表达式的url过滤方法
CN102831242A (zh) 搜索图片信息的方法及装置
CN102682082A (zh) 基于内容结构特征的网络Flash搜索系统及搜索方法
CN103365877B (zh) 对网页进行转码后建立目录的方法以及服务器
CN103077217A (zh) 用于提供与查询序列相匹配的结果附加信息的方法、装置与设备
CN104899212A (zh) 网页展示方法、服务器及系统
CN106326403A (zh) 网页生成方法及装置
CN110955855B (zh) 一种信息拦截的方法、装置及终端
CN103838728B (zh) 网页信息的处理方法及浏览器
CN101593187B (zh) 用于管理书签的方法和系统
CN106021582B (zh) 位置信息过滤的方法、提取有效网页信息的方法及装置
Gali et al. Extracting representative image from web page

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant