CN107016088A - 一种网页文章中图片处理的方法及装置 - Google Patents

一种网页文章中图片处理的方法及装置 Download PDF

Info

Publication number
CN107016088A
CN107016088A CN201710217704.8A CN201710217704A CN107016088A CN 107016088 A CN107016088 A CN 107016088A CN 201710217704 A CN201710217704 A CN 201710217704A CN 107016088 A CN107016088 A CN 107016088A
Authority
CN
China
Prior art keywords
picture
webpage article
home server
file list
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710217704.8A
Other languages
English (en)
Inventor
沈文策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Cnfol Information Technology Co Ltd
Original Assignee
Fujian Cnfol Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Cnfol Information Technology Co Ltd filed Critical Fujian Cnfol Information Technology Co Ltd
Priority to CN201710217704.8A priority Critical patent/CN107016088A/zh
Publication of CN107016088A publication Critical patent/CN107016088A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页文章中图片处理的方法及装置,该方法包括:根据所述获取到的网页文章Html源代码的Html标签提取网页文章的主体内容;根据图片标签,获取到所述网页文章的图片,并提取所述图片的网络路径地址;提取出获取到的所述图片并进行备份保存至本地服务器,并将网络路径地址替换为对应的本地路径地址,并生成图片文件列表发送至所述本地服务器;当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除,同时生成针对所删除图片对应的图片恢复指令。实现了直接从网页文章中过滤出所有图片,并对图片进行相应的处理的目的。

Description

一种网页文章中图片处理的方法及装置
技术领域
本发明涉及图片过滤技术领域,特别是涉及基于网页文章中图片过滤技术的一种文章中图片处理的方法及装置。
背景技术
目前,资讯类网站主要是通过文章来传播新闻信息。一般情况下,文章主要是依靠文字作为载体,同时除了文字信息以外,还放置一些图片,以更加形象直观地体现文章内容。根据某些需要,比如要对文章中的文字内容进行单独的编辑时,就需要将网页文章中的图片过滤出来并且进行相应的移除。同时,在某些情况下也会将移除掉的图片进行对应的恢复。而现有技术中,还没有直接从文章中过滤出所有图片并对相应的图片进行移除,并且能够对移除后的图片进行恢复的技术,并且相关方面的研究也比较少。
发明内容
针对于上述问题,本发明提供一种网页文章中图片处理的方法及装置,实现了直接从网页文章中过滤出所有图片,并对图片进行相应的处理的目的。
为了实现上述目的,根据本发明的第一方面,提供了一种网页文章中图片处理的方法,该方法包括:
获取所述网页文章的Html源代码,根据所述Html源代码的Html标签提取所述网页文章的主体内容;
根据所述Html标签中的图片标签,获取到所述网页文章的主体内容中的图片,并提取所述图片的网络路径地址;
提取出获取到的所述图片并进行备份保存至本地服务器,并将所述图片的网络路径地址替换为对应的本地路径地址,并生成图片文件列表发送至所述本地服务器,其中,所述图片文件列表包含被提取出的所述图片和与所述图片对应的本地路径地址;
当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除。
优选的,所述将所述本地服务器上的所述图片文件列表中的图片删除时,该方法还包括:
生成针对所删除图片对应的图片恢复指令。
优选的,该方法还包括:
当对删除后的所述网页文章中的图片进行恢复时,调用图片恢复指令,获取所述本地服务器上的所述图片文件列表;
根据所述图片文件列表中的所述图片对应的本地路径,查找到在所述本地服务器上备份的所述图片;
将所述图片恢复至所述网页文章中。
根据本发明的第二方面,提供了一种网页文章中图片处理的装置,该装置包括:
获取模块,用于获取所述网页文章的Html源代码,根据所述Html源代码的Html标签提取所述网页文章的主体内容;
提取模块,用于根据所述Html标签中的图片标签,获取到所述网页文章的主体内容中的图片,并提取所述图片的网络路径地址;
文件生成模块,用于提取出获取到的所述图片并进行备份保存至本地服务器,并将所述图片的网络路径地址替换为对应的本地路径地址,并生成图片文件列表发送至所述本地服务器,其中,所述图片文件列表包含被提取出的所述图片和与所述图片对应的本地路径地址;
删除模块,用于当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除。
优选的,所述将所述本地服务器上的所述图片文件列表中的图片删除时,该装置还包括:
指令生成模块,用于生成针对所删除图片对应的图片恢复指令。
优选的,该装置还包括:
调用单元,用于当对删除后的所述网页文章中的图片进行恢复时,调用图片恢复指令,获取所述本地服务器上的所述图片文件列表;
查找单元,用于根据所述图片文件列表中的所述图片对应的本地路径,查找到在所述本地服务器上备份的所述图片;
恢复单元,用于将所述图片恢复至所述网页文章中。
相较于现有技术,本发明通过根据所述网页文章的Html标签提取所述网页文章的主体内容,并根据Html标签中的图片标签,获取到所述网页文章的主体内容中的图片,快速获得了网页文章中的所有图片;同时,将获得的图片备份至本地服务器,并将其对应的网络路径地址替换为本地路径地址,生成图片文件列表,当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除,并生成针对所删除图片对应的图片恢复指令。进而可以对获得的网页文章中的所有图片进行相应的删除或删除后的恢复的处理。实现了直接从网页文章中过滤出所有图片,并对图片进行相应的处理的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一提供的一种网页文章中图片处理的方法的流程示意图;
图2为本发明实施例二提供的一种网页文章中图片处理的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
实施例一
参见图1为为本发明实施例一提供的一种网页文章中图片处理的方法的流程示意图,该方法包括以下步骤:
S11、获取所述网页文章的Html源代码,根据所述Html源代码的Html标签提取所述网页文章的主体内容;
具体的,在网页文章中,除了文章的主体内容以外还有其他的一些干扰因素,比如网页文章中的时间或者重复的内容等,需要根据Html标签提取出网页文章的主体内容,进而对所述的主体内容进行进一步的操作。
S12、根据所述Html标签中的图片标签,获取到所述网页文章的主体内容中的图片,并提取所述图片的网络路径地址;
优选的,在根据图片标签提取出网页文章的主体内容中的图片时,选用的是通过正则表达式进行匹配选择的,由于采用的正则表达式的匹配规则是动态添加的,并非固定式的,要根据具体的网页的Html源代码进行制定。
S13、提取出获取到的所述图片并进行备份保存至本地服务器,并将所述图片的网络路径地址替换为对应的本地路径地址,并生成图片文件列表发送至所述本地服务器,其中,所述图片文件列表包含被提取出的所述图片和与所述图片对应的本地路径地址;
S14、当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除。
相应的,所述将所述本地服务器上的所述图片文件列表中的图片删除时,该方法还包括生成针对所删除图片对应的图片恢复指令。
具体的,当生成针对所删除图片对应的图片恢复指令时,该方法还包括:
当对删除后的所述网页文章中的图片进行恢复时,调用图片恢复指令,获取所述本地服务器上的所述图片文件列表;
根据所述图片文件列表中的所述图片对应的本地路径,查找到在所述本地服务器上备份的所述图片;
将所述图片恢复至所述网页文章中。
通过本发明实施例一公开的技术方案,首先根据所述网页文章的Html标签提取所述网页文章的主体内容,并根据Html标签中的图片标签,获取到所述网页文章的主体内容中的图片,快速获得了网页文章中的所有图片;其次,将获得的图片备份至本地服务器,并将其对应的网络路径地址替换为本地路径地址,生成图片文件列表;最后,当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除,并生成针对所删除图片对应的图片恢复指令。进而可以对获得的网页文章中的所有图片进行相应的删除或删除后的恢复的处理。实现了直接从网页文章中过滤出所有图片,并对图片进行相应的处理的目的。
实施例二
与本发明实施例一公开的网页文章中图片处理的方法相对应,本发明的实施例二还提供了一种网页中图片处理的装置,参见图2为本发明实施例二提供的一种网页文章中图片处理的装置的结构示意图,该装置包括:
获取模块1,用于获取所述网页文章的Html源代码,根据所述Html源代码的Html标签提取所述网页文章的主体内容;
提取模块2,用于根据所述Html标签中的图片标签,获取到所述网页文章的主体内容中的图片,并提取所述图片的网络路径地址;
文件生成模块3,用于提取出获取到的所述图片并进行备份保存至本地服务器,并将所述图片的网络路径地址替换为对应的本地路径地址,并生成图片文件列表发送至所述本地服务器,其中,所述图片文件列表包含被提取出的所述图片和与所述图片对应的本地路径地址;
删除模块4,用于当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除。
相应的,所述将所述本地服务器上的所述图片文件列表中的图片删除时,该装置还包括:
指令生成模块5,用于生成针对所删除图片对应的图片恢复指令。
具体的,该装置还包括:
调用单元,用于当对删除后的所述网页文章中的图片进行恢复时,调用图片恢复指令,获取所述本地服务器上的所述图片文件列表;
查找单元,用于根据所述图片文件列表中的所述图片对应的本地路径,查找到在所述本地服务器上备份的所述图片;
恢复单元,用于将所述图片恢复至所述网页文章中。
在本发明的实施例三中,通过获取模块获得了所述网页文章的主体内容,并根据提取模块快速获得了网页文章中的所有图片;然后在文件生成模块中将获得的图片备份至本地服务器,并将其对应的网络路径地址替换为本地路径地址,生成图片文件列表;最后在删除模块中当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除,同时在指令生成模块中生成针对所删除图片对应的图片恢复指令。进而可以对获得的网页文章中的所有图片进行相应的删除或删除后的恢复的处理。实现了直接从网页文章中过滤出所有图片,并对图片进行相应的处理的目的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种网页文章中图片处理的方法,其特征在于,该方法包括:
获取所述网页文章的Html源代码,根据所述Html源代码的Html标签提取所述网页文章的主体内容;
根据所述Html标签中的图片标签,获取到所述网页文章的主体内容中的图片,并提取所述图片的网络路径地址;
提取出获取到的所述图片并进行备份保存至本地服务器,并将所述图片的网络路径地址替换为对应的本地路径地址,并生成图片文件列表发送至所述本地服务器,其中,所述图片文件列表包含被提取出的所述图片和与所述图片对应的本地路径地址;
当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除。
2.根据权利要求1所述的方法,其特征在于,所述将所述本地服务器上的所述图片文件列表中的图片删除时,该方法还包括:
生成针对所删除图片对应的图片恢复指令。
3.根据权利要求2所述的方法,其特征在于,该方法还包括:
当对删除后的所述网页文章中的图片进行恢复时,调用图片恢复指令,获取所述本地服务器上的所述图片文件列表;
根据所述图片文件列表中的所述图片对应的本地路径,查找到在所述本地服务器上备份的所述图片;
将所述图片恢复至所述网页文章中。
4.一种网页文章中图片处理的装置,其特征在于,该装置包括:
获取模块,用于获取所述网页文章的Html源代码,根据所述Html源代码的Html标签提取所述网页文章的主体内容;
提取模块,用于根据所述Html标签中的图片标签,获取到所述网页文章的主体内容中的图片,并提取所述图片的网络路径地址;
文件生成模块,用于提取出获取到的所述图片并进行备份保存至本地服务器,并将所述图片的网络路径地址替换为对应的本地路径地址,并生成图片文件列表发送至所述本地服务器,其中,所述图片文件列表包含被提取出的所述图片和与所述图片对应的本地路径地址;
删除模块,用于当将所述本地服务器上的所述图片文件列表中的图片删除时,对所述网页文章中对应的图片进行移除。
5.根据权利要求4所述的装置,其特征在于,所述将所述本地服务器上的所述图片文件列表中的图片删除时,该装置还包括:
指令生成模块,用于生成针对所删除图片对应的图片恢复指令。
6.根据权利要求5所述的方装置法,其特征在于,该装置还包括:
调用单元,用于当对删除后的所述网页文章中的图片进行恢复时,调用图片恢复指令,获取所述本地服务器上的所述图片文件列表;
查找单元,用于根据所述图片文件列表中的所述图片对应的本地路径,查找到在所述本地服务器上备份的所述图片;
恢复单元,用于将所述图片恢复至所述网页文章中。
CN201710217704.8A 2017-04-05 2017-04-05 一种网页文章中图片处理的方法及装置 Pending CN107016088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710217704.8A CN107016088A (zh) 2017-04-05 2017-04-05 一种网页文章中图片处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710217704.8A CN107016088A (zh) 2017-04-05 2017-04-05 一种网页文章中图片处理的方法及装置

Publications (1)

Publication Number Publication Date
CN107016088A true CN107016088A (zh) 2017-08-04

Family

ID=59445861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710217704.8A Pending CN107016088A (zh) 2017-04-05 2017-04-05 一种网页文章中图片处理的方法及装置

Country Status (1)

Country Link
CN (1) CN107016088A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052648A (zh) * 2017-12-26 2018-05-18 福建中金在线信息科技有限公司 一种网站图片删除方法、装置及电子设备
CN112541149A (zh) * 2020-12-18 2021-03-23 厦门市美亚柏科信息股份有限公司 一种用于手机网页内容的恢复方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207976A (zh) * 2011-06-24 2011-10-05 厦门雅迅网络股份有限公司 一种网页数据的下载和浏览方法
CN103425633A (zh) * 2012-05-16 2013-12-04 腾讯科技(深圳)有限公司 一种调节网页页面的方法及装置
CN103853417A (zh) * 2012-11-30 2014-06-11 腾讯科技(深圳)有限公司 网络动态图片的滚动分页显示方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207976A (zh) * 2011-06-24 2011-10-05 厦门雅迅网络股份有限公司 一种网页数据的下载和浏览方法
CN103425633A (zh) * 2012-05-16 2013-12-04 腾讯科技(深圳)有限公司 一种调节网页页面的方法及装置
CN103853417A (zh) * 2012-11-30 2014-06-11 腾讯科技(深圳)有限公司 网络动态图片的滚动分页显示方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052648A (zh) * 2017-12-26 2018-05-18 福建中金在线信息科技有限公司 一种网站图片删除方法、装置及电子设备
CN108052648B (zh) * 2017-12-26 2020-08-21 福建中金在线信息科技有限公司 一种网站图片删除方法、装置及电子设备
CN112541149A (zh) * 2020-12-18 2021-03-23 厦门市美亚柏科信息股份有限公司 一种用于手机网页内容的恢复方法和系统
CN112541149B (zh) * 2020-12-18 2022-07-08 厦门市美亚柏科信息股份有限公司 一种用于手机网页内容的恢复方法和系统

Similar Documents

Publication Publication Date Title
CN105138652A (zh) 一种企业关联关系识别方法及系统
CN101477558B (zh) 浏览器标签管理方法及多页面浏览系统
CN103430179B (zh) 在图像数据库中添加新图像和其相关信息的方法、系统以及计算机可读存储介质
CN102710795B (zh) 热点聚合方法及装置
CN102171660A (zh) 从整体数据库备份中备份并恢复所选的有版本的对象
CN104462590B (zh) 信息搜索方法及装置
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN107016088A (zh) 一种网页文章中图片处理的方法及装置
CN107819616A (zh) 自动提取日志的方法、装置及系统
CN107861974B (zh) 一种自适应网络爬虫系统及其数据获取方法
CN108563651A (zh) 一种多视频的目标搜索方法、装置及设备
CN103218452B (zh) 一种识别Hub页中有效链接的方法和装置
CN103605742B (zh) 识别网络资源实体目录页的方法及装置
CN103902720B (zh) 一种关键词的拓展词获取方法及装置
CN103955517B (zh) 将文档型数据库的数据转换至关系型数据库的方法及系统
CN108520065A (zh) 命名实体识别语料库的构建方法、系统、设备及存储介质
CN106878240A (zh) 僵尸主机识别方法及装置
CN102902792B (zh) 列表页识别系统及方法
CN103838728A (zh) 网页信息的处理方法及浏览器
CN107193870A (zh) 网页内容的提取方法和系统
CN104391945B (zh) 数据库文件数据索引的处理方法和装置
CN104424188A (zh) 对获取的网页数据进行更新的系统及方法
CN108038028A (zh) 文件备份方法、装置及文件还原方法、装置
CN101593187B (zh) 用于管理书签的方法和系统
CN106354846A (zh) 基于大数据的新闻智能选稿方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170804

RJ01 Rejection of invention patent application after publication