CN105183886A - 网页内容提取方法及装置 - Google Patents

网页内容提取方法及装置 Download PDF

Info

Publication number
CN105183886A
CN105183886A CN201510623497.7A CN201510623497A CN105183886A CN 105183886 A CN105183886 A CN 105183886A CN 201510623497 A CN201510623497 A CN 201510623497A CN 105183886 A CN105183886 A CN 105183886A
Authority
CN
China
Prior art keywords
web page
webpage
database
target
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510623497.7A
Other languages
English (en)
Inventor
朱江
李炅宇
李凡
高大鹏
杨大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Minsheng Banking Corp Ltd
Original Assignee
China Minsheng Banking Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Minsheng Banking Corp Ltd filed Critical China Minsheng Banking Corp Ltd
Priority to CN201510623497.7A priority Critical patent/CN105183886A/zh
Publication of CN105183886A publication Critical patent/CN105183886A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供一种网页内容提取方法及装置。该方法包括:服务器解析网页获得网页类型,所述网页类型包括静态网页和动态网页;若所述网页类型为静态网页,则所述服务器依据所述静态网页的结构从数据库中获取网页内容;若所述网页类型为动态网页,则所述服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容。本发明实施例通过服务器解析网页获得网页类型,对于静态网页,服务器依据静态网页的结构从数据库中获取网页内容,对于动态网页,服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容,使得服务器能够实现对动态网页内容的提取,提高了传统服务器的兼容性。

Description

网页内容提取方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种网页内容提取方法及装置。
背景技术
随着计算机技术的发展,用户通过浏览网页获得所需的信息已经是常用的信息获取方式。
现有技术中,用户在浏览器的地址栏中输入统一资源定位符(UniformResourceLocator,简称URL)或者点击某一个链接登录到该URL或该链接对应的服务器上,该服务器从数据库中调取与该URL或该链接对应的内容,并将该内容返回给用户。
由于传统静态网页逐渐发展为动态呈现网页,传统的服务器从数据库中获取内容的方法已经不适合动态网页内容的提取,导致传统服务器的兼容性较低。
发明内容
本发明实施例提供一种网页内容提取方法及装置,以提高传统服务器的兼容性。
本发明实施例的一个方面是提供一种网页内容提取方法,包括:
服务器解析网页获得网页类型,所述网页类型包括静态网页和动态网页;
若所述网页类型为静态网页,则所述服务器依据所述静态网页的结构从数据库中获取网页内容;
若所述网页类型为动态网页,则所述服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容。
本发明实施例的另一个方面是提供一种网页内容提取装置,包括:
解析模块,用于解析网页获得网页类型,所述网页类型包括静态网页和动态网页;
获取模块,用于若所述网页类型为静态网页,则依据所述静态网页的结构从数据库中获取网页内容;若所述网页类型为动态网页,则模拟浏览器发出动态操作指示信息从数据库中获取网页内容。
本发明实施例提供的网页内容提取方法及装置,通过服务器解析网页获得网页类型,对于静态网页,服务器依据静态网页的结构从数据库中获取网页内容,对于动态网页,服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容,使得服务器能够实现对动态网页内容的提取,提高了传统服务器的兼容性。
附图说明
图1为本发明实施例提供的网页内容提取方法流程图;
图2为本发明实施例提供的网页内容提取装置的结构图。
具体实施方式
图1为本发明实施例提供的网页内容提取方法流程图。本发明实施例针对传统的服务器从数据库中获取内容的方法已经不适合动态网页内容的提取,导致传统服务器的兼容性较低,提供了网页内容提取方法,该方法具体步骤如下:
步骤S101、服务器解析网页获得网页类型,所述网页类型包括静态网页和动态网页;
在本发明实施例中,用户通过用户终端向服务器发送请求获取网页,服务器收到请求后先判断该用户请求的网页的类型,网页类型包括静态网页和动态网页。
步骤S102、若所述网页类型为静态网页,则所述服务器依据所述静态网页的结构从数据库中获取网页内容;
若所述网页类型为静态网页,且静态网页以不同的结构存储在数据库中,具体地,静态网页以树形结构或字符结构存储在数据库。
步骤S103、若所述网页类型为动态网页,则所述服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容。
所述动态操作指示信息包括点击操作指示信息、滚动网页指示信息。
若所述网页类型为动态网页,需要动态操作才能触发获取到该网页内容,即对于某些网页,需要触发网页上的某些事件与服务器进行交互才能获取所需数据,例如,浏览器用户浏览网页时经常需要某些点击网页上的按钮,才能在页面上看到数据,所述服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容,具体的,服务器依据动化的数据采集程序模拟真实用户的行为,如点击鼠标,滚动页面等,类似操作可以通过针对不同网站定制配置文件,植入相关代码模拟触发事件的动作。
本发明实施例通过服务器解析网页获得网页类型,对于静态网页,服务器依据静态网页的结构从数据库中获取网页内容,对于动态网页,服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容,使得服务器能够实现对动态网页内容的提取,提高了传统服务器的兼容性。
在上述实施例的基础上,所述服务器依据所述静态网页的结构从数据库中获取网页内容,包括:若所述静态网页的结构为树形结构,且所述树形结构存储在所述数据库中,则所述服务器依据目标特征信息从所述数据库中获取与所述目标特征信息对应的网页内容,所述目标特征信息包括目标位置信息、目标字体样式、目标关键词;若所述静态网页的结构为字符结构,且所述字符结构存储在所述数据库中,则所述服务器依据目标字符或目标字符串从所述数据库中获取与所述目标字符或所述目标字符串对应的网页内容。
若所述静态网页的结构为树形结构,且所述树形结构存储在所述数据库中,则服务器基于HTML结构的信息提取,通过解析器将网页解析成语法树,然后根据DOM选择器将信息体取。对同一个网站,那些与主题有关的部分常常有着相同的表现风格,根据页面的DOM结构和CSS,能获取到特定的内容。
所述树形结构包括多个级别,每个级别包括多个节点,每个节点对应有特征信息,所述特征信息包括位置信息、字体样式、关键词。
具体的,所述树形结构即为语法树,该语法树括多个级别,每个级别包括多个节点,每个节点对应有特征信息,所述特征信息包括位置信息、字体样式、关键词,服务器依据目标特征信息具体包括目标位置信息、目标字体样式、目标关键词从该语法树中获取目标特征信息对应的网页内容。
若所述静态网页的结构为字符结构,且所述字符结构存储在所述数据库中,服务器根据HTML的字符串,使用正则表达式提取内容。网页中HTML标记有一定的使用习惯和规则,尤其是在各条内容的边界处。各条记录和记录边界处的标记往往呈现一定规律,这些规律可以帮助确定出内容的边界。例如,服务器从数据库中获取包括目标字符或目标字符串的所有字符串,或服务器从数据库中获取以目标字符或目标字符串开头的所有字符串,或者服务器从数据库中获取以目标字符或目标字符串结尾的所有字符串,或者服务器从数据库中获取以目标字符或目标字符串开头、且以目标字符或目标字符串结尾的所有字符串。
本发明实施例通过服务器依据静态网页的结构获取静态网页的网页内容,增加了网页内容获取方式的灵活性。
在本发明实施例中,服务器获取网页内容的方式有三种:第一种为服务器依据目标特征信息从所述数据库中获取与所述目标特征信息对应的网页内容;第二种为服务器依据目标字符或目标字符串从所述数据库中获取与所述目标字符或所述目标字符串对应的网页内容;第三种为服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容。服务器执行这三种方式的速度依次减慢,但是兼容性逐渐增加。
图2为本发明实施例提供的网页内容提取装置的结构图。本发明实施例提供的网页内容提取装置可以执行网页内容提取方法实施例提供的处理流程,如图2所示,网页内容提取装置20包括解析模块21和获取模块22,其中,解析模块21用于解析网页获得网页类型,所述网页类型包括静态网页和动态网页;获取模块22用于若所述网页类型为静态网页,则依据所述静态网页的结构从数据库中获取网页内容;若所述网页类型为动态网页,则模拟浏览器发出动态操作指示信息从数据库中获取网页内容。
本发明实施例通过服务器解析网页获得网页类型,对于静态网页,服务器依据静态网页的结构从数据库中获取网页内容,对于动态网页,服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容,使得服务器能够实现对动态网页内容的提取,提高了传统服务器的兼容性。
在上述实施例的基础上,获取模块22具体用于若所述静态网页的结构为树形结构,且所述树形结构存储在所述数据库中,则依据目标特征信息从所述数据库中获取与所述目标特征信息对应的网页内容,所述目标特征信息包括目标位置信息、目标字体样式、目标关键词;若所述静态网页的结构为字符结构,且所述字符结构存储在所述数据库中,则依据目标字符或目标字符串从所述数据库中获取与所述目标字符或所述目标字符串对应的网页内容。
所述树形结构包括多个级别,每个级别包括多个节点,每个节点对应有特征信息,所述特征信息包括位置信息、字体样式、关键词。
所述动态操作指示信息包括点击操作指示信息、滚动网页指示信息。
本发明实施例提供的网页内容提取装置可以具体用于执行上述图1所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过服务器依据静态网页的结构获取静态网页的网页内容,增加了网页内容获取方式的灵活性。
综上所述,本发明实施例通过服务器解析网页获得网页类型,对于静态网页,服务器依据静态网页的结构从数据库中获取网页内容,对于动态网页,服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容,使得服务器能够实现对动态网页内容的提取,提高了传统服务器的兼容性;通过服务器依据静态网页的结构获取静态网页的网页内容,增加了网页内容获取方式的灵活性。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种网页内容提取方法,其特征在于,包括:
服务器解析网页获得网页类型,所述网页类型包括静态网页和动态网页;
若所述网页类型为静态网页,则所述服务器依据所述静态网页的结构从数据库中获取网页内容;
若所述网页类型为动态网页,则所述服务器模拟浏览器发出动态操作指示信息从数据库中获取网页内容。
2.根据权利要求1所述的方法,其特征在于,所述服务器依据所述静态网页的结构从数据库中获取网页内容,包括:
若所述静态网页的结构为树形结构,且所述树形结构存储在所述数据库中,则所述服务器依据目标特征信息从所述数据库中获取与所述目标特征信息对应的网页内容,所述目标特征信息包括目标位置信息、目标字体样式、目标关键词;
若所述静态网页的结构为字符结构,且所述字符结构存储在所述数据库中,则所述服务器依据目标字符或目标字符串从所述数据库中获取与所述目标字符或所述目标字符串对应的网页内容。
3.根据权利要求2所述的方法,其特征在于,所述树形结构包括多个级别,每个级别包括多个节点,每个节点对应有特征信息,所述特征信息包括位置信息、字体样式、关键词。
4.根据权利要求1所述的方法,其特征在于,所述动态操作指示信息包括点击操作指示信息、滚动网页指示信息。
5.一种网页内容提取装置,其特征在于,包括:
解析模块,用于解析网页获得网页类型,所述网页类型包括静态网页和动态网页;
获取模块,用于若所述网页类型为静态网页,则依据所述静态网页的结构从数据库中获取网页内容;若所述网页类型为动态网页,则模拟浏览器发出动态操作指示信息从数据库中获取网页内容。
6.根据权利要求5所述的网页内容提取装置,其特征在于,所述获取模块具体用于若所述静态网页的结构为树形结构,且所述树形结构存储在所述数据库中,则依据目标特征信息从所述数据库中获取与所述目标特征信息对应的网页内容,所述目标特征信息包括目标位置信息、目标字体样式、目标关键词;若所述静态网页的结构为字符结构,且所述字符结构存储在所述数据库中,则依据目标字符或目标字符串从所述数据库中获取与所述目标字符或所述目标字符串对应的网页内容。
7.根据权利要求6所述的网页内容提取装置,其特征在于,所述树形结构包括多个级别,每个级别包括多个节点,每个节点对应有特征信息,所述特征信息包括位置信息、字体样式、关键词。
8.根据权利要求5所述的网页内容提取装置,其特征在于,所述动态操作指示信息包括点击操作指示信息、滚动网页指示信息。
CN201510623497.7A 2015-09-25 2015-09-25 网页内容提取方法及装置 Pending CN105183886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510623497.7A CN105183886A (zh) 2015-09-25 2015-09-25 网页内容提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510623497.7A CN105183886A (zh) 2015-09-25 2015-09-25 网页内容提取方法及装置

Publications (1)

Publication Number Publication Date
CN105183886A true CN105183886A (zh) 2015-12-23

Family

ID=54905967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510623497.7A Pending CN105183886A (zh) 2015-09-25 2015-09-25 网页内容提取方法及装置

Country Status (1)

Country Link
CN (1) CN105183886A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484895A (zh) * 2016-10-21 2017-03-08 天津市普迅电力信息技术有限公司 基于多重分析的互联网信息精准爬取方法
CN110990671A (zh) * 2019-11-15 2020-04-10 卓尔智联(武汉)研究院有限公司 页面类型甄别装置、方法及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127038A (zh) * 2006-08-18 2008-02-20 鸿富锦精密工业(深圳)有限公司 下载网站静态网页的系统及方法
CN101382958A (zh) * 2008-10-21 2009-03-11 深圳华为通信技术有限公司 网页加载方法和网页加载装置
CN101515300A (zh) * 2009-04-02 2009-08-26 阿里巴巴集团控股有限公司 一种Ajax网页内容的抓取方法及系统
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
CN103905472A (zh) * 2012-12-25 2014-07-02 中国移动通信集团江苏有限公司 一种通过网页方式访问的云存储方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127038A (zh) * 2006-08-18 2008-02-20 鸿富锦精密工业(深圳)有限公司 下载网站静态网页的系统及方法
CN101382958A (zh) * 2008-10-21 2009-03-11 深圳华为通信技术有限公司 网页加载方法和网页加载装置
CN101515300A (zh) * 2009-04-02 2009-08-26 阿里巴巴集团控股有限公司 一种Ajax网页内容的抓取方法及系统
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
CN103905472A (zh) * 2012-12-25 2014-07-02 中国移动通信集团江苏有限公司 一种通过网页方式访问的云存储方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于立艳: "基于HTML的web信息抽取技术的研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
胡军伟等: "正则表达式在web信息抽取中的应用", 《北京信息科技大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484895A (zh) * 2016-10-21 2017-03-08 天津市普迅电力信息技术有限公司 基于多重分析的互联网信息精准爬取方法
CN110990671A (zh) * 2019-11-15 2020-04-10 卓尔智联(武汉)研究院有限公司 页面类型甄别装置、方法及可读存储介质
CN110990671B (zh) * 2019-11-15 2022-06-10 卓尔智联(武汉)研究院有限公司 页面类型甄别装置、方法及可读存储介质

Similar Documents

Publication Publication Date Title
CN110688600A (zh) 基于html页面的在线编辑方法、装置、设备及存储介质
US9330179B2 (en) Configuring web crawler to extract web page information
CN102663062B (zh) 一种处理搜索结果中无效链接的方法及装置
CN106293675B (zh) 系统静态资源加载方法及装置
CN102460432B (zh) 选择性内容提取
CN101609399B (zh) 基于建模的智能化网站开发系统及方法
CN104866509A (zh) 页面元素的定位方法及装置
KR20140038459A (ko) 통합 개발 환경에서의 라이브 브라우저 툴 제공 기법
CN103309884A (zh) 用户行为数据采集方法及系统
CN104331474A (zh) 页面处理方法及装置
CN105045645A (zh) 网页加载方法、装置及系统
US11100069B2 (en) Element identification in a tree data structure
CN102314494B (zh) 一种用于处理网页内容的方法和设备
CN108595697A (zh) 网页集成方法、装置及系统
CN104361092A (zh) 搜索方法及装置
CN102664925A (zh) 一种展现搜索结果的方法及装置
CN103207892A (zh) 一种用于经由网络分享文档的方法和装置
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN109284488B (zh) 基于本地存储修改前端表格列数据的方法、装置及介质
CN105160016A (zh) 用户属性的获取方法及装置
CN104809173A (zh) 一种搜索结果的处理方法和装置
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN108984641A (zh) 一种基于web端的页面跳转方法
CN105550179A (zh) 一种网页收藏方法和浏览器插件
CN114398138A (zh) 界面生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223