CN107273491A - 网页分割方法、装置及电子设备 - Google Patents

网页分割方法、装置及电子设备 Download PDF

Info

Publication number
CN107273491A
CN107273491A CN201710450838.4A CN201710450838A CN107273491A CN 107273491 A CN107273491 A CN 107273491A CN 201710450838 A CN201710450838 A CN 201710450838A CN 107273491 A CN107273491 A CN 107273491A
Authority
CN
China
Prior art keywords
row
html document
block
row block
line number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710450838.4A
Other languages
English (en)
Other versions
CN107273491B (zh
Inventor
童名文
乐惠骁
夏莹
陈敏
周闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201710450838.4A priority Critical patent/CN107273491B/zh
Publication of CN107273491A publication Critical patent/CN107273491A/zh
Application granted granted Critical
Publication of CN107273491B publication Critical patent/CN107273491B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供的一种网页分割方法、装置及电子设备,涉及网页分割技术领域。对第一HTML文档进行规范化处理,获得规范化后的第二HTML文档;基于第二HTML文档以及预设的行深度计算规则,获取以行号为索引的行深度表;获取第二HTML文档中标题内容,建立以行号为索引的标题表;然后基于去除第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得文本信息对应的多个行块,再计算多个行块各自对应的行块长度,以建立行块分布函数;基于行块分布函数及以行号为索引的标题表,获取多个标题块;基于多个标题块、以行号为索引的行深度表及预设的合并块规则,对第一HTML文档进行合并块处理,减少时间复杂度和空间复杂度。

Description

网页分割方法、装置及电子设备
技术领域
本发明涉及网页分割技术领域,具体而言,涉及一种网页分割方法、装置及电子设备。
背景技术
目前提出了很多网页分割算法,例如微软亚洲研究院提出了一种基于视觉特征的网页分割方法(VIPS)首先将整个网页表示成一棵DOM树,根据颜色大小等网页版面特征,利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块。每个节点通过一致度(DOC)来衡量它与其他节点的语义相关性,从而将相关的分块聚集在一起;利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止。再如基于文档对象模型(DOM)的分割方法:DOM树建树和查找节点中的信息将花费大量时间,而且由于部分网页没有遵循标准W3C的规范,这样可能会导致DOM树的建树错误,因此这一类算法也有很大的局限性。现有的网页分割算法需要考虑大量的网页内容和视觉信息,都需要构建DOM树,在DOM树的基础上执行网页分割的算法,时间复杂度较大。
发明内容
有鉴于此,本发明实施例的目的在于提供一种网页分割方法、装置及电子设备,以改善上述问题。为了实现上述目的,本发明实施例采取的技术方案如下:
第一方面,本发明实施例提供了一种网页分割方法,所述方法包括对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档;基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表;获取所述第二HTML文档中标题内容,建立以行号为索引的标题表;基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数;基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块;基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。
第二方面,本发明实施例提供了一种网页分割装置,所述装置包括规范化处理单元、行深度表获得单元、标题表建立单元、行块分布函数建立单元、标题块获得单元和合并单元。规范化处理单元,用于对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档。行深度表获得单元,用于基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表。标题表建立单元,用于获取所述第二HTML文档中标题内容,建立以行号为索引的标题表。行块分布函数建立单元,用于基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数。标题块获得单元,用于基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块。合并单元,用于基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。
第三方面,本发明实施例提供了一种电子设备,所述电子设备包括处理器和存储器。所述处理器和所述存储器通过总线电连接。所述存储器用于储存程序。所述处理器用于通过所述总线调用存储在所述存储器中的程序,执行:对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档;基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表;获取所述第二HTML文档中标题内容,建立以行号为索引的标题表;基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数;基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块;基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。
本发明实施例提供了一种网页分割方法、装置及电子设备,对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档;基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表;获取所述第二HTML文档中标题内容,建立以行号为索引的标题表;基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数;基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块;基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页,减少时间复杂度和空间复杂度。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种电子设备的结构框图;
图2为本发明第一实施例提供的网页分割方法的流程图;
图3为本发明第一实施例提供的网页的行块分布和网页内容之间呈现的关系示意图;
图4为本发明第一实施例提供的网页分割方法的网页分割效果示意图;
图5本发明第二实施例提供的网页分割装置的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参阅图1,图1示出了本发明实施例提供的一种电子设备100的结构框图。如图1所示,电子设备100可以包括存储器110、存储控制器111、处理器112、外设接口113、输入输出单元115、音频单元116、显示单元117和网页分割装置。
所述存储器110、存储控制器111、处理器112、外设接口113、输入输出单元115、音频单元116、显示单元117各元件之间直接或间接地电连接,以实现数据的传输或交互。例如,这些元件之间可以通过一条或多条通讯总线或信号总线实现电连接。网页分割方法分别包括至少一个可以以软件或固件(firmware)的形式存储于存储器110中的软件功能模块,例如所述网页分割装置包括的软件功能模块或计算机程序。
存储器110可以存储各种软件程序以及模块,如本申请实施例提供的网页分割方法及装置对应的程序指令/模块。处理器112通过运行存储在存储器110中的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本申请实施例中的网页分割方法。存储器110可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(ReadOnly Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器112可以是一种集成电路芯片,具有信号处理能力。上述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述外设接口113将各种输入/输入装置耦合至处理器112以及存储器110。在一些实施例中,外设接口113、处理器112以及存储控制器111可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元115用于提供给用户输入数据实现用户与服务器(或本地终端)的交互。所述输入输出单元115可以是,但不限于,鼠标和键盘等。
音频单元116向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元117在所述服务器(或本地终端)与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元117可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
可以理解,图1所示的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
于本发明实施例中,所述电子设备100可以作为用户终端,也可以作为服务器。所述用户终端可以为:PC(personal computer)电脑、平板电脑、手机、电子阅读器、笔记本电脑、智能电视、机顶盒、车载终端等终端设备。电子设备100中安装有客户端,该客户端可以是浏览器也可以是第三方应用软件,与服务器(Server)端相对应。例如,用户可以通过浏览器浏览网页。
第一实施例
请参阅图2,本发明实施例提供了一种网页分割方法,所述方法包括:步骤S200、步骤S210、步骤S220、步骤S230、步骤S240和步骤S250。
步骤S200:对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档。
本实施例中,可以无需使整个Html文档符合W3C标准,对所述HTML文档进行规范化处理可以包括:若有一个Html标签横跨多行,则将其规范化为一行内容;规范化<h>标签对之间的内容,使其之间的Html信息的组织符合W3C的标准;去除<script>标签及中间的JavaScript代码,并保留空白位置信息。以此获得规范化后的第二HTML文档。
步骤S210:基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表。
基于步骤S210,进一步地,根据所述预设的行深度计算规则,从文件头开始按行依次遍历所述第二HTML文档,获得所述第二HTML文档对应的以行号为索引的行深度表。
具体地,所述预设的行深度计算规则为:起始深度为0,遇到一个成对的Html标签中的前标签,深度加1;遇到一个成对的Html标签中的后标签,深度减1;遇到单个Html标签中的‘<’,深度加1,遇到单个Html标签中的“/>”,深度减1。按照此规则,从文件头开始按行依次遍历所述第二HTML文档,获得所述第二HTML文档对应的以行号为索引的行深度表。
步骤S220:获取所述第二HTML文档中标题内容,建立以行号为索引的标题表。
步骤S220,进一步地,获取所述第二HTML文档中<h>标签对之间的标题内容,建立以行号为索引的标题表。
步骤S230:基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数。
基于步骤S230,进一步地,以去除所述第二HTML文档中所有标签后的文本信息中的行号为轴,取其下方N行,定义为一个行块;
计算去掉所述行块中的所有空白符后的字符总数,将计算结果作为该行块的行块长度;
重复以上步骤,获得所述文本信息对应的多个行块和所述多个行块各自对应的行块长度;
以所述文本信息中的行号为自变量,所述多个行块各自对应的行块长度为因变量,建立行块分布函数。
具体地,去除所述第二HTML文档中所有标签,留下标签内的文本信息,保留去除标签后的空白位置,即不改变文本所在的行号,留下的位置称为Ctext(不管是否为空白);以Ctext为轴,取标签所在行的下面N行(N<5,本实施例中取N=3,N称为行块厚度),合起来定义为一个行块Cblock。行块i是以Ctext中行号i为轴的行块,则一个Cblock,计算去掉其中的所有空白符(\n,\r,\t等)后的字符总数,将计算结果作为该行块的行块长度。重复以上步骤,获得所述文本信息对应的多个行块和所述多个行块各自对应的行块长度。linenum(Cblock)表示Cblock的行号,以Cblock每行为轴,共有linenum(Clock)-N个Cblock。然后依照每个Cblock的行号为X轴,其各自对应的行块长度为Y轴,建立[1,linenum(Cblock)-N]上的行块分布函数。处理上述过程共需要的事件复杂度为O(N);需要三个二维关系表存储所需遍历过程中记录的数据。
引入块的概念:若一个行块的行块长度不为0且其前一个行块的行块长度为0,那么从该行块开始到下一个行块长度为0的行块的前一个行块之间所有的行块称为一个块。遍历行块分布函数可以得到记录块的数据表。
在观察了大量的HTML文档后,发现文档的行块分布函数呈现出一定的规律,即视觉上成为一块的网页内容的行块分布规律,即内容块(CB)是总由一个标题块(TB)和若干个正文块(BB)组合起来的。
CB=TB+n*BB(n≥0)
同时,HTML文档的内容是线性组织的。一般来说,开发中总是会将在视觉或语义上相邻的网页信息写在相邻的代码段落中,所以,可以先验地认为,大多数的网页的行块分布和网页内容之间总是呈现如图3所示的关系,即网页上视觉和内容的分块映射到行块分布函数中,是以标题块(Title Block,TB)作为分隔符的。要对一个网页的内容进行分割,就需要找出网页中所有的标题块,之后以标题块为分割点直接对整个HTML文档进行分块,实现网页的分割。
步骤S240:基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块。
基于步骤S240,进一步地,通过所述行块分布函数,查找所述第一HTML文档中所有的块集合中对应行块长度n符合[n1,n2,…nk](n1=n2)且n1≤C的块,加入可能的标题块集合P;查找到所述第一HTML文档中所有由<h>标签映射的且n1≤C的块,加入标题集合H。遍历集合P中的所有块,统计所有B∈P的块B中的n1并将其加入长度集合Lp,遍历集合L,查找到其中重复出现的最多的行块长度Kp。遍历集合H中的所有块B,统计所有B∈H的块B中的n1并将其加入长度集合Lh。遍历集合Lh,计算Lh中所有元素的平均值Kh。若H非空,则有标题块K=c1×Kp+c2×Kh,c1和c2为两个权重系数,c1≤c2且c1+c2=1,c1∈[0.3,0.4]。若H为空,则K=Kp。设置一个容差值δ,C1=Max(K-δ,0),C2=Min(K+δ,C),δ∈[1,3],C为预设正数。在计算得到了C1,C2之后,遍历集合P,若B∈P且B中的n1满足C1≤n1≤C2,则将B加入结合H。
因为文档中还存在非<h>标签的标题块,一般而言标题的第一个行块长度满足一定的条件,该条件依照以后的<h>标题表而定。
所述多个标题块可以包括基于步骤S240获得的<h>标签标题块,还可以包括第一行块,所述第一行块属于所述多个行块且满足预设条件。
部分标题块满足n1=n2但是由于正文信息字数过多没有被加入B中,初次判断完标题块之后,在此遍历行块分布函数,第一行块满足的所述预设条件为:以第一行块为中心,上下三个块之内有标题块;且该第一行块对应的HTML正文信息字数小于等于M,M为一常数,一般取值在10-15之间,则该第一行块块也为一个标题块,并将其加入集合H。
步骤S250:基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。
基于步骤S250,进一步地,在得到了所有的标题块之后,就可以进行块的合并了。合并过程是遍历块的过程,以块在文档中的先后位置为顺序,从上往下,分两步进行。所述预设的合并块规则包括第一合并规则和第二合并规则。
第一步以标题块(TB)为分割界限,进行标题块和正文块(BB)的合并,合并成为一个内容块(CB)。第一合并规则如下:
从块分布的起始开始向下遍历,若整个第一HTML文档中的第一个块不是TB,则从第一个块开始向下合并,直到遇到第一个TB为止。该TB之前的所有BB合并为一个CB。
若B1为TB,则顺序向下遍历,直到发现下一个块B2,B2满足B2的块深度小于其上一块(正文块或标题块)且B2是标题块,将B1开始(包括B1)到B2的前一个块之间的所有块合并为一个CB。然后从B2开始,继续向下遍历,直到结束。
第二步进行连续标题块的合并。第二合并规则如下:
重新遍历整个第一HTML文档的块。当发现块B1满足B1是一个标题块,则顺序向下遍历,直到发现第一个内容块B2为止,将B1开始(包括B2)到B2的前一个块之间的所有块合并为一个CB。然后从B2开始,继续向下遍历,直到结束。综上,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。
为了更进一步地说明本发明实施例提供的网页分割方法的有益效果,本实施例中以获取到的40张网页进行测试,网页主要分为四类,学校主页、博客日志、资源网站和政府网站。每类有10张网页进行测试,测试结果如图4所示,效果显著。
本发明实施例提供的一种网页分割方法,所述方法包括对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档;基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表;获取所述第二HTML文档中标题内容,建立以行号为索引的标题表;基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数;基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块;基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。无需建立DOM树,可以一次遍历待分割网页对应的HTML文档,获取相应的行块信息,如行块分布函数、行块长度、标题表等,无需对HTML文档进行遍历操作,再通过对行块信息进行遍历分析处理,获得整个HTML文档的标题块和内容块区域信息,以标题块为分割点对整个HTML文档进行快速分割,能在极少的计算资源的情况下实现快速的网页分割,减少时间复杂度和空间复杂度。
第二实施例
请参阅图5,本发明实施例提供了一种网页分割装置300,所述装置300包括规范化处理单元310、行深度表获得单元320、标题表建立单元330、行块分布函数建立单元340、标题块获得单元350和合并单元360。
规范化处理单元310,用于对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档。
行深度表获得单元320,用于基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表。
作为一种实施方式,行深度表获得单元320可以包括行深度表获得子单元321。
行深度表获得子单元321,用于根据所述预设的行深度计算规则,从文件头开始按行依次遍历所述第二HTML文档,获得所述第二HTML文档对应的以行号为索引的行深度表。
标题表建立单元330,用于获取所述第二HTML文档中标题内容,建立以行号为索引的标题表。
作为一种实施方式,标题表建立单元330可以包括标题表建立子单元331。
标题表建立子单元331,用于获取所述第二HTML文档中<h>标签对之间的标题内容,建立以行号为索引的标题表。
行块分布函数建立单元340,用于基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数。
作为一种实施方式,行块分布函数建立单元340可以包括定义子单元341、计算子单元342、长度获得子单元343、建立子单元344。
定义子单元341,用于以去除所述第二HTML文档中所有标签后的文本信息中的行号为轴,取其下方N行,定义为一个行块。
计算子单元342,用于计算去掉所述行块中的所有空白符后的字符总数,将计算结果作为该行块的行块长度。
长度获得子单元343,用于重复以上步骤,获得所述文本信息对应的多个行块和所述多个行块各自对应的行块长度。
建立子单元344,用于以所述文本信息中的行号为自变量,所述多个行块各自对应的行块长度为因变量,建立行块分布函数。
标题块获得单元350,用于基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块。
合并单元360,用于基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。
以上各单元可以是由软件代码实现,此时,上述的各单元可存储于存储器110内。以上各单元同样可以由硬件例如集成电路芯片实现。
本发明实施例提供的网页分割装置300,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种网页分割方法,其特征在于,所述方法包括:
对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档;
基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表;
获取所述第二HTML文档中标题内容,建立以行号为索引的标题表;
基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数;
基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块;
基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表,包括:
根据所述预设的行深度计算规则,从文件头开始按行依次遍历所述第二HTML文档,获得所述第二HTML文档对应的以行号为索引的行深度表。
3.根据权利要求1所述的方法,其特征在于,所述获取所述第二HTML文档中标题内容,建立以行号为索引的标题表,包括:
获取所述第二HTML文档中<h>标签对之间的标题内容,建立以行号为索引的标题表。
4.根据权利要求1所述的方法,其特征在于,所述多个标题块包括第一行块,所述第一行块属于所述多个行块且满足预设条件。
5.根据权利要求1所述的方法,其特征在于,所述基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数,包括:
以去除所述第二HTML文档中所有标签后的文本信息中的行号为轴,取其下方N行,定义为一个行块;
计算去掉所述行块中的所有空白符后的字符总数,将计算结果作为该行块的行块长度;
重复以上步骤,获得所述文本信息对应的多个行块和所述多个行块各自对应的行块长度;
以所述文本信息中的行号为自变量,所述多个行块各自对应的行块长度为因变量,建立行块分布函数。
6.一种网页分割装置,其特征在于,所述装置包括:
规范化处理单元,用于对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档;
行深度表获得单元,用于基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表;
标题表建立单元,用于获取所述第二HTML文档中标题内容,建立以行号为索引的标题表;
行块分布函数建立单元,用于基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数;
标题块获得单元,用于基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块;
合并单元,用于基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。
7.根据权利要求6所述的装置,其特征在于,所述行深度表获得单元包括:
行深度表获得子单元,用于根据所述预设的行深度计算规则,从文件头开始按行依次遍历所述第二HTML文档,获得所述第二HTML文档对应的以行号为索引的行深度表。
8.根据权利要求6所述的装置,其特征在于,所述标题表建立单元包括:
标题表建立子单元,用于获取所述第二HTML文档中<h>标签对之间的标题内容,建立以行号为索引的标题表。
9.根据权利要求6所述的装置,其特征在于,所述行块分布函数建立单元包括:
定义子单元,用于以去除所述第二HTML文档中所有标签后的文本信息中的行号为轴,取其下方N行,定义为一个行块;
计算子单元,用于计算去掉所述行块中的所有空白符后的字符总数,将计算结果作为该行块的行块长度;
长度获得子单元,用于重复以上步骤,获得所述文本信息对应的多个行块和所述多个行块各自对应的行块长度;
建立子单元,用于以所述文本信息中的行号为自变量,所述多个行块各自对应的行块长度为因变量,建立行块分布函数。
10.一种电子设备,所述电子设备包括处理器和存储器,所述处理器和所述存储器通过总线电连接;所述存储器用于储存程序;所述处理器用于通过所述总线调用存储在所述存储器中的程序,执行:
对获取到的待分割网页对应的第一HTML文档进行规范化处理,获得规范化后的第二HTML文档;
基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表;
获取所述第二HTML文档中标题内容,建立以行号为索引的标题表;
基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数;
基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块;
基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页。
CN201710450838.4A 2017-06-15 2017-06-15 网页分割方法、装置及电子设备 Expired - Fee Related CN107273491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710450838.4A CN107273491B (zh) 2017-06-15 2017-06-15 网页分割方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710450838.4A CN107273491B (zh) 2017-06-15 2017-06-15 网页分割方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107273491A true CN107273491A (zh) 2017-10-20
CN107273491B CN107273491B (zh) 2020-07-24

Family

ID=60067759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710450838.4A Expired - Fee Related CN107273491B (zh) 2017-06-15 2017-06-15 网页分割方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107273491B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691865A (zh) * 2022-03-03 2022-07-01 支付宝(杭州)信息技术有限公司 一种基金产品的审核方法、装置以及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924376B1 (en) * 2010-01-31 2014-12-30 Bryant Christopher Lee Method for human ranking of search results
CN104598577A (zh) * 2015-01-14 2015-05-06 晶赞广告(上海)有限公司 一种网页正文的提取方法
CN105183801A (zh) * 2015-08-25 2015-12-23 北京信息科技大学 网页正文抽取方法及装置
CN105740355A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 基于聚集文本密度的网页正文提取方法及装置
CN106227770A (zh) * 2016-07-14 2016-12-14 杭州安恒信息技术有限公司 一种智能化的新闻网页信息抽取方法
CN106446072A (zh) * 2016-09-07 2017-02-22 百度在线网络技术(北京)有限公司 网页内容的处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924376B1 (en) * 2010-01-31 2014-12-30 Bryant Christopher Lee Method for human ranking of search results
CN104598577A (zh) * 2015-01-14 2015-05-06 晶赞广告(上海)有限公司 一种网页正文的提取方法
CN105183801A (zh) * 2015-08-25 2015-12-23 北京信息科技大学 网页正文抽取方法及装置
CN105740355A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 基于聚集文本密度的网页正文提取方法及装置
CN106227770A (zh) * 2016-07-14 2016-12-14 杭州安恒信息技术有限公司 一种智能化的新闻网页信息抽取方法
CN106446072A (zh) * 2016-09-07 2017-02-22 百度在线网络技术(北京)有限公司 网页内容的处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯明燕,杨天奇: "基于网页分割的Web信息提取算法", 《微型机与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691865A (zh) * 2022-03-03 2022-07-01 支付宝(杭州)信息技术有限公司 一种基金产品的审核方法、装置以及设备

Also Published As

Publication number Publication date
CN107273491B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN107204184B (zh) 语音识别方法及系统
CN105069102B (zh) 信息推送方法和装置
CN103258000B (zh) 对网页中高频关键词进行聚类的方法及装置
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
US9183288B2 (en) System and method of structuring data for search using latent semantic analysis techniques
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN102156737B (zh) 一种中文网页主题内容的提取方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
US20120005686A1 (en) Annotating HTML Segments With Functional Labels
CN103927309B (zh) 一种对业务对象标注信息标签的方法及装置
CN104598577B (zh) 一种网页正文的提取方法
CN104239331A (zh) 一种用于实现评论搜索引擎排序的方法和装置
CN103838798B (zh) 页面分类系统及页面分类方法
US20140379719A1 (en) System and method for tagging and searching documents
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN105550359B (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN110020312B (zh) 提取网页正文的方法和装置
CN103123624A (zh) 确定中心词的方法及装置、搜索方法及装置
KR20160042896A (ko) 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
US20170199860A1 (en) Systems and methods for generating tables from print-ready digital source documents
CN103365842B (zh) 一种页面浏览推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200724