CN108628977B - 一种网页内容处理方法、装置及计算机可读存储介质 - Google Patents

一种网页内容处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN108628977B
CN108628977B CN201810381738.5A CN201810381738A CN108628977B CN 108628977 B CN108628977 B CN 108628977B CN 201810381738 A CN201810381738 A CN 201810381738A CN 108628977 B CN108628977 B CN 108628977B
Authority
CN
China
Prior art keywords
node
theme
topic
unknown
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810381738.5A
Other languages
English (en)
Other versions
CN108628977A (zh
Inventor
周宝成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810381738.5A priority Critical patent/CN108628977B/zh
Publication of CN108628977A publication Critical patent/CN108628977A/zh
Application granted granted Critical
Publication of CN108628977B publication Critical patent/CN108628977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页内容处理方法,包括:对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。本发明还同时公开了一种网页内容处理装置以及计算机可读存储介质。

Description

一种网页内容处理方法、装置及计算机可读存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页内容处理方法、装置及计算机可读存储介质。
背景技术
目前,随着数据量急剧增大以及数据挖掘技术的快速发展,在大数据开发中,从网页中提取特定主题的网页内容的需求越来越多,所述特定主题的网页内容为用于描述某一主题的信息数据,比如某个人物的简介信息。
目前,在提取特定主题的网页内容时,按照网页页面的编辑格式来区分不同主题的网页内容。比如,可以将编辑格式或超文本标记语言(HTML,Hyper Text MarkupLanguage)标签相同的网页内容视为同一主题的网页内容。
但是,由于相同主题的网页内容可能采用不同的HTML语言描述,这对提取特定主题的网页内容,容易造成误提取、漏提取的情况发生。
因此亟需找到一种准确提取特定主题的网页内容的技术方案。
发明内容
有鉴于此,本发明实施例期望提供一种网页内容处理方法、装置及计算机可读存储介质,能够准确提取特定主题的网页内容。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种网页内容处理方法,所述方法包括:
对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;
针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;
从识别的所有主题中,确定满足预设条件的主题;
输出确定的主题对应节点的网页内容。
上述方案中,所述基于确定的位置,利用对应的分类方法,识别对应数据块的网页内容的主题,包括:
针对确定的树状结构中的第一节点,对所述第一节点的文档信息进行分析,确定对应所述第一节点的主题;所述第一节点为终端节点;
针对确定的树状结构中的第二节点,将所述第二节点对应的子节点的主题进行合并,得到对应所述第二节点的主题;所述第二节点为非终端节点。
上述方案中,所述方法还包括:
针对未知主题节点,采用以下方式之一识别未知主题节点的主题:
基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题;
基于节点在所述树状结构中的等级关系,识别未知主题节点的主题;
其中,所述未知主题节点为第一节点中未识别出主题的节点。
上述方案中,所述基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题,包括:
利用所述树状结构,确定与未知主题节点相邻的至少一个节点;
利用所述未知主题节点以及相邻的至少一个节点,构建马尔科夫链;
根据所述未知主题节点在所述马尔科夫链中的位置,以及与未知主题节点相邻的节点的主题,利用预设主题模型,确定相邻的节点的主题转移至预设主题的概率;
将概率最大的主题作为未知主题节点的主题。
上述方案中,所述基于节点在所述树状结构中的等级关系,识别未知主题节点的主题,包括:
利用所述树状结构,确定每个节点在所述树状结构中的等级关系;
利用确定的等级关系,确定未知主题节点与其他节点的等级差距;
将满足等级差距小于预设等级阈值对应的节点的主题作为所述未知主题节点的主题。
上述方案中,所述输出确定的主题对应节点的网页内容,包括:
确定与所述确定的主题对应节点所属的子树;
获取所述子树的网页内容;
输出并显示所述网页内容。
本发明实施例提供一种网页内容处理装置,所述装置包括:
解析模块,用于对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;
识别模块,用于针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;
确定模块,用于从识别的所有主题中,确定满足预设条件的主题;
输出模块,用于输出确定的主题对应节点的网页内容。
上述方案中,所述识别模块,还用于针对未知主题节点,采用以下方式之一识别未知主题节点的主题:基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题;基于节点在所述树状结构中的等级关系,识别未知主题节点的主题;其中,所述未知主题节点为第一节点中未识别出主题的节点。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上面所述任一项网页内容处理方法的步骤。
本发明实施例提供一种网页内容处理装置,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器用于运行所述计算机程序时,执行上面所述任一项网页内容处理方法的步骤。
本发明实施例提供的网页内容处理方法、装置及计算机可读存储介质,对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。在本发明实施例中,基于节点在网页的树状结构中的位置,识别对应节点的主题,并输出满足预设条件的主题对应节点的网页内容,显然,能够准确提取特定主题的网页内容。
附图说明
图1为本发明实施例网页内容处理方法的实现流程示意图;
图2为本发明实施例网页内容处理的具体实现流程示意图;
图3为本发明实施例本发明实施例对网页解析得到树状结构的示意图;
图4为本发明实施例在树状结构中标记各个节点主题的示意图;
图5为本发明实施例构建的马尔科夫链的示意图;
图6为本发明实施例网页内容处理装置的组成结构示意图一;
图7为本发明实施例网页内容处理装置的组成结构示意图二。
具体实施方式
本发明实施例中,对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
如图1所示,详细说明本发明实施例网页内容处理方法,包括以下步骤:
步骤101:对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块。
实际应用时,可以基于HTML标签对网页进行解析。所述HTML标签包括table、div、p、span等等。
步骤102:针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题。
这里,节点在所述树状结构中对应的位置为:节点为终端节点,或者节点为非终端节点。
在一实施例中,所述基于确定的位置,利用对应的分类方法,识别对应数据块的网页内容的主题,包括:针对确定的树状结构中的第一节点,对所述第一节点的文档信息进行分析,确定对应所述第一节点的主题;所述第一节点为终端节点;针对确定的树状结构中的第二节点,将所述第二节点对应的子节点的主题进行合并,得到对应所述第二节点的主题;所述第二节点为非终端节点。
实际应用时,如果节点为终端节点,则利用朴素贝叶斯方法,对所述节点的文档信息进行分析,得到对应节点的主题;如果节点为非终端节点,则利用层次的聚类方法,将所述节点对应的子节点的主题进行合并,得到对应节点的主题。
在一实施例中,所述方法还包括:针对未知主题节点,采用以下方式之一识别未知主题节点的主题:基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题;基于节点在所述树状结构中的等级关系,识别未知主题节点的主题。其中,所述未知主题节点为第一节点中未识别出主题的节点。
实际应用时,可以基于节点在所述树状结构中的等级关系,确定与未知主题节点相邻且结构相似的已知主题节点,将已知主题节点的主题作为所述未知主题节点的节点。
还可以基于构建的马尔科夫链,确定各个节点在所述马尔科夫链中的位置,基于相邻节点对应的主题确定独立事件;并利用预设主题模型,确定每个独立事件的概率;基于每个独立事件的概率,确定所有独立事件同时发生的概率,基于同时发生的概率,识别未知主题节点的主题。
在一实施例中,所述基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题,包括:利用所述树状结构,确定与未知主题节点相邻的至少一个节点;利用所述未知主题节点以及相邻的至少一个节点,构建马尔科夫链;根据所述未知主题节点在所述马尔科夫链中的位置,以及与未知主题节点相邻的节点的主题,利用预设主题模型,确定相邻的节点的主题转移至预设主题的概率;将概率最大的主题作为未知主题节点的主题。
在一实施例中,所述基于节点在所述树状结构中的等级关系,识别未知主题节点的主题,包括:利用所述树状结构,确定每个节点在所述树状结构中的等级关系;利用确定的等级关系,确定未知主题节点与其他节点的等级差距;将满足等级差距小于预设等级阈值对应的节点的主题作为所述未知主题节点的主题。
步骤103:从识别的所有主题中,确定满足预设条件的主题。
实际应用时,按照所述树状结果遍历所有节点,确定满足预设条件的主题。其中,预设条件可以为电影简介信息等等。
步骤104:输出确定的主题对应节点的网页内容。
在一实施例中,所述输出确定的主题对应节点的网页内容,包括:确定与所述确定的主题对应节点所属的子树;获取所述子树的网页内容;输出并显示所述网页内容。
本发明实施例提供的网页内容处理方法,对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。在本发明实施例中,基于节点在网页的树状结构中的位置,识别对应节点的主题,并输出满足预设条件的主题对应节点的网页内容,显然,能够准确提取特定主题的网页内容。
下面以具体实施例为例,详细说明本发明在实际应用中的实现过程及原理。
图2为本发明实施例网页内容处理的具体实现流程示意图,具体实现过程,包括如下步骤:
步骤201:对网页进行解析,得到数据块。
这里,基于HTML标签对网页进行解析得到数据块,原因为:由于可以基于HTML标签并结合HTML语言,控制网页内容的显示特征,以百度百科网页为例,由HTML标签控制的百度百科网页中的内容可能和某个主题具有一定的相关性。因此,可以基于HTML标签对网页进行解析得到数据块,并基于数据块对应的主题确定网页内容的主题。其中,HTML标签包括:table、div、p、span等等,显示特征包括:显示位置和显示样式。
图3为本发明实施例对网页解析得到树状结构的示意图。如图3所示,使用预先定义好的HTML标签如table、div、p、span,将网页解析成树状图,所述树状图包含至少一个节点;其中,HTML标签实际使用时可以嵌套使用。
图3中,树状图中的每个节点分别对应一个数据块,并可能和某些主题相关。具体地,树状图中的子节点包含一定的网页文档信息,所述网页文档信息可能和某一个主题相关;树状图中的父节点包含子节点的网页文档信息,父节点的主题和子节点的主题相关。
步骤202:识别每个节点的主题。
顺序遍历图3中的树状图,终端节点的主题识别过程,具体包括以下步骤:
步骤a:对节点对应的数据块中的文档信息进行提取,并对文档信息进行分类并打分:
具体地,首先,对节点对应的数据块的文档信息进行分词,然后,采用经过拉普拉斯平滑的朴素贝叶斯方法计算每个词对应主题的概率p(topici);最后,按照公式(1)计算每个词对应主题的分值score,并选取分值最大的主题作为节点的主题。
scorei=p(topici)/∑p(topici)(1)
步骤b:将分值score小于阈值的主题设定为未知主题,将分值score大于或等于阈值的主题设定为已知主题,设定为未知主题的节点标记为已知主题节点,设定为未知主题的节点标记为未知主题节点。
需要注意的是,朴素贝叶斯分类方法的参数及阈值,均采用人工标注的数据进行训练获得。假定需要提取的N个主题,并增加一个未知主题,共N+1个主题,作为文本分类器的参数。其中,未知主题作为前N个主题未包含的主题。
非终端节点的主题识别过程,具体包括:使用基于层次的自底向上聚类方法,确定以所述非终端节点为根节点的子树是否和某个主题相关。具体地,判断所述非终端节点的各个子节点是否都被标记为同一个主题,其中,未知主题节点的主题可以标记为与已知主题节点的主题相同。
图4为本发明实施例在树状结构中标记各个节点主题的示意图。如图4所示,树状结构中包含若干个已知主题节点,以及未知主题节点。
步骤203:识别未知主题节点的主题。
这里,识别未知主题节点的主题的方法包括两种:
第一种、基于未知主题节点对应的标签,判断未知主题节点的结构是否与相邻的已知主题节点的结构相似。如果相似,则将未知主题节点的主题标记为与已知主题节点的主题相同的主题。
具体地,可以根据某一网站的网页对应的标签之间的等级关系,构建等级关系树如父子关系树,在等级关系树中等级差距越小的标签,标签对应的节点的相似度越高;在等级关系树中等级差距大的标签,标签对应的节点的相似度越低。可以根据实际需要设置合适的等级差距阈值,以准确判断相邻节点的相似度。
举例来说,如图3所示,由于网页中的HTML标签以嵌套形式存在,外层的标签等级高于内层的标签,因此,可以根据某个网站中网页的标签嵌套关系,确定标签之间的等级关系,进而根据标签的等级关系判断相邻节点的相似度。
第二种、利用预设主题模型,根据与未知主题节点相邻的前后节点的主题,确定前后节点的主题转移至预设主题的概率,将概率最大的主题作为未知主题节点的主题。
根据与未知主题节点相邻的前后节点的主题确定未知主题节点的主题的依据为:对于某一网站而言,考虑到网页中某些主题的节点可能会在相邻的数据块中出现,比如主题“基本信息”、“个人履历”、“主要作品”的数据块经常连续出现,那么可以推测,当一个未知主题节点前后为“基本信息”和“主要作品”时,所述未知主题节点的主题为“个人履历”的概率较大。
因此,可以根据某一网站中部分页面已确定主题的DOM树,对预先构建的主题模型进行训练。如此,可以通过预设主题模型,识别未知主题节点的主题。所述主题模型反应了当前一个节点的主题为i时,后一个主题为j的概率,和/或,当后一个节点主题为j时,前一个节点的主题为i的概率。
基于预设主题模型识别未知主题节点的主题的具体实现流程示意图,具体实现过程,包括如下步骤:
步骤1:构键N+1个主题模型的转移概率矩阵。
Figure BDA0001641200000000091
其中,P表示转移概率矩阵;pi,j表示前一个主题i转移至后一个主题j的概率值。
这里,转移概率矩阵P可由已标注的文本数据训练得到。具体地,以网站的维度,预先通过人工的方法,确定某一网站中部分网页的数据块的主题,根据确定主题的概率。
步骤2:构建马尔科夫链。
首先,确定与未知主题节点相邻的节点如左相邻节点、右相邻节点、左右相邻节点的邻居节点等等。左相邻节点可以为未知主题节点的父节点的左子节点;如果父节点的左子点不存在时,左相邻节点可以为未知主题节点的父节点的右子节点。举例来说,图4中,未知主题节点的左相邻节点为“主题T2”数据块。
然后,基于确定的与未知主题节点相邻的节点,形成链长为X的包含已知主题节点和未知主题节点的马尔科夫链L,如图5所示;其中已知主题节点的占比大于X/2。
步骤3:利用马尔科夫链以及转移概率矩阵,识别未知主题节点的主题。
图5中,马尔科夫链的事件定义:对于马尔科夫链L,从第一个节点(对应主题T2)转移到第二个节点(对应主题T1)可理解为一个独立事件,同样的,从第二个节点转移到第三个节点也可以定义为一个独立事件,依次类推,得到一系列独立事件。独立事件的组合概率原理为:假设ABC为相互独立的三个事件,那个ABC同时发生的概率为:P(ABC)=P(A)*P(B)*P(C)。
利用马尔科夫链的事件定义以及独立事件的组合概率公式,得到马尔科夫链的事件发生的概率:对于马尔科夫链L,第一个事件即:从主题T2转移到主题T1的概率,即转移概率矩阵P中的P21。第二个事件即从主题T1转移到第三个节点对应主题时的概率,若第三个未知主题为主题T1,那么第二个事件发生的概率为P11即从第二个主题T1转移到第三个主题T1时的概率,同理,假设第三个节点主题为T2,则对应概率为P12。这样,可以获得每个事件的发生概率。
马尔科夫链发生的概率计算:通常为简单起见,假设每个马尔科夫链的事件相互独立,可利用“独立事件的组合概率”原理计算整个马尔科夫链L的概率。
由于第三个未知主题节点可能为N个主题中的任意一个,当第三个节点对应主题T1时,整个马尔科夫链发生概率的计算为公式,当第三个节点对应主题T2时,整个马尔科夫链的计算为公式(3),依次类推,按照公式(4)分别计算每个未知主题的N种假设主题下的马尔科夫链L的概率p(i|L),按照公式(5)对概率p(i|L)进行归一化得到p(i),如果未知主题节点对应主题Tk时马尔科夫链L的概率p(i)最大,则未知主题节点的主题为主题Tk。
p(1|L)=p2,1×p1,1×…p3,4(2)
p(2|L)=p2,1×p1,2×…p3,4(3)
p(i|L):
Figure BDA0001641200000000111
对概率p(i|L)归一化后得到p(i):
Figure BDA0001641200000000112
需要注意的是,由于未知主题节点的主题仍然存在识别不出的可能,因此在训练转移概率矩阵P期间,需要确定阈值pm,如果p(i)>pm则确定概率p(i)最大的主题作为当前未知主题节点的主题,否则,仍然作为未知主题节点。
步骤4:对识别出主题的未知主题节点和已知主题节点的主题进行聚类,得到非终端节点的主题。
步骤204:判断当前节点是否已被标记为特定主题。
顺序遍历图3所示的树状图,如果当前节点被标记为某个特定主题,则提取出以当前节点为根节点的子树的文档信息,并输出文档信息及主题,继续遍历时跳过所述子树的节点;如果当前节点未被标记为某个特定主题,继续遍历。
步骤205:输出特定主题对应的节点的网页内容。
基于本申请各实施例网页内容处理方法,本申请还提供了一种网页内容处理装置,如图6所示,所述装置包括:解析模块61、识别模块62、确定模块63、输出模块64;其中,
解析模块61,用于对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;
识别模块62,用于针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;
确定模块63,用于从识别的所有主题中,确定满足预设条件的主题;
输出模块64,用于输出确定的主题对应节点的网页内容。
在一实施例中,所述识别模块62,还用于针对未知主题节点,采用以下方式之一识别未知主题节点的主题:基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题;基于节点在所述树状结构中的等级关系,识别未知主题节点的主题;其中,所述未知主题节点为第一节点中未识别出主题的节点。
在实际应用中,输出模块64由位于网页内容处理装置上的网络接口实现;解析模块61、识别模块62、确定模块63可由位于网页内容处理装置上的中央处理器(CPU,CentralProcessing Unit)、微处理器(MPU,Micro Processor Unit)、数字信号处理器(DSP,Digital Signal Processor)、或现场可编程门阵列(FPGA,Field Programmable GateArray)等实现。
图7是本发明网页内容处理装置的结构示意图,图7所示的网页内容处理装置700包括:至少一个处理器701、存储器702、用户接口703、至少一个网络接口704。网页内容处理装置700中的各个组件通过总线系统705耦合在一起。可理解,总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统705。
其中,用户接口703可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
本发明实施例中的存储器702用于存储各种类型的数据以支持网页内容处理装置700的操作。这些数据的示例包括:用于在网页内容处理装置700上操作的任何计算机程序,如操作系统7021和应用程序7022;其中,操作系统7021包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序7022可以包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序7022中。
上述本发明实施例揭示的方法可以应用于处理器701中,或者由处理器701实现。处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器701可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成网页内容处理方法的步骤。
可以理解,存储器702可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
基于本申请各实施例提供的网页内容处理方法,本申请还提供一种计算机可读存储介质,参照图7所示,所述计算机可读存储介质可以包括:用于存储计算机程序的存储器702,上述计算机程序可由网页内容处理装置700的处理器701执行,以完成服务器侧网页内容处理方法所述步骤。
计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (7)

1.一种网页内容处理方法,其特征在于,所述方法包括:
对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;
针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;其中,针对未知主题节点,采用以下方式之一识别未知主题节点的主题:基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题;利用所述树状结构,确定每个节点在所述树状结构中的等级关系;利用确定的等级关系,确定未知主题节点与其他节点的等级差距;将满足等级差距小于预设等级阈值对应的节点的主题作为所述未知主题节点的主题;其中,所述未知主题节点为第一节点中未识别出主题的节点;所述第一节点为终端节点;
从识别的所有主题中,确定满足预设条件的主题;
输出确定的主题对应节点的网页内容。
2.根据权利要求1所述的方法,其特征在于,所述基于确定的位置,利用对应的分类方法,识别对应数据块的网页内容的主题,包括:
针对确定的树状结构中的第一节点,对所述第一节点的文档信息进行分析,确定对应所述第一节点的主题;
针对确定的树状结构中的第二节点,将所述第二节点对应的子节点的主题进行合并,得到对应所述第二节点的主题;所述第二节点为非终端节点。
3.根据权利要求1所述的方法,其特征在于,所述基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题,包括:
利用所述树状结构,确定与未知主题节点相邻的至少一个节点;
利用所述未知主题节点以及相邻的至少一个节点,构建马尔科夫链;
根据所述未知主题节点在所述马尔科夫链中的位置,以及与未知主题节点相邻的节点的主题,利用预设主题模型,确定相邻的节点的主题转移至预设主题的概率;
将概率最大的主题作为未知主题节点的主题。
4.根据权利要求1所述的方法,其特征在于,所述输出确定的主题对应节点的网页内容,包括:
确定与所述确定的主题对应节点所属的子树;
获取所述子树的网页内容;
输出并显示所述网页内容。
5.一种网页内容处理装置,其特征在于,所述装置包括:
解析模块,用于对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;
识别模块,用于针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;其中,所述识别模块,还用于针对未知主题节点,采用以下方式之一识别未知主题节点的主题:基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题;利用所述树状结构,确定每个节点在所述树状结构中的等级关系;利用确定的等级关系,确定未知主题节点与其他节点的等级差距;将满足等级差距小于预设等级阈值对应的节点的主题作为所述未知主题节点的主题;其中,所述未知主题节点为第一节点中未识别出主题的节点;所述第一节点为终端节点;
确定模块,用于从识别的所有主题中,确定满足预设条件的主题;
输出模块,用于输出确定的主题对应节点的网页内容。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
7.一种网页内容处理装置,其特征在于,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至4任一项所述方法的步骤。
CN201810381738.5A 2018-04-25 2018-04-25 一种网页内容处理方法、装置及计算机可读存储介质 Active CN108628977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810381738.5A CN108628977B (zh) 2018-04-25 2018-04-25 一种网页内容处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810381738.5A CN108628977B (zh) 2018-04-25 2018-04-25 一种网页内容处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108628977A CN108628977A (zh) 2018-10-09
CN108628977B true CN108628977B (zh) 2021-03-16

Family

ID=63694506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810381738.5A Active CN108628977B (zh) 2018-04-25 2018-04-25 一种网页内容处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108628977B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN103488743A (zh) * 2013-09-22 2014-01-01 北京奇虎科技有限公司 网页元素抽取方法和网页元素抽取系统
CN104331438A (zh) * 2014-10-24 2015-02-04 北京奇虎科技有限公司 对小说网页内容选择性抽取方法和装置
CN105512296A (zh) * 2015-12-11 2016-04-20 宁波中青华云新媒体科技有限公司 基于网页差异的网页分析方法及系统
US9430583B1 (en) * 2011-06-10 2016-08-30 Salesforce.Com, Inc. Extracting a portion of a document, such as a web page

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430583B1 (en) * 2011-06-10 2016-08-30 Salesforce.Com, Inc. Extracting a portion of a document, such as a web page
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN103488743A (zh) * 2013-09-22 2014-01-01 北京奇虎科技有限公司 网页元素抽取方法和网页元素抽取系统
CN104331438A (zh) * 2014-10-24 2015-02-04 北京奇虎科技有限公司 对小说网页内容选择性抽取方法和装置
CN105512296A (zh) * 2015-12-11 2016-04-20 宁波中青华云新媒体科技有限公司 基于网页差异的网页分析方法及系统

Also Published As

Publication number Publication date
CN108628977A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
US7469251B2 (en) Extraction of information from documents
KR102237702B1 (ko) 엔티티 관계 데이터 생성 방법, 장치, 기기 및 저장 매체
US8938384B2 (en) Language identification for documents containing multiple languages
US10824628B2 (en) Method, terminal device and storage medium for mining entity description tag
EP1736901B1 (en) Method for classifying sub-trees in semi-structured documents
US7987417B2 (en) System and method for detecting a web page template
WO2017080090A1 (zh) 一种网页正文提取比对方法
US20180039907A1 (en) Document structure extraction using machine learning
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
US20120290288A1 (en) Parsing of text using linguistic and non-linguistic list properties
US20150067476A1 (en) Title and body extraction from web page
US20030237053A1 (en) Function-based object model for web page display in a mobile device
CN108664595B (zh) 领域知识库构建方法、装置、计算机设备和存储介质
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
US10417338B2 (en) External resource identification
CN109165373B (zh) 一种数据处理方法及装置
CN110765754A (zh) 文本数据排版方法、装置、计算机设备及存储介质
Gopinath et al. Supervised and unsupervised methods for robust separation of section titles and prose text in web documents
CN114238575A (zh) 文档解析方法、系统、计算机设备及计算机可读存储介质
CN110427488A (zh) 文档的处理方法及装置
Wu Language independent web news extraction system based on text detection framework
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN110162651B (zh) 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
CN111274354B (zh) 一种裁判文书结构化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant