CN102654875A - 一种自动处理网页文本的内链的方法及装置 - Google Patents

一种自动处理网页文本的内链的方法及装置 Download PDF

Info

Publication number
CN102654875A
CN102654875A CN2011100521594A CN201110052159A CN102654875A CN 102654875 A CN102654875 A CN 102654875A CN 2011100521594 A CN2011100521594 A CN 2011100521594A CN 201110052159 A CN201110052159 A CN 201110052159A CN 102654875 A CN102654875 A CN 102654875A
Authority
CN
China
Prior art keywords
chain
web page
speech
interior
click volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100521594A
Other languages
English (en)
Other versions
CN102654875B (zh
Inventor
李永强
耿磊
严冰
李忠红
刘晓东
苏上海
闫江波
田孟月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110052159.4A priority Critical patent/CN102654875B/zh
Publication of CN102654875A publication Critical patent/CN102654875A/zh
Application granted granted Critical
Publication of CN102654875B publication Critical patent/CN102654875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种自动处理网页文本的内链的方法,包括步骤:a.获取用户行为日志;b.根据所述行为日志统计所述网页文本的点击数据;c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合,d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;e.删除所述低质量的内链。通过上述方式,大大节省了人工成本,减少了内链处理行为的主观性,并且很好地提高了文本内链的质量,改善了文本内链对用户的引导效果。

Description

一种自动处理网页文本的内链的方法及装置
【技术领域】
本发明涉及互联网技术领域,特别涉及一种自动处理网页文本的内链的方法及装置。
【背景技术】
随着互联网的广泛应用,人们开始进入知识爆炸的时代。每天各种各样的信息随着网络迅速传播,无论是有关经济、政治的,还是有关科技、娱乐的信息,只要通过网络,人们都可以轻易地获取到。人们除了采用主动查找的方式获取自己想要的信息以外,随着各个网站建设得愈加完善,一种被动的信息传播方式也越来越普遍,那就是网页制作者在网页文本描述的信息中,对网页文本中出现的关键词给予一个指向另一个网页的链接,人们在阅读这个网页文本时,如果对这个带有链接指向的关键词感兴趣,则可以不需要采取主动查询的方式去获取那个关键词的信息,而是通过直接点击那个关键词就可以跳转到那个关键词的相关页面。这种位于一个网页文本内的链接,也被称之为内链。
在传统的有关网页文本内链的处理中,无论是内链的添加,还是内链的删除,都是采用人工的方式进行的,即网页制作者对网页文本的内容进行分析,为其认为有需要的关键词添加上内链,或者将其认为不良的内链删除。这种方法首先带有较大的主观随意性,因为每个人对哪些词是适合添加内链的关键词的理解都是不一样的,同样的,对何种内链属于不良内链的认定标准也不一致,此外,采用人工的方式处理内链,必然降低处理效率,更增加了出错的可能性。
以我们常见的百科网页为例,例如维基百科上,会以词条为网页单位来组织信息,每个词条网页文本中都包含了很多的内链,这些内链指向与本词条内容相关的另一个词条网页。为了方便读者了解相关信息,在这类型的网页上,内链通常是比较多的,又由于词条网页的内容常常变动,一些内链有可能随着时间的推移而变得没有价值,因此,如果有一种科学合理的方法来删除添加的内链,就可以大大提高词条页面的内链的质量,使得内链对用户的引导作用更加有效。
【发明内容】
本发明所要解决的技术问题是提供一种自动处理文本内链的方法,以提高文本内链的质量,改善文本内链对用户的引导效果,使得用户可以更好地通过文本内链的方式找到自己想要的信息。
本发明为了解决上述技术问题,采用的技术手段是提供了一种自动处理网页文本的内链的方法,包括步骤:a.获取用户行为日志;b.根据所述行为日志统计所述网页文本的点击数据;c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合,d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;e.删除所述低质量的内链。
根据本发明之一优选实施例,所述删除条件进一步包括第一子条件,所述第一子条件是指在一定时间内所述文本的所有内链的总点击量大于第一阈值且所述文本的总页面浏览量大于第二阈值且所述文本的平均内链数大于第三阈值。
根据本发明之一优选实施例,在所述第一子条件不满足的情况下,所述删除条件进一步包括第二子条件,所述第二子条件是指当前时间减去上一次发生删除行为的时间大于第四阈值且在上一次发生删除行为的时间至当前时间内所述文本的所有内链的总点击率大于第五阈值。
根据本发明之一优选实施例,所述步骤d进一步包括:d11.选择所述子文本的固定区域;d12.对所述固定区域的所有内链计算与所述内链的点击量相关的统计量;d12.根据所述统计量按照预定的选取策略从所述固定区域的所有内链中选出所述低质量内链。
根据本发明之一优选实施例,所述选取策略为当所述子文本的子内链的所述统计量小于所述子文本的所有内链的所述统计量的平均值时,认定所述子内链为低质量内链。
根据本发明之一优选实施例,所述步骤d进一步包括:d21.选择包含所述子文本的子内链的第一区域与第二区域,所述的第二区域大于所述的第一区域;d22.计算所述第一区域内除所述子内链外的剩余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量;d23.当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。
根据本发明之一优选实施例,所述步骤d进一步包括:d31.选取所述子文本的固定区域;d32.在所述固定区域中划分上方区域和下方区域,并分别统计上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量;d32.当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。
根据本发明之一优选实施例,所述方法进一步还包括为所述文本添加内链。
根据本发明之一优选实施例,所述添加内链的方法进一步包括:g11.对所述网页文本进行分词处理以获取候选添加词;g12.将所述候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词;g13.为所述链接导入词添加链接。
根据本发明之一优选实施例,所述添加内链的方法进一步包括:g21.对所述网页文本进行分词处理以获取候选添加词;g22.通过实体识别技术找出所述候选添加词中的实体词,并将所述实体词选择为链接导入词;g23.为所述链接导入词添加链接。
根据本发明之一优选实施例,所述添加内链的方法进一步包括:g21.对所述网页文本进行分词处理以获取候选添加词;g22.在所述网页文本中的第一文本关联第二文本的情况下验证所述第一文本中出现的子候选添加词与第二文本中出现的子内链词是否匹配,在匹配的情况下将所述子候选添加词选择为链接导入词;g23.为所述链接导入词添加链接。
本发明还提供了一种自动处理网页文本的内链的装置,包括:接收单元,用于获取用户行为日志;统计单元,用于根据所述行为日志统计所述网页文本的点击数据;判断单元,用于根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合;抓取单元,用于从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;删除单元,用于删除所述低质量的内链。
根据本发明之一优选实施例,所述抓取单元进一步包括:选取范围单元,用于选取所述子文本的固定区域;计算统计量单元,用于对所述固定区域的所有内链计算与所述内链的点击量相关的统计量;选择内链单元,用于根据所述统计量按照预定的选取策略从所述子文本的所有内链中选出所述低质量内链。
根据本发明之一优选实施例,所述抓取单元进一步包括:选取范围单元,用于选择包含所述子文本的子内链的第一区域与第二区域,所述的第二区域大于所述的第一区域;计算点击量单元,用于计算所述第一区域内除所述子内链外的剩余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量;选择内链单元,用于当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。
根据本发明之一优选实施例,所述抓取单元进一步包括:选取范围单元,用于选取所述子文本的固定区域;计算点击量单元,用于在所述固定区域中划分上方区域和下方区域,并分别计算上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量;选择内链单元,用于当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。
根据本发明之一优选实施例,所述装置进一步还包括添加单元,用于为所述文本添加内链。
根据本发明之一优选实施例,所述添加单元进一步包括:分词单元,用于对所述网页文本进行分词处理以获取候选添加词;类别匹配验证单元,用于将所述候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词;添加链接单元,用于为所述链接导入词添加链接。
根据本发明之一优选实施例,所述添加单元进一步包括:分词单元,用于对所述网页文本进行分词处理以获取候选添加词;识别单元,用于通过实体识别技术找出所述候选添加词中的实体词,并将所述实体词选择为链接导入词;添加链接单元,用于为所述链接导入词添加链接。
根据本发明之一优选实施例,所述添加单元进一步包括:分词单元,用于对所述网页文本进行分词处理以获取候选添加词;内链推导验证单元,用于在所述网页文本中的第一文本关联第二文本的情况下验证所述第一文本中出现的子候选添加词与第二文本中出现的子内链词是否匹配,在匹配的情况下将所述子候选添加词选择为链接导入词;添加链接单元,用于为所述链接导入词添加链接。
由以上技术方案可以看出,通过利用用户对文本内链的点击信息,采用内链分析的手段自动抓取低质量的内链进行删除,可以很好地提高文本内链的质量,改善文本内链对用户的引导效果。同时通过自动添加内链->自动删除内链两种行为的不断迭代,不仅大大节省了人工成本,减少了内链处理行为的主观性,更是在保证文本内链质量的基础上大大提高了内链的时效性。
【附图说明】
图1是本发明实施例中自动处理网页文本的内链的方法流程示意图;
图2是本发明实施例中抓取低质量内链的实施例一的流程示意图;
图3是本发明实施例中抓取低质量内链的实施例二的流程示意图;
图4是本发明实施例中抓取低质量内链的实施例三的流程示意图;
图5是本发明实施例中添加内链的实施例一的流程示意图;
图6是本发明实施例中添加内链的实施例二的流程示意图;
图7是本发明实施例中添加内链的实施例三的流程示意图;
图8是本发明实施例中自动处理网页文本的内链的装置结构示意框图;
图9是本发明实施例中抓取单元的实施例一的结构示意框图;
图10是本发明实施例中抓取单元的实施例二的结构示意框图;
图11是本发明实施例中抓取单元的实施例三的结构示意框图;
图12是本发明实施例中添加单元的实施例一的结构示意框图;
图13是本发明实施例中添加单元的实施例二的结构示意框图;
图14是本发明实施例中添加单元的实施例三的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明实施例提供的一种自动处理网页文本的内链的方法流程示意图。在本发明中所述的网页文本,可以是任意的网页文本,例如基于知识共享方式建立的百科网页,网页的表现形式为词条文本;也可以是任意的新闻网页或其他包含内链的任意网页文本。
如图1所示,自动处理网页文本内链的方法包括步骤101:获取用户行为日志。用户行为日志是用来记录用户发生在网页上的所有行为的文件,其中包含了用户点击网页的时间,点击网页的次数,点击网页内链的情况等。本发明通过用户的行为对网页内链的质量进行分析,因此,获取用户行为日志是进行后续操作的前提。
步骤102:根据用户行为日志统计网页文本的点击数据。网页文本的点击数据包括:每个网页文本的每个内链的总点击数量、最近X天内的点击数量等。这一步骤就是把用户行为日志中凌乱的数据整理为对后续的处理有意义的数据,以方便后续的操作可以基于这些数据做出合理的判断。
步骤103:根据点击数据判断网页文本是否满足删除条件,以得到待删除内链的网页文本集合。
本发明并不是一次对网站的所有网页的内链都进行选取并删除其中不好的内链。由于一个网站包含的网页数量可能是非常巨大的,而且一次对所有网页的每一个内链都进行分析,既没有必要,也浪费了资源,所以在本发明中,将通过设置删除条件来选取出待删除内链的网页文本集合。
在本发明中可以采用下面的删除条件来判断网页文本是否属于待删除内链的文本:
在一定时间内,如果文本所有内链的总点击量大于阈值X1,且文本总浏览量PV(page view)大于阈值X2,且文本的平均内链数大于阈值X3,则文本属于待删除内链的文本。X1、X2、X3是三个可以根据具体需要自由设置的值;所谓的文本总浏览量指的是在上述的一定时间内用户对网页文本的浏览量的总和;文本的平均内链数指的是由于文本存在被修改的可能,如果在上述的一定时间内,文本的版本变化导致内链数目发生了变化,那么文本的平均内链数就等于该段时间内文本所有版本的内链总数除以版本数,假设在该段时间内文本的版本并未发生变化,那么所谓的文本平均内链数也就是文本的内链数目。上述的一定时间可以根据具体需要来设定,通常指的是从上次删除内链的行为发生的时间到当前时间之间的一段时间。
如果网页文本不满足上面所说的删除条件,但是从上一次删除内链的行为发生的时间到当前时间超过阈值T同时网页文本所有内链的总点击量大于阈值X4的网页文本,也将作为待删除内链的网页文本。
步骤104:从待删除内链的网页文本集合中的子文本的所有内链中抓取出低质量的内链。子文本指的是网页文本集合中的一个待删除内链的网页文本。下面还将对步骤104的具体实施方式进行详细说明。
步骤105:删除低质量内链。应该注意的是,所述删除低质量内链并不是指将内链的链接词删除,而是指通过在网页文本中去掉带有链接含义的标签,将链接词变为普通的文本词。
为了实现抓取低质量的内链的目的,上面所述的步骤104可以有多种实施方式,如图2所示,为抓取低质量内链的实施例一的流程示意图。在该实施例中,步骤104进一步包括步骤10401:选择子文本的一个固定区域。这个固定区域可以根据不同的网页文本类型来确定。例如对于百科网页的词条文本来说,可以选择为某个块结构的区域,如概述部分或正文部分等。对于新闻网页或其他网页,固定区域也可以为内链集中的区域或整个新闻页面等。
步骤10402:对固定区域的所有内链计算与内链的点击量相关的统计量。
下面给出了一种用于产生上述统计量的方法,例如统计量
Figure BDA0000048820010000081
其中C1、C2是系数,g是一个以内链名长度为输入的函数。针对每一个内链,都可以计算出一个与其相关的F1。
步骤10403:根据统计量按照预定的选取策略从固定区域的所有内链中选出低质量的内链。针对上面举的例子,假设C1、C2的取值使得F1的变化方向与内链点击量的变化方向相同,则步骤10403的选取策略为当固定区域内某个子内链的F1小于固定区域内所有内链的F1的平均值时,将这个内链认定为低质量内链。本发明的一个实施例中,所谓小于,是指根据具体需要设置一个阈值,在这个阈值范围之外的就认为是小于。以下面的一种方式为例来说,当
Figure BDA0000048820010000082
则可以认定该子内链的F1小于固定区域内所有内链的F1的平均值,也就是该子内链属于低质量内链。
如图3所示,为抓取低质量内链的实施例二的流程示意图。在该实施例中,步骤104进一步包括步骤10411:选择包含子文本的子内链的第一区域与第二区域,其中第二区域范围大于第一区域。这是指以每个子内链为基准,选取两个包含该子内链的区域,其中有一个区域比另一个区域的面积大。例如对子内链A选择其上下两行的文本为第一区域,选择上下五行的文本为第二区域。这样做是为了进行后续处理的需要。
步骤10412:计算第一区域内除子内链外剩余内链对子内链的点击量的贡献值与第二区域内所有内链的平均点击量。对于网页文本的每个内链来说,它的点击量并不仅跟自己本身相关,而是与其周围的内链的点击也有关,为了更好地反映一个内链的点击量与其质量好坏的关系,我们将一个内链周围的其他内链对其的影响也作为判断其质量好坏的一个依据。而第二区域内所有内链的平均点击量指的是第二区域内所有内链的点击量之和除以第二区域内所有内链的数据得到的平均数。
步骤10413:当子内链的点击量与上述贡献值的和小于第二区域内所有内链的平均点击量时,选取该子内链为低质量内链。本发明的一个实施例中,所谓小于指的是根据具体需要设置一个阈值,在这个阈值范围之外的就是小于。例如当
Figure BDA0000048820010000091
则把该子内链认定为低质量内链。式(1)中C1area1内键点击量反映的就是第一区域内除子内链外的其他内链对子内链点击量的贡献值,其中∑area1内链点击量是第一区域内所有内链的点击量,C1是一个控制系数。而
Figure BDA0000048820010000092
就是第二区域内所有内链的平均点击量。
如图4所示,为抓取低质量内链的实施例三的流程示意图。在该实施例中,步骤104进一步包括步骤10421:选取子文本的固定区域。这一步骤与实施例一中的步骤10401类似,在此不再赘述。
步骤10422:在固定区域中划分上方区域和下方区域,并分别统计上方点击量与下方点击量。上方点击量指的是上方区域内的所有内链的平均点击量,下方点击量指的是下方区域内所有内链的平均点击量。
步骤10423:当下方点击量大于上方点击量时,选取上方区域中点击量最低的内链为低质量内链。本发明的一个实施例中,所谓大于指的是根据具体需要设置一个阈值,当超过这个阈值范围时,认为是大于。由于网页文本的内链的点击量通常是随着网页文本的下移而逐渐消减的,也就是说正常情况下,网页文本下方的内链的点击量要小于上方内链的点击量,如果一个网页文本下方的内链的点击量明显大于上方内链的点击量,则说明上方内链是不太能引起用户关注的,也就说明上方内链的质量不够理想。选取上方区域中点击量最低的内链实际上指的是设置一个阈值,将低于这个阈值的上方区域的内链都当作低质量内链看待。
本发明除了自动删除网页文本的内链以外,还可以自动给网页文本添加新的内链,通过这种不断自动添加内链->自动删除内链的迭代操作,可以大大提高网页文本的内链的质量,也极大提高了网页文本的内链的时效性。因此本发明进一步还包括步骤106:为网页文本添加内链。步骤106可以在步骤101前或步骤105后执行,并且不限定与其他步骤执行的间隔时间。
如图5所示,为网页文本添加内链的实施例一的流程示意图。在该实施例中,步骤106进一步包括:步骤1061:对网页文本进行分词处理,以获取候选添加词。分词的作用是将网页文本中的文字序列切分成有意义的字词,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为本领域公知技术,在此不再赘述。
步骤1062:将候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词。以百科网页为例说明上述过程,在对词条网页进行分词处理后,得到的候选词通常还带有类别属性特征,也就是说,有些词可能是属于历史类的,有的词是属于天文类的,有的词是属于体育类的,因此只要指定一个类别库,就可以将属于这个类别库的词都选择为链接导入词。
步骤1063:为链接导入词添加链接。就是通过在网页文本上对链接导入词添加带有链接含义的标签,使得普通的网页文本词变成可以指向另一个网页的链接词。
如图6所示,为网页文本添加内链的实施例二的流程示意图。在该实施例中,步骤106进一步包括:步骤1071:对文本进行分词处理,以获取候选添加词。这一步骤与实施例一中的步骤1061类似,在此不再赘述。
步骤1072:通过实体识别技术找出候选添加词中的实体词,并将实体词选择为链接导入词。实体识别技术属于现有技术,例如采用基于层叠隐马尔可夫模型的命名实体识别技术,在此不再赘述。通过实体识别,可以找出网页文本中的实体词,所谓的实体,包括人名、地名、机构名等,以新闻网页为例,假如有一篇关于娱乐新闻的报道,里面出现了很多的明星名字,如果找出了刘德华,就可以将刘德华设为链接导入词。
步骤1073:为链接导入词添加链接。这一步骤与实施例一中的步骤1073类似,在步骤1072中的刘德华这个实体词,通过添加链接后,就可以使用户在查看包含刘德华这个内链的娱乐新闻报道的时候通过点击刘德华这个链接,直接转向有关刘德华的最新要闻。
如图7所示,为网页文本添加内链的实施例三的流程示意图。在该实施例中的步骤1081与步骤1083与实施例一中的步骤1061与步骤1063类似,在此不再详细描述。
步骤1082:在网页文本中的第一文本关联第二文本的情况下验证第一文本中出现的子候选添加词与第二文本中出现的子链接词是否匹配,在匹配的情况下将子候选添加词选择为链接导入词。以百科网页为例,假设词条A有一个相关词条B,即词条A网页有一个相关词条B网页,那么比较词条A网页中的候选添加词与词条B网页中的链接词是否相同,如果相同就将词条A网页中与词条B网页的链接词相同的候选添加词选择为链接导入词。例如:词条“韩庚”的相关词条中有一个词条为“何炅”,在“何炅”词条中有“天天向上”这个内链,然而在“韩庚”词条中有“天天向上”这个词,却没有加为内链,那么就将“天天向上”这个词选择为链接导入词。
图8为本发明实施例提供的一种自动处理网页文本的内链的装置结构示意框图。
如图8所示,自动处理网页文本内链的装置包括接收单元201,用于获取用户行为日志。用户行为日志是用来记录用户发生在网页上的所有行为的文件,其中包含了用户点击网页的时间,点击网页的次数,点击网页内链的情况等。本发明通过用户的行为对网页内链的质量进行分析,因此,获取用户行为日志是进行后续操作的前提。
统计单元202,用于根据用户行为日志统计网页文本的点击数据。网页文本的点击数据包括:每个网页文本的每个内链的总点击数量、最近X天内的点击数量等。这一步骤就是把用户行为日志中凌乱的数据整理为对后续的处理有意义的数据,以方便后续的操作可以基于这些数据做出合理的判断。
判断单元203,用于根据点击数据判断网页文本是否满足删除条件,以得到待删除内链的网页文本集合。
本发明并不是一次对网站的所有网页的内链都进行选取并删除其中不好的内链。由于一个网站包含的网页数量可能是非常巨大的,而且一次对所有网页的每一个内链都进行分析,既没有必要,也浪费了资源,所以在本发明中,将通过设置删除条件来选取出待删除内链的网页文本集合。
在本发明中可以采用下面的删除条件来判断网页文本是否属于待删除内链的文本:
在一定时间内,如果文本所有内链的总点击量大于阈值X1,且文本总浏览量PV(page view)大于阈值X2,且文本的平均内链数大于阈值X3,则文本属于待删除内链的文本。X1、X2、X3是三个可以根据具体需要自由设置的值;所谓的文本总浏览量指的是在上述的一定时间内用户对网页文本的浏览量的总和;文本的平均内链数指的是由于文本存在被修改的可能,如果在上述的一定时间内,文本的版本变化导致内链数目发生了变化,那么文本的平均内链数就等于该段时间内文本所有版本的内链总数除以版本数,假设在该段时间内文本的版本并未发生变化,那么所谓的文本平均内链数也就是文本的内链数目。上述的一定时间可以根据具体需要来设定,通常指的是从上次删除内链的行为发生的时间到当前时间之间的一段时间。
如果网页文本不满足上面所说的删除条件,但是从上一次删除内链的行为发生的时间到当前时间超过阈值T同时网页文本所有内链的总点击量大于阈值X4的网页文本,也将作为待删除内链的网页文本。
抓取单元204,用于从待删除内链的网页文本集合中的子文本的所有内链中抓取出低质量的内链。子文本指的是网页文本集合中的一个待删除内链的网页文本。下面还将对抓取单元的具体实施方式进行详细说明。
删除单元205,用于删除低质量内链。应该注意的是,所述删除低质量内链并不是指将内链的链接词删除,而是指通过在网页文本中去掉带有链接含义的标签,将链接词变为普通的文本词。
为了实现抓取低质量的内链的目的,上面所述的抓取单元可以有多种实施方式,如图9所示,为抓取单元的实施例一的结构示意框图。在该实施例中,抓取单元204进一步包括选取范围单元20411,用于选择子文本的一个固定区域。这个固定区域可以根据不同的网页文本类型来确定。例如对于百科网页的词条文本来说,可以选择为某个块结构的区域,如概述部分或正文部分等。对于新闻网页或其他网页,固定区域也可以为内链集中的区域或整个新闻页面等。
计算统计量单元20412,用于对固定区域的所有内链计算与内链的点击量相关的统计量。
下面给出了一种用于产生上述统计量的方法,例如统计量
其中C1、C2是系数,g是一个以内链名长度为输入的函数。针对每一个内链,都可以计算出一个与其相关的F1。
选择内链单元20413,用于根据统计量按照预定的选取策略从固定区域的所有内链中选出低质量的内链。针对上面举的例子,假设C1、C2的取值使得F1的变化方向与内链点击量的变化方向相同,则步骤10403的选取策略为当固定区域内某个子内链的F1小于固定区域内所有内链的F1的平均值时,将这个内链认定为低质量内链。本发明的一个实施例中,所谓的小于,是指根据具体需要设置一个阈值,在这个阈值范围之外的就认为是小于。以下面的一种方式为例来说,当
Figure BDA0000048820010000141
则可以认定该子内链的F1小于固定区域内所有内链的F1的平均值,也就是该子内链属于低质量内链。
如图10所示,为抓取单元的实施例二的结构示意框图。在该实施例中,抓取单元204进一步包括选取范围单元20421,用于选择包含子文本的子内链的第一区域与第二区域,其中第二区域范围大于第一区域。这是指以每个子内链为基准,选取两个包含该子内链的区域,其中有一个区域比另一个区域的面积大。例如对子内链A选择其上下两行的文本为第一区域,选择上下五行的文本为第二区域。这样做是为了进行后续处理的需要。
计算点击量单元20422,用于计算第一区域内除子内链外剩余内链对子内链的点击量的贡献值与第二区域内所有内链的平均点击量。对于网页文本的每个内链来说,它的点击量并不仅跟自己本身相关,而是与其周围的内链的点击也有关,为了更好地反映一个内链的点击量与其质量好坏的关系,我们将一个内链周围的其他内链对其的影响也作为判断其质量好坏的一个依据。而第二区域内所有内链的平均点击量指的是第二区域内所有内链的点击量之和除以第二区域内所有内链的数据得到的平均数。
选择内链单元20423,用于当子内链的点击量与上述贡献值的和小于第二区域内所有内链的平均点击量时,选取该子内链为低质量内链。本发明的一个实施例中,所谓小于指的是根据具体需要设置一个阈值,在这个阈值范围之外的就是小于。例如当
Figure BDA0000048820010000151
则把该子内链认定为低质量内链。式(1)中C1erea1内链点击量反映的就是第一区域内除子内链外的其他内链对子内链点击量的贡献值,其中∑erea1内键点击量是第一区域内所有内链的点击量,C1是一个控制系数。而
Figure BDA0000048820010000152
就是第二区域内所有内链的平均点击量。
如图11所示,为抓取单元的实施例三的结构示意框图。在该实施例中,抓取单元204进一步包括选取范围单元20431,用于选取子文本的固定区域。这一步骤与实施例一中的选取范围单元20411类似,在此不再赘述。
计算点击量单元20432,用于在固定区域中划分上方区域和下方区域,并分别统计上方点击量与下方点击量。上方点击量指的是上方区域内的所有内链的平均点击量,下方点击量指的是下方区域内所有内链的平均点击量。
选择内链单元20433,用于当下方点击量大于上方点击量时,选取上方区域中点击量最低的内链为低质量内链。本发明的一个实施例中,所谓的大于是指根据具体需要设置一个阈值,当超过这个阈值范围时,认为是大于。由于网页文本的内链的点击量通常是随着网页文本的下移而逐渐消减的,也就是说正常情况下,网页文本下方的内链的点击量要小于上方内链的点击量,如果一个网页文本下方的内链的点击量明显大于上方内链的点击量,则说明上方内链是不太能引起用户关注的,也就说明上方内链的质量不够理想。选取上方区域中点击量最低的内链实际上指的是设置一个阈值,将低于这个阈值的上方区域的内链都当作低质量内链看待。
本发明除了自动删除网页文本的内链以外,还可以自动给网页文本添加新的内链,通过这种不断自动添加内链->自动删除内链的迭代操作,可以大大提高网页文本的内链的质量,也极大提高了网页文本的内链的时效性。因此本发明进一步还包括添加单元206,用于为网页文本添加内链。
如图12所示,为添加单元的实施例一的结构示意框图。在该实施例中,添加单元206进一步包括:分词单元2061,用于对网页文本进行分词处理,以获取候选添加词。分词的作用是将网页文本中的文字序列切分成有意义的字词,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为本领域公知技术,在此不再赘述。
类别匹配验证单元2062,用于将候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词。以百科网页为例说明上述过程,在对词条网页进行分词处理后,得到的候选词通常还带有类别属性特征,也就是说,有些词可能是属于历史类的,有的词是属于天文类的,有的词是属于体育类的,因此只要指定一个类别库,就可以将属于这个类别库的词都选择为链接导入词。
添加链接单元2063,用于为链接导入词添加链接。就是通过在网页文本上对链接导入词添加带有链接含义的标签,使得普通的网页文本词变成可以指向另一个网页的链接词。
如图13所示,为添加单元的实施例二的结构示意框图。在该实施例中,添加单元206进一步包括:分词单元2071,用于对文本进行分词处理,以获取候选添加词。2071与实施例一中的2061类似,在此不再赘述。
识别单元2072,用于通过实体识别技术找出候选添加词中的实体词,并将实体词选择为链接导入词。实体识别技术属于现有技术,例如采用基于层叠隐马尔可夫模型的命名实体识别技术,在此不再赘述。通过实体识别,可以找出网页文本中的实体词,所谓的实体,包括人名、地名、机构名等,以新闻网页为例,假如有一篇关于娱乐新闻的报道,里面出现了很多的明星名字,如果找出了刘德华,就可以将刘德华设为链接导入词。
添加链接单元2073,用于为链接导入词添加链接。2073与实施例一中的2063类似,在此不再详细描述。在识别单元2062中得到的刘德华这个实体词,通过添加链接后,就可以使用户在查看包含刘德华这个内链的娱乐新闻报道的时候通过点击刘德华这个链接,直接转向有关刘德华的最新要闻。
如图14所示,为添加单元的实施例三的结构示意框图。在该实施例中的分词单元2081与添加链接单元2083与实施例一中的2061与2063类似,在此不再详细描述。
内链推导验证单元2082,用于在网页文本中的第一文本关联第二文本的情况下验证第一文本中出现的子候选添加词与第二文本中出现的子链接词是否匹配,在匹配的情况下将子候选添加词选择为链接导入词。以百科网页为例,假设词条A有一个相关词条B,即词条A网页有一个相关词条B网页,那么比较词条A网页中的候选添加词与词条B网页中的链接词是否相同,如果相同就将词条A网页中与词条B网页的链接词相同的候选添加词选择为链接导入词。例如:词条“韩庚”的相关词条中有一个词条为“何炅”,在“何炅”词条中有“天天向上”这个内链,然而在“韩庚”词条中有“天天向上”这个词,却没有加为内链,那么就将“天天向上”这个词选择为链接导入词。

Claims (19)

1.一种自动处理网页文本的内链的方法,其特征在于,所述方法包括步骤:
a.获取用户行为日志;
b.根据所述行为日志统计所述网页文本的点击数据;
c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合,
d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;
e.删除所述低质量的内链。
2.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述删除条件进一步包括第一子条件,所述第一子条件是指在一定时间内所述文本的所有内链的总点击量大于第一阈值且所述文本的总页面浏览量大于第二阈值且所述文本的平均内链数大于第三阈值。
3.根据权利要求2所述的自动处理网页文本的内链的方法,其特征在于,在所述第一子条件不满足的情况下,所述删除条件进一步包括第二子条件,所述第二子条件是指当前时间减去上一次发生删除行为的时间大于第四阈值且在上一次发生删除行为的时间至当前时间内所述文本的所有内链的总点击率大于第五阈值。
4.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述步骤d进一步包括:
d11.选择所述子文本的固定区域;
d12.对所述固定区域的所有内链计算与所述内链的点击量相关的统计量;
d12.根据所述统计量按照预定的选取策略从所述固定区域的所有内链中选出所述低质量内链。
5.根据权利要求4所述的自动处理网页文本的内链的方法,其特征在于,所述选取策略为当所述子文本的子内链的所述统计量小于所述子文本的所有内链的所述统计量的平均值时,认定所述子内链为低质量内链。
6.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述步骤d进一步包括:
d21.选择包含所述子文本的子内链的第一区域与第二区域,所述的第二区域大于所述的第一区域;
d22.计算所述第一区域内除所述子内链外的剩余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量;
d23.当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。
7.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述步骤d进一步包括:
d31.选取所述子文本的固定区域;
d32.在所述固定区域中划分上方区域和下方区域,并分别统计上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量;
d32.当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。
8.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述方法进一步还包括为所述文本添加内链。
9.根据权利要求8所述的自动处理网页文本的内链的方法,其特征在于,所述添加内链的方法进一步包括:
g11.对所述网页文本进行分词处理以获取候选添加词;
g12.将所述候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词;
g13.为所述链接导入词添加链接。
10.根据权利要求8所述的自动处理网页文本的内链的方法,其特征在于,所述添加内链的方法进一步包括:
g21.对所述网页文本进行分词处理以获取候选添加词;
g22.通过实体识别技术找出所述候选添加词中的实体词,并将所述实体词选择为链接导入词;
g23.为所述链接导入词添加链接。
11.根据权利要求8所述的自动处理网页文本的内链的方法,其特征在于,所述添加内链的方法进一步包括:
g21.对所述网页文本进行分词处理以获取候选添加词;
g22.在所述网页文本中的第一文本关联第二文本的情况下验证所述第一文本中出现的子候选添加词与第二文本中出现的子内链词是否匹配,在匹配的情况下将所述子候选添加词选择为链接导入词;
g23.为所述链接导入词添加链接。
12.一种自动处理网页文本的内链的装置,包括:
接收单元,用于获取用户行为日志;
统计单元,用于根据所述行为日志统计所述网页文本的点击数据;
判断单元,用于根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合;
抓取单元,用于从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;
删除单元,用于删除所述低质量的内链。
13.根据权利要求12所述的自动处理网页文本的内链的装置,其特征在于,所述抓取单元进一步包括:
选取范围单元,用于选取所述子文本的固定区域;
计算统计量单元,用于对所述固定区域的所有内链计算与所述内链的点击量相关的统计量;
选择内链单元,用于根据所述统计量按照预定的选取策略从所述子文本的所有内链中选出所述低质量内链。
14.根据权利要求12所述的自动处理网页文本的内链的装置,其特征在于,所述抓取单元进一步包括:
选取范围单元,用于选择包含所述子文本的子内链的第一区域与第二区域,所述的第二区域大于所述的第一区域;
计算点击量单元,用于计算所述第一区域内除所述子内链外的剩余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量;
选择内链单元,用于当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。
15.根据权利要求12所述的自动处理网页文本的内链的装置,其特征在于,所述抓取单元进一步包括:
选取范围单元,用于选取所述子文本的固定区域;
计算点击量单元,用于在所述固定区域中划分上方区域和下方区域,并分别计算上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量;
选择内链单元,用于当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。
16.根据权利要求12所述的自动处理网页文本的内链的装置,其特征在于,所述装置进一步还包括添加单元,用于为所述文本添加内链。
17.根据权利要求16所述的自动处理网页文本的内链的装置,其特征在于,所述添加单元进一步包括:
分词单元,用于对所述网页文本进行分词处理以获取候选添加词;
类别匹配验证单元,用于将所述候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词;
添加链接单元,用于为所述链接导入词添加链接。
18.根据权利要求16所述的自动处理网页文本的内链的装置,其特征在于,所述添加单元进一步包括:
分词单元,用于对所述网页文本进行分词处理以获取候选添加词;
识别单元,用于通过实体识别技术找出所述候选添加词中的实体词,并将所述实体词选择为链接导入词;
添加链接单元,用于为所述链接导入词添加链接。
19.根据权利要求16所述的自动处理网页文本的内链的装置,其特征在于,所述添加单元进一步包括:
分词单元,用于对所述网页文本进行分词处理以获取候选添加词;
内链推导验证单元,用于在所述网页文本中的第一文本关联第二文本的情况下验证所述第一文本中出现的子候选添加词与第二文本中出现的子内链词是否匹配,在匹配的情况下将所述子候选添加词选择为链接导入词;
添加链接单元,用于为所述链接导入词添加链接。
CN201110052159.4A 2011-03-04 2011-03-04 一种自动处理网页文本的内链的方法及装置 Active CN102654875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110052159.4A CN102654875B (zh) 2011-03-04 2011-03-04 一种自动处理网页文本的内链的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110052159.4A CN102654875B (zh) 2011-03-04 2011-03-04 一种自动处理网页文本的内链的方法及装置

Publications (2)

Publication Number Publication Date
CN102654875A true CN102654875A (zh) 2012-09-05
CN102654875B CN102654875B (zh) 2014-05-21

Family

ID=46730501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110052159.4A Active CN102654875B (zh) 2011-03-04 2011-03-04 一种自动处理网页文本的内链的方法及装置

Country Status (1)

Country Link
CN (1) CN102654875B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455620A (zh) * 2013-09-12 2013-12-18 百度在线网络技术(北京)有限公司 在内容中添加链接的方法和设备
CN104156359A (zh) * 2013-05-13 2014-11-19 腾讯科技(深圳)有限公司 内链信息推荐方法及装置
CN104615680A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
CN105183894A (zh) * 2015-09-29 2015-12-23 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN108009206A (zh) * 2017-11-06 2018-05-08 广州市西美信息科技有限公司 超链接的管理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079768A (zh) * 2006-05-25 2007-11-28 阿里巴巴公司 一种统计网页链接点击数据的方法
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079768A (zh) * 2006-05-25 2007-11-28 阿里巴巴公司 一种统计网页链接点击数据的方法
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156359A (zh) * 2013-05-13 2014-11-19 腾讯科技(深圳)有限公司 内链信息推荐方法及装置
CN104156359B (zh) * 2013-05-13 2018-10-30 腾讯科技(深圳)有限公司 内链信息推荐方法及装置
CN103455620A (zh) * 2013-09-12 2013-12-18 百度在线网络技术(北京)有限公司 在内容中添加链接的方法和设备
CN104615680A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
US10891350B2 (en) 2015-01-21 2021-01-12 Guangzhou Shenma Mobile Information Technology Co., Ltd. Method and device for establishing webpage quality model
CN105183894A (zh) * 2015-09-29 2015-12-23 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN105183894B (zh) * 2015-09-29 2020-03-10 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN108009206A (zh) * 2017-11-06 2018-05-08 广州市西美信息科技有限公司 超链接的管理方法及装置

Also Published As

Publication number Publication date
CN102654875B (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
CN101706807B (zh) 一种中文网页新词自动获取方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN101329687B (zh) 一种新闻网页定位方法
CN104063497B (zh) 观点处理方法和装置以及搜索方法和装置
CN104504150A (zh) 新闻舆情监测系统
CN110543595B (zh) 一种站内搜索系统及方法
CN102654875B (zh) 一种自动处理网页文本的内链的方法及装置
CN103365839A (zh) 一种搜索引擎的推荐搜索方法和装置
US20180053116A1 (en) Classifying social media inputs
CN1822000A (zh) 一种自动检测新闻事件的方法
CN102567494B (zh) 网站分类方法及装置
CN103064984B (zh) 垃圾网页的识别方法及系统
CN103886067A (zh) 使用标签隐含主题进行图书推荐的方法
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN103078854B (zh) 报文过滤方法与装置
CN105302807A (zh) 一种获取信息类别的方法和装置
CN103559258A (zh) 基于云计算的网页排序方法
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
Viet et al. Analyzing recent research trends of computer science from academic open-access digital library
CN116662673B (zh) 基于数据监控的用户偏好数据分析方法
CN102289502A (zh) 一种基于高频字图模型的Deep Web数据爬取方法
CN105528414A (zh) 一种搜集深网数据全集的爬虫方法和系统
CN107766384A (zh) 一种确定页面发布时间的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant