CN101295320A - 一种判定锚文本噪声级别的方法及系统 - Google Patents
一种判定锚文本噪声级别的方法及系统 Download PDFInfo
- Publication number
- CN101295320A CN101295320A CNA2008101252860A CN200810125286A CN101295320A CN 101295320 A CN101295320 A CN 101295320A CN A2008101252860 A CNA2008101252860 A CN A2008101252860A CN 200810125286 A CN200810125286 A CN 200810125286A CN 101295320 A CN101295320 A CN 101295320A
- Authority
- CN
- China
- Prior art keywords
- anchor text
- noise
- attribute
- father
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明具体公开了一种判定锚文本噪声级别的方法及系统,所述方法包括:对网页信息中锚文本标注属性和属性值,部分锚文本标注噪声级别;依据属性个数建立N维坐标空间,N为不小于2的整数,将所述标注噪声级别的部分锚文本映射到所述至少N维坐标空间内;在所述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔;由所述最大分类间隔组成分类模型;将所述标注属性和属性值的锚文本输入到所述分类模型,获取所述锚文本的噪声级别。本发明还提供了一种判定锚文本噪声级别的系统。采用本发明所提供的方法和系统,能够高效准确地判定网络中锚文本的噪声级别。
Description
技术领域
本发明涉及锚文本噪声识别领域,特别是涉及一种判定锚文本噪声级别的方法及系统。
背景技术
网络搜索引擎大致分三类:1)下载子系统从互联网下载网页,抽取出正文、标题、超链接、锚文本等信息;2)索引与检索子系统对正文、标题、锚文本等建立索引,为用户提供检索服务;3)相关性子系统对包括超链接、锚文本等在内的各种相关性因子进行分析计算,为检索结果提供排序依据。可见,锚文本作为搜索引擎中一个重要的因子,直接影响最终搜索结果。
一般意义上,锚文本是指网页间超链接上的文字,例如,当网页A中包含有指向网页B的超链接(URL)时,认为A、B之间存在链接关系,超链接上的文字,称为锚文本。如:新浪的首页(www.sina.com.cn)中含有一个超链接<a href=″http://www.sohu.com target=″_blank″>搜狐首页</a>,则新浪首页和搜狐首页之间存在着链接关系,新浪首页是父页面,搜狐首页是子页面,“搜狐首页”是所述超链接上的锚文本。
在实际中经常出现不能正确描述目标网页的锚文本,即为噪声锚文本。噪声锚文本的产生一般有两种类:1)非主观原因(如手误、大意、错别字等)例如,使用“搜胡”指向www.sohu.com;2)主观原因,集中表现为虚假锚文本、正文中夹带无关锚文本、隐藏锚文本、利用堆砌链接、恶意镜像抬高锚文本权重等。噪声锚文本对搜索引擎的公正性、准确性影响很大,必须识别并剔除。
参见图1,为现有技术中判定锚文本噪声级别的方法流程图。所述方法包括以下步骤:
步骤101:通过人工方式收集通用的无意义词语,建立通用噪声词表。所述噪声词表中包含网络中通用的无意义词语,譬如“上一页”、“下一页”、“点击进入”等;
步骤102:根据锚文本中包含所述噪声词表中的词语的数量,按照一定的规则来判断锚文本噪声级别。
这种判定锚文本噪声级别的方法实现比较简单,但是完全依赖于词表的收集会影响识别锚文本噪声级别的全面性。而且由于词表中的词语是通用的,所以无法识别出特定的噪声文本,特别是作弊的噪声锚文本,致使此方法识别锚文本噪声的准确度也不高。例如,“新浪”并不是通用的噪声词语,因此并不会存在于噪声词表中。当“新浪”作为锚文本指向一个非新浪网页时,它即为噪声锚文本。但是,采用现有技术中的方法,对所述锚文本进行噪声识别时,由于在噪声词表中找不到“新浪”,所以会将此锚文本的噪声级别定义为0,明显这种判断是错误的。
因此采用现有技术中所述判定锚文本噪声级别的方法,无法准确的得到网页中锚文本的噪声级别。
发明内容
本发明所要解决的技术问题是提供一种判定锚文本噪声级别的方法及系统,能够高效、准确地识别网络中锚文本的噪声级别。
为解决上述技术问题,本发明提供了一种判定锚文本噪声级别的方法,所述方法包括:对网页信息中锚文本标注属性和属性值,部分锚文本标注噪声级别;依据属性个数建立N维坐标空间,N为不小于2的整数,将所述标注噪声级别的部分锚文本映射到所述至少N维坐标空间;在所述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔;由所述最大分类间隔组成分类模型;将所述标注属性和属性值的锚文本输入到所述分类模型,获取所述锚文本的噪声级别。
其中,所述部分锚文本标注噪声级别包括:抽取部分锚文本,判断所述部分锚文本的描述与对应目标网页内容的符合度;根据所述符合度与预设阈值的大小关系,对所述锚文本进行噪声级别标注。
其中,在获取所述锚文本的噪声级别之后进一步包括:将获取的所述噪声级别标注到所述锚文本中。
其中,对网页信息中锚文本标注属性和属性值包括:将文本相似度标注为属性,从网页信息中提取与锚文本对应的锚文本长度和目标网页标题;比较所述锚文本与目标网页标题的最大匹配字符串长度,计算所述最大匹配字符串长度与所述锚文本长度之间的比值,将所述比值标注为属性值。
其中,对网页信息中锚文本标注属性和属性值包括:将站内父网页与全部父网页的比例标注为属性,从网页信息中提取引用所述锚文本的站内父网页标识,及引用所述锚文本的全部父网页标识;求和分别得到引用所述锚文本的站内父网页总数,及引用所述锚文本的全部父网页总数,并计算二者的比值,将所述比值标注为属性值。
其中,对网页信息中锚文本标注属性和属性值包括:将引用锚文本的链接类型分布标注为属性,从网页信息中提取出与所述锚文本对应的所有链接类型;求和分别得到引用所述锚文本的链接类型的总数,及引用所述锚文本的全部链接类型的总数,并计算二者比值,将所述比值标注为属性值。
其中,对网页信息中锚文本标注属性和属性值包括:将引用锚文本的父网页总数与总的网页级入度的比例标注为属性,从网页信息中提取与所述锚文本对应的目标网页标识和父网页标识;求和得到引用所述锚文本的父网页总数,及引用所述目标网页的父网页总数,并计算二者比值,将所述比值标注为属性值。
其中,对网页信息中锚文本标注属性和属性值包括:将引用锚文本的父域名总数与总的域名级入度的比例标注为属性,从网页信息中提取与所述锚文本对应的目标网页标识和父域名标识;求和得到引用所述锚文本的父域名总数,及引用所述目标网页的父域名总数,并计算二者比值,将所述比值标注为属性值。
其中,对网页信息中锚文本标注属性和属性值包括:将父网页方差标注为属性,从网页信息中提取与所述锚文本对应的网页权重、父网页标识;获取与所述锚文本对应的网页权重的平均值,分别计算每个网页权重与所述平均值的差值,对所述差值计算平方和,求和得到引用所述锚文本的父网页的总和,计算所述平方和与所述总和的比值,将所述比值标注为属性值。
其中,对网页信息中锚文本标注属性和属性值包括:将父域名方差标注为属性,从网页信息中提取出与所述锚文本对应的域名权重、父域名标识;获取与所述锚文本对应的域名权重的平均值,分别计算每个域名权重与所述平均值的差值,对所述差值计算平方和,求和得到引用所述锚文本的父域名的总和,计算所述平方和与所述总和的比值,将所述比值标注为属性值。
本发明还提供了一种判定锚文本噪声级别的系统,所述系统包括:标注单元,用于对网页信息中锚文本标注属性和属性值,部分锚文本标注噪声级别;映射单元,用于依据属性个数建立N维坐标空间,N为不小于2的整数,将所述标注噪声级别的部分锚文本映射到所述至少N维坐标空间内;分类单元,用于在所述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔;建模单元,用于由所述最大分类间隔组成分类模型;级别获取单元,用于将所述标注属性和属性值的锚文本输入到所述分类模型,获取所述锚文本的噪声级别。
其中,所述系统进一步包括:级别标注单元,用于将获取的所述噪声级别标注到所述锚文本中。
与现有技术相比,本发明具有以下优点:
本发明通过对网页信息中锚文本标注属性和属性值,部分锚文本标注噪声级别;依据属性个数建立N维坐标空间,N为不小于2的整数,将所述标注噪声级别的部分锚文本映射到所述至少N维坐标空间内;在所述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔;由所述最大分类间隔组成分类模型;将所述标注属性和属性值的锚文本输入到所述分类模型,获取所述锚文本的噪声级别。
相对于现有技术中仅仅通过人工方式收集通用的无意义词语,建立通用噪声词表对网络中的噪声锚文本进行噪声识别的方法,本发明根据选择的属性的个数建立高维坐标空间,根据锚文本中标注的属性和属性值信息将标注了噪声级别的部分锚文本映射到高维坐标空间内,由于锚文本的噪声级别与上述各种属性和其对应的属性值有着直接的关系,因此,不同噪声级别的锚文本映射到高维坐标空间中的分布必有所区别,通过寻找不同噪声级别锚文本所属区域之间的最大分类间隔,得到锚文本各属性的属性值与噪声级别之间的对应关系,通过这些最大分类间隔将高维坐标空间划分为若干个区域,使相同噪声级别的锚文本处于同一区域内。运用由得到的最大分类间隔组成的分类模型,能够高效、准确地得到网页信息中标注了属性和属性值的锚文本的噪声级别。
附图说明
图1为现有技术中判定锚文本噪声级别的方法流程图;
图2为本发明第一实施例所述判定锚文本噪声级别的方法流程图;
图3为本发明第二实施例所述判定锚文本噪声级别的方法流程图;
图4为锚文本在二维坐标系中的分布图;
图5为划分了噪声级别区域后的锚文本分布图;
图6为本发明实施例所述判定锚文本噪声级别的系统图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图2,为本发明第一实施例所述判定锚文本噪声级别的方法流程图。所述方法包括以下步骤:
步骤201:从互联网上抓取网页,抽取出网页正文、正向链接和锚文本等网页信息;
获取的网页信息中,影响锚文本噪声级别的因素很多,通常分为三类:
1)关于网页、域名链接的影响因素:
a)引用某锚文本的全部父页面的网页链接权重(PageRank)、网页所在的域名链接权重(DomainRank)的方差分布、多元化特征;
b)引用某锚文本的全部父页面的站内站外分布,其中站内是指父页面与目标子页面属于同一个域名,反之为站外;
c)引用某锚文本的反向链接的类型分布:隐藏链接、图片链接等;
d)目标子页面中,引用某锚文本的父页面总数占总的页面级入度的比例;
e)目标子页面中,引用某锚文本的父域名总数占总的域名级入度的比例;
2)关于锚文本本身的影响因素:
f)锚文本串的文本长度;
g)目标子页面中,某锚文本的更新频度;
h)目标子页面中,各个锚文本的文本相似度、频次;
3)关于目标网页内容的影响因素:
i)目标子页面的内容(标题、正文)与锚文本的相似度。
根据上述各种影响锚文本噪声级别的因素,将获取到的网页信息分别存入网页正文库、网页链接库、锚文本库。
网页正文库用于存放关于目标网页内容的信息,主要包括网页标识(ID:Identity)、标题信息、网页正文等,其消息的存储格式为:
{网页ID,标题,正文……}
网页链接库用于存放关于网页或域名的信息,主要包括:网页ID、网页权重值、域名ID、域名权重值等,其消息的存储格式为:
{网页ID,网页权重……}或是{域名ID,域名权重……}
锚文本库用于存放关于锚文本本身的信息,主要包括:目标网页ID、域名ID、锚文本个数、锚文本、锚文本长度、锚文本更新频度、噪声标记、父域名ID、入度、父网页ID,链接类型等,其消息的存储格式为:
{目标网页ID,域名ID,锚文本个数:
锚文本,锚文本长度,锚文本更新频度,噪声标记:
父域名ID,入度:
父网页ID,链接类型……}
其中,上述噪声标记均为空。
步骤202:归纳影响锚文本噪声级别的主要因素,对上述网页信息中包含的锚文本进行属性和属性值标注,并抽取出部分锚文本进行噪声级别标注;
根据步骤201中所述的影响锚文本噪声级别的网页信息分类,通过归纳可以得到影响锚文本噪声级别的主要影响因素。将这些因素作为锚文本的属性,并通过计算得到相应的属性值,标注到锚文本上。
影响锚文本噪声级别的属性及其属性值的计算方式如下所述:
1)锚文本长度(AnchorLen):根据锚文本的网页ID和锚文本信息从锚文本库中提取得到对应的锚文本长度值。
2)文本相似度(TitleSimilar):根据锚文本的网页ID分别从锚文本库和网页正文库中提取出对应的锚文本长度值和目标网页标题信息,计算锚文本和对应目标网页标题的文本相似度。
通过比较得到锚文本与对应目标网页标题的最大匹配字符串长度,计算所述最大匹配字符串长度与锚文本长度的比值,得到文本相似度。
TitleSimilar=最大匹配字符串的长度/锚文本长度。
3)站内父网页与全部父网页的比例(PDomDistribute):根据锚文本的网页ID和锚文本信息分别从网页链接库和锚文本库中提取出对应的目标网页ID、以及与所述网页ID和锚文本相对应的父网页ID信息。所述父网页ID信息包括引用所述锚文本的站内父网页ID和引用所述锚文本的全部父网页ID信息。
通过求和分别得到引用所述锚文本的站内父网页总数和引用所述锚文本的全部父网页总数,再计算二者的比值,得到站内父网页与全部父网页的比例。
PDomDistribute=引用所述锚文本的站内父网页ID总数/引用所述锚文本的全部父网页ID总数。
4)链接类型分布(PLinkDistribute):根据锚文本的网页ID和锚文本信息分别从网页链接库和锚文本库中提取出对应的目标网页ID、以及与所述网页ID和锚文本对应的链接类型信息。
对一个锚文本可能存在多种链接类型,通过求和分别得到引用所述锚文本的一种链接类型的总数和引用所述锚文本的全部链接类型的总数,并计算二者比值,得到引用锚文本的一种链接类型分布。
PLinkDistribute=引用锚文本的一种链接类型的总数/引用所述锚文本的全部链接类型的总数。
5)父网页总数与总的网页级入度的比例(PageRatio):根据锚文本的网页ID和锚文本信息,分别从网页链接库和锚文本库中提取对应的目标网页ID、以及与所述网页ID和锚文本对应的父网页ID。
通过求和分别得到引用所述锚文本的父网页的总数和引用所述目标网页ID的父网页总数,并计算二者比值,得到父网页总数与总的网页级入度的比例。
PageRatio=引用所述锚文本的父网页数的总数/引用所述网页ID总的父网页数总数。
6)父域名总数与总的域名级入度的比例(DomRatio):根据锚文本的网页ID和锚文本信息,分别从网页链接库和锚文本库中提取对应的目标网页ID、以及与所述网页ID和锚文本对应的父域名ID。
通过求和分别得到引用所述锚文本的父域名的总数和引用所述目标网页ID的父域名的总数,并计算二者比值,得到父域名总数与总的域名级入度的比例。
DomRatio=引用所述锚文本的父域名总数/引用所述目标网页ID的父域名总数。
7)锚文本的更新频度(UpdateFreq):根据锚文本的网页ID和锚文本信息从锚文本库中提取得到对应的锚文本更新频度值。
8)父网页方差(PRDiff):根据噪声样本中的网页ID和锚文本信息,分别从锚文本库和网页链接库中提取出对应的父网页ID和网页权重。
求出所有与所述锚文本对应的网页权重的平均值,分别计算每个网页权重与所述平均值的差值,对所述差值计算平方和,通过求和得到引用所述锚文本的父网页的总和,计算所述平方和与所述总和的比值,得到父网页方差。
PRDiff=sum{(每个网页权重-全部网页权重的平均值)^2}/引用所述锚文本的父网页的总和。
9)父域名方差(DRDiff):根据噪声样本中的网页ID和锚文本信息,分别从锚文本库和网页链接库中提取出对应的父域名ID和域名权重。
求出所有与所述锚文本对应的域名权重的平均值,分别计算每个域名权重与所述平均值的差值,对所述差值计算平方和,通过求和得到引用所述锚文本的父域名的总和,计算所述平方和与所述总和的比值,得到父域名方差。
DRDiff=sum{(每个域名权重-全部域名权重的平均值)^2}/引用所述锚文本的父域名的总和。
对每个锚文本分别计算各属性的属性值,并进行标注。所述标注后的锚文本格式如下所述:
[1][AnchorLen1];[2][TitleSimilar1];[3][PDomDistribute1];[4][PLinkDistribute 1];[5][PageRatio 1];[6][DomRatio 1];[7][UpdateFreq 1];[8][PRDiff1];[9][DRDiff1]
[1][AnchorLen2];[2][TitleSimilar2];[3][PDomDistribute2];[4][PLinkDistribute2];[5][PageRatio2];[6][DomRatio2];[7][UpdateFreq2];[8][PRDiff2];[9][DRDiff2]
……
其中:[AnchorLen1]、[TitleSimilar1]……分别为计算得到的相应属性值。
从标注了属性和属性值的锚文本中随机抽取一批锚文本,根据抽取出的锚文本所对应的目标网页ID找到与所述锚文本相应的目标网页,人工查看目标网页内容与锚文本的描述是否相符,确定二者的符合度,根据所述符合度与预设阈值的大小关系,对锚文本进行噪声级别标注。
在对锚文本进行噪声级别标注时,首先确定需要划分的噪声级别。当噪声级别为2时,锚文本可分为噪声锚文本和非噪声锚文本两类;当噪声级别为3时,锚文本可分为噪声锚文本、可疑噪声锚文本和非噪声锚文本三类;依次类推。
可见,噪声级别越多,锚文本的划分程度越细,分类精度越高,但其时间复杂度也随之增高,一般取3级可以在性能和准确之间取得平衡。
本实施例以噪声级别取3级为例,对根据所述符合度与预设阈值的大小关系,对锚文本进行噪声级别标注进行说明:当锚文本的描述与对应的目标网页实际内容符合度较高时(大于85%),标注噪声级别为0;当符合度中等时(小于85%且大于35%),标注噪声级别为1;当符合度偏低时(小于35%),标注噪声级别为2,由此得到人工标记的锚文本噪声样本。所述锚文本噪声样本格式为:
[0][1][AnchorLen 1];[2][Title Similar 1];[3][PDomDistribute 1];[4][PLinkDistribute 1];[5][PageRatio 1];[6][DomRatio 1];[7][UpdateFreq 1];[8][PRDiff1];[9][DRDiff1]
[2][1][AnchorLen2];[2][TitleSimilar2];[3][PDomDistribute2];[4][PLinkDistribute2];[5][PageRatio2];[6][DomRatio2];[7][UpdateFreq2];[8][PRDiff2];[9][DRDiff2]
……
其中:每个样本最前的[0]、[2]…表示样本的噪声级别。
步骤203:选择部分或全部上述属性建立N(N为不小于2的整数)维坐标空间,将标注噪声级别的部分锚文本映射到至少N维的坐标空间内;
在实际运用中,可以选择步骤202中所述属性中的部分或全部属性,建立N维坐标空间,其中,N等于选择的属性的总数,且N不小于2,即至少选择两种属性。例如,选择三个属性,分别为属性A、属性B和属性C,建立坐标空间,则令属性A为X轴,属性B为Y轴,属性C为Z轴,构成三维坐标。
选择的属性的个数不同,相应坐标空间的维度也不同。属性选择越多,坐标空间维度越高,分类精度越高,但是复杂度也就越高。
选择合适的映射关系,将标注了噪声级别的部分锚文本映射到至少N维坐标空间中,其中N为不小于2的整数。本发明中建立N维坐标空间的目的是为了找到不同噪声级别锚文本之间的最大分类间隔,但是在低维空间里,一般很难找到这样的最大分类间隔将各种噪声级别的锚文本区分开,此时需要进行升维,将标注噪声级别的部分锚文本映射到高于N(至少为N)维的坐标空间中。
步骤204:在上述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔;
由于锚文本的噪声级别与上述各种属性和其对应的属性值有着直接的关系,因此,不同噪声级别的锚文本映射到高维坐标空间中的分布必有所区别,通过寻找不同噪声级别锚文本所属区域之间的最大分类间隔,得到锚文本各属性的属性值与噪声级别之间的对应关系,通过这些最大分类间隔将高维坐标空间划分为若干个区域,使相同噪声级别的锚文本处于同一区域内。
根据选择的属性个数不同,建立的坐标空间的维度不同,所述最大分类间隔也有所不同。当选择的两个属性建立二维坐标系时,区域之间是通过线来划分的,得到的是最大分类间隔线;当选择的属性多于两个时,建立的多维空间坐标,区域之间是通过超平面来划分的,得到的是最大分类间隔面。
假设噪声级别为2,即有两种不同噪声级别的锚文本被映射到至少N维坐标空间中,目标是在至少N维坐标空间内找到一个能将这些锚文本区分开来的超平面,实际上,在至少N维坐标空间中,可能存在多个这样的超平面将两种类型锚文本区分开,通过这些超平面,找到两类锚文本之间的最大间隔。间隔越大,分类精度越高,对未知类型锚文本噪声级别的分类风险越低,通过最小风险控制最终的到的超平面就是最大分类间隔面。
步骤205:由得到的最大分类间隔组成分类模型;
步骤206:将网页信息中标注了属性和属性值的锚文本输入到分类模型,根据最大分类间隔确定所述锚文本将落入某个噪声级别的区域之内,获取所述锚文本的噪声级别。
本发明第一实施例所述的判定锚文本噪声级别的方法根据选择的属性的个数建立高维坐标空间,根据锚文本中标注的属性和属性值信息将标注了噪声级别的部分锚文本映射到高维坐标空间内,由于锚文本的噪声级别与上述各种属性和其对应的属性值有着直接的关系,因此,不同噪声级别的锚文本映射到高维坐标空间中的分布必有所区别,通过寻找不同噪声级别锚文本所属区域之间的最大分类间隔,得到锚文本各属性的属性值与噪声级别之间的对应关系,通过这些最大分类间隔将高维坐标空间划分为若干个区域,使相同噪声级别的锚文本处于同一区域内。运用由得到的最大分类间隔组成的分类模型,能够高效、准确地得到网页信息中标注了属性和属性值的锚文本的噪声级别。
本发明第二实施例所述的判定锚文本噪声级别的方法,以选取两个属性建立二维坐标空间为例,对本发明所述方法进行详细描述。
参照图3,为本发明第二实施例所述判定锚文本噪声级别的方法流程图。所述方法包括以下步骤:
步骤301:从互联网上抓取网页,抽取出网页正文、正向链接和锚文本等信息,把正反向链接、锚文本、网页正文、标题等信息存到磁盘,形成网页正文库、网页链接库、锚文本库;
步骤302:归纳影响锚文本噪声级别的主要因素,对上述锚文本库中的锚文本进行属性和属性值标注,并抽取出部分锚文本,人工审核所述锚文本与对应目标网页的符合度,按预定的范围,对抽取出的锚文本进行噪声级别标注;
在本发明实施例中,选取文本相似度和链接类型分布作为属性,对每个锚文本分别计算两种属性的属性值,并进行标注。所述标注后的锚文本格式如下所述:
[1][TitleSimilar 1];[2][PLinkDistribute 1]
[1][TitleSimilar2]; [2][PLinkDistribute2]
[1][TitleSimilar3]; [2][PLinkDistribute3]
……
其中:[TitleSimilar1]、[TitleSimilar2]…分别为各样本对应的文本相似度值。
从标注了属性和属性值的锚文本中随机抽取一批锚文本,根据抽取出的锚文本所对应的目标网页ID找到与所述锚文本相应的目标网页,人工查看目标网页内容与锚文本的描述是否相符,确定二者的符合度,根据所述符合度与预设阈值的大小关系,对锚文本进行噪声级别标记。
本发明实施例取噪声级别为2,将锚文本分为噪声锚文本和非噪声锚文本两类。对标注了属性和属性值的锚文本进行噪声级别标注。当锚文本的描述与对应的目标网页实际内容符合度较高时(大于50%),标注噪声级别为1;当符合度较低时(小于50%),标注噪声级别为-1。所述锚文本噪声样本格式为:
[1][1][TitleSimilar1]; [2][PLinkDistribute1]
[-1][1][TitleSimilar2];[2][PLinkDistribute2]
[1][1][TitleSimilar3]; [2][PLinkDistribute3]
……
步骤303~步骤305:分别以文本相似度和链接类型分布作为横坐标和纵坐标建立二维坐标系,将步骤302中标注了噪声级别的部分锚文本映射到二维坐标系中,得到所述部分锚文本映射到坐标系中的分布,寻找两种噪声级别的锚文本之间的最大分类间隔线,组成分类模型;
参见图4、图5,可以形象化的描述步骤303~步骤305所述的寻找最大分类间隔线的过程。参见图4,为锚文本在二维坐标系中的分布图。图中,分别以锚文本的两种属性和对应的属性值作为二维坐标系的横、纵坐标轴,分别用圆形和三角形代表两种不同噪声级别的锚文本。在此假设:圆形代表噪声级别为1,三角形代表噪声级别为-1。
本实施例采用机械学习中的支持向量机算法,根据上述不同噪声级别的锚文本在二维坐标系中的分布情况,对二维坐标进行噪声级别区域划分,得到各噪声级别区域之间的最大间隔。
支持向量机是一种有监督的学习方法,即已知训练点的类别,求训练点和类别之间的对应关系,以便将训练集按照类别分开,或者是预测新的训练点所对应的类别。在本发明实施例中,步骤302中得到的标注属性和属性值的锚文本即为训练点,而对部分锚文本标注的噪声级别即为训练点对应的类型,进行分类训练的目的就在于找到各噪声级别锚文本之间的最大分类间隔。
将标注了噪声级别的锚文本作为训练点,形成训练集。
在支持向量机中,标注了类别的训练点构成训练集,可表示为:
T={(x1,y1),(x2,y2),,,,,(xi,yi)}
其中,(xi,yi)表示一个训练点,xi是输入指标向量,yi是输出指标向量。
针对本实施例中,xi即为由锚文本属性和属性值组成的向量,yi即为噪声级别。
本实施例属于二维两类线性可分问题,即xi中只包含两个属性及其属性值,可以通过一条或是几条直线把属于不用类别的训练点分开。
对于两类问题,可以采用符号函数作为决策函数,所述符号函数表达式为:
采用符号函数的方式推断训练点x所对应的类别y的决策函数如下:
y=f(x)=sgn((w·x)+b)
根据符号函数的定义,很明显y的取值要么是1,要么是-1,也就是说训练点x的类别只有1和-1两类。通过求解得到w和b的值,就可以得到上述两类问题的分类函数,当任意给定一个新的训练点x时,只需根据训练函数得到与x相对应的输出y值即可得到新训练点的对应类别。
采用上述SVM分类算法,可以得到图4中两种噪声级别的锚文本之间的分界线,对其进行噪声级别区域划分。图5为划分了噪声级别区域后的锚文本分布图。根据不同噪声级别的锚文本在二维坐标系中的分布情况,尽可能准确地找到了两种不同噪声等级的锚文本之间的分界线,使不同噪声等级的锚文本落入不同的区域内。如图所示,噪声级别为1的锚文本落入区域501内,噪声级别为-1的锚文本落入区域502内同时可见,少数锚文本落到了错误的区域内,但是个数在允许的误差范围之内,并不影响划分结果。
步骤306:将网页信息中标注了属性和属性值的锚文本输入到分类模型,根据最大分类间隔线确定所述锚文本将落入哪个噪声级别的区域之内,获取所述锚文本的噪声级别。
如图5所示,落在区域501内的锚文本噪声级别为1,落在区域502内的锚文本噪声级别为-1。
步骤307:将上述步骤获得的锚文本的噪声级别,标注到锚文本库中对应的锚文本中,更新所述锚文本中的噪声标记。
在本发明第二实施例所述方法中,在步骤304所述找到不同噪声级别锚文本之间的最大分类间隔线时,采用SVM分类算法进行噪声级别区域划分,在本发明的其他实施例中,还可以采用基于其他分类算法。比较常用的分类算法有:贝叶斯分类算法、神经网络算法、基于数据库技术的分类算法、基于决策树的分类算法等等。
基于上述网页噪声识别方法,本发明还提供一种判定锚文本噪声级别系统。所述系统能够高效、准确的识别网页中的噪声锚文本。
参见图6,为本发明实施例所述判定锚文本噪声级别的系统图。所述系统包括信息获取单元601、标注单元602、映射单元603、分类单元604、建模单元605、级别获取单元606及级别标注单元607,其中,
信息获取单元601,用于从互联网上抓取网页,抽取出网页正文、正向链接和锚文本等网页信息。
标注单元602,用于归纳影响锚文本噪声级别的主要因素,对上述网页信息中包含的锚文本进行属性和属性值标注,并抽取出部分锚文本进行噪声级别标注。
映射单元603,用于依据属性个数建立N维坐标空间,N为不小于2的整数,将所述标注噪声级别的部分锚文本映射到所述至少N维坐标空间内。
分类单元604,用于在所述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔。
建模单元605,用于由得到的最大分类间隔组成分类模型。
级别获取单元606,用于将网页信息中标注了属性和属性值的锚文本输入到分类模型,根据所述锚文本落入的区域,获取所述锚文本的噪声级别。
级别标注单元607,用于将获得的锚文本的噪声级别,标注到锚文本库中对应的锚文本中,更新所述锚文本中的噪声标记。
以上对本发明所述一种判定锚文本噪声级别的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1、一种判定锚文本噪声级别的方法,其特征在于,所述方法包括:
对网页信息中锚文本标注属性和属性值,部分锚文本标注噪声级别;
依据属性个数建立N维坐标空间,N为不小于2的整数,将所述标注噪声级别的部分锚文本映射到所述至少N维坐标空间;
在所述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔;
由所述最大分类间隔组成分类模型;
将所述标注属性和属性值的锚文本输入到所述分类模型,获取所述锚文本的噪声级别。
2、根据权利要求1所述的方法,其特征在于,所述部分锚文本标注噪声级别包括:
抽取部分锚文本,判断所述部分锚文本的描述与对应目标网页内容的符合度;
根据所述符合度与预设阈值的大小关系,对所述锚文本进行噪声级别标注。
3、根据权利要求1所述的方法,其特征在于,在获取所述锚文本的噪声级别之后进一步包括:
将获取的所述噪声级别标注到所述锚文本中。
4、根据权利要求1、2或3所述的方法,其特征在于,对网页信息中锚文本标注属性和属性值包括:
将文本相似度标注为属性,从网页信息中提取与锚文本对应的锚文本长度和目标网页标题;
比较所述锚文本与目标网页标题的最大匹配字符串长度,计算所述最大匹配字符串长度与所述锚文本长度之间的比值,将所述比值标注为属性值。
5、根据权利要求1、2或3所述的方法,其特征在于,对网页信息中锚文本标注属性和属性值包括:
将站内父网页与全部父网页的比例标注为属性,从网页信息中提取引用所述锚文本的站内父网页标识,及引用所述锚文本的全部父网页标识;
求和分别得到引用所述锚文本的站内父网页总数,及引用所述锚文本的全部父网页总数,并计算二者的比值,将所述比值标注为属性值。
6、根据权利要求1、2或3所述的方法,其特征在于,对网页信息中锚文本标注属性和属性值包括:
将引用锚文本的链接类型分布标注为属性,从网页信息中提取出与所述锚文本对应的所有链接类型;
求和分别得到引用所述锚文本的链接类型的总数,及引用所述锚文本的全部链接类型的总数,并计算二者比值,将所述比值标注为属性值。
7、根据权利要求1、2或3所述的方法,其特征在于,对网页信息中锚文本标注属性和属性值包括:
将引用锚文本的父网页总数与总的网页级入度的比例标注为属性,从网页信息中提取与所述锚文本对应的目标网页标识和父网页标识;
求和得到引用所述锚文本的父网页总数,及引用所述目标网页的父网页总数,并计算二者比值,将所述比值标注为属性值。
8、根据权利要求1、2或3所述的方法,其特征在于,对网页信息中锚文本标注属性和属性值包括:
将引用锚文本的父域名总数与总的域名级入度的比例标注为属性,从网页信息中提取与所述锚文本对应的目标网页标识和父域名标识;
求和得到引用所述锚文本的父域名总数,及引用所述目标网页的父域名总数,并计算二者比值,将所述比值标注为属性值。
9、根据权利要求1、2或3所述的方法,其特征在于,对网页信息中锚文本标注属性和属性值包括:
将父网页方差标注为属性,从网页信息中提取与所述锚文本对应的网页权重、父网页标识;
获取与所述锚文本对应的网页权重的平均值,分别计算每个网页权重与所述平均值的差值,对所述差值计算平方和,求和得到引用所述锚文本的父网页的总和,计算所述平方和与所述总和的比值,将所述比值标注为属性值。
10、根据权利要求1、2或3所述的方法,其特征在于,对网页信息中锚文本标注属性和属性值包括:
将父域名方差标注为属性,从网页信息中提取出与所述锚文本对应的域名权重、父域名标识;
获取与所述锚文本对应的域名权重的平均值,分别计算每个域名权重与所述平均值的差值,对所述差值计算平方和,求和得到引用所述锚文本的父域名的总和,计算所述平方和与所述总和的比值,将所述比值标注为属性值。
11、一种判定锚文本噪声级别的系统,其特征在于,所述系统包括:
标注单元,用于对网页信息中锚文本标注属性和属性值,部分锚文本标注噪声级别;
映射单元,用于依据属性个数建立N维坐标空间,N为不小于2的整数,将所述标注噪声级别的部分锚文本映射到所述至少N维坐标空间内;
分类单元,用于在所述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔;
建模单元,用于由所述最大分类间隔组成分类模型;
级别获取单元,用于将所述标注属性和属性值的锚文本输入到所述分类模型,获取所述锚文本的噪声级别。
12、根据权利要求11所述的系统,其特征在于,所述系统进一步包括:
级别标注单元,用于将获取的所述噪声级别标注到所述锚文本中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101252860A CN101295320B (zh) | 2008-06-30 | 2008-06-30 | 一种判定锚文本噪声级别的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101252860A CN101295320B (zh) | 2008-06-30 | 2008-06-30 | 一种判定锚文本噪声级别的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101295320A true CN101295320A (zh) | 2008-10-29 |
CN101295320B CN101295320B (zh) | 2010-07-28 |
Family
ID=40065604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101252860A Active CN101295320B (zh) | 2008-06-30 | 2008-06-30 | 一种判定锚文本噪声级别的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101295320B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331458A (zh) * | 2014-10-31 | 2015-02-04 | 北京奇虎科技有限公司 | 以锚文本作为网页标题的方法和装置 |
CN107370718A (zh) * | 2016-05-12 | 2017-11-21 | 深圳市深信服电子科技有限公司 | 网页中黑链的检测方法和装置 |
-
2008
- 2008-06-30 CN CN2008101252860A patent/CN101295320B/zh active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331458A (zh) * | 2014-10-31 | 2015-02-04 | 北京奇虎科技有限公司 | 以锚文本作为网页标题的方法和装置 |
CN104331458B (zh) * | 2014-10-31 | 2018-06-19 | 北京奇虎科技有限公司 | 以锚文本作为网页标题的方法和装置 |
CN107370718A (zh) * | 2016-05-12 | 2017-11-21 | 深圳市深信服电子科技有限公司 | 网页中黑链的检测方法和装置 |
CN107370718B (zh) * | 2016-05-12 | 2020-12-18 | 深信服科技股份有限公司 | 网页中黑链的检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101295320B (zh) | 2010-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101305370B (zh) | 信息分类范例 | |
CN102508859B (zh) | 一种基于网页特征的广告分类方法及装置 | |
CN105354307B (zh) | 一种图像内容识别方法及装置 | |
CN101894134B (zh) | 一种基于空间布局的钓鱼网页检测及其实现方法 | |
CN103455545A (zh) | 社交网络用户的位置估计的方法和系统 | |
CN109933660B (zh) | 面向自然语言形式基于讲义和网站的api信息检索方法 | |
CN106951422A (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN105095187A (zh) | 一种搜索意图识别方法及装置 | |
CN106202514A (zh) | 基于Agent的突发事件跨媒体信息的检索方法及系统 | |
CN104424296A (zh) | 查询词分类方法和装置 | |
CN106202124A (zh) | 网页分类方法及装置 | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN108846097B (zh) | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 | |
CN102385585A (zh) | 网页数据库的建立方法、网页搜索方法以及相关装置 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN106649761A (zh) | 基于深度问答的搜索结果展现方法和装置 | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN104881458A (zh) | 一种网页主题的标注方法和装置 | |
CN109739844A (zh) | 基于衰减权重的数据分类方法 | |
CN110532351A (zh) | 推荐词展示方法、装置、设备及计算机可读存储介质 | |
CN110309234A (zh) | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 | |
CN106919588A (zh) | 一种应用程序搜索系统及方法 | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Arya et al. | News web page classification using url content and structure attributes | |
CN106649264B (zh) | 一种基于篇章信息的中文水果品种信息抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |