CN101383782A - 一种获取网络资源标识的方法及系统 - Google Patents
一种获取网络资源标识的方法及系统 Download PDFInfo
- Publication number
- CN101383782A CN101383782A CNA2008101679673A CN200810167967A CN101383782A CN 101383782 A CN101383782 A CN 101383782A CN A2008101679673 A CNA2008101679673 A CN A2008101679673A CN 200810167967 A CN200810167967 A CN 200810167967A CN 101383782 A CN101383782 A CN 101383782A
- Authority
- CN
- China
- Prior art keywords
- candidate identification
- identification
- internet resources
- resource
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种获取网络资源标识的方法及系统,其可解决如何准确描述一个资源的实际内容,提取出准确有效的资源标识。所述方法包括:获取网络资源的多个候选标识,所述候选标识包括一个或多个锚文本,该一个或多个锚文本为直接或间接指向所述网络资源存放地址的链接所对应的锚文本;从所获取的多个候选标识中选择一个作为所述网络资源的资源标识。由于锚文本能够更准确地描述资源的实际内容,所以能够选取到优质的资源标识,提高标识提取的质量,从而提高搜索的质量。而且,本发明实施例提供的获取网络资源标识的系统实现比较简单,对系统资源要求不高。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种获取网络资源标识的方法及系统。
背景技术
在搜索领域,用户通过搜索引擎搜索互联网上的各种资源(例如网页文本、图片、音频、视频、软件等等)时,搜索引擎系统根据资源存储时所采用的资源名称或描述信息(称为资源的标识)来识别每个资源,从而将与查询词相匹配的资源信息返回给用户。
因此,搜索引擎对资源的识别准确程度直接影响着搜索结果的质量,而搜索引擎对资源的识别准确程度与资源存储时所采用的资源名称或描述信息密切相关。如果资源名称或描述信息能够准确地描述该资源的实际内容,则搜索时就能够检索到该资源。如果资源名称或描述信息与该资源的实际内容不符,则使用与该资源实际内容相符的查询词进行搜索时,很有可能检索不到该资源;或者使用与该资源的描述信息相符的查询词进行搜索时,检索出来的资源实际内容与该查询词不相关。
随着互联网的快速发展,互联网上的资源海量增长,如果大量的资源标识存在描述不准确的问题,就会影响搜索的质量,同时给用户带来较差的使用体验。因此,目前急需解决的问题是如何准确描述一个资源的实际内容,提取出有效的资源标识。
发明内容
本发明实施例提供一种获取网络资源标识的方法及系统,其可解决如何准确描述一个资源的实际内容,提取出准确有效的资源标识。
根据本发明提供的具体实施例,本发明实施例公开了以下技术方案:
一种获取网络资源标识的方法,包括:
获取网络资源的多个候选标识,所述候选标识包括一个或多个锚文本,该一个或多个锚文本为直接或间接指向所述网络资源存放地址的链接所对应的锚文本;
从所获取的多个候选标识中选择一个作为所述网络资源的资源标识。
本发明还提供了一种获取网络资源标识的系统,包括:
候选标识获取单元,用于获取一个网络资源的多个候选标识,所述候选标识包括一个或多个锚文本,该一个或多个锚文本为直接或间接指向所述网络资源存放地址的链接所对应的锚文本;
标识选取单元,用于从所获取的多个候选标识中选择一个作为所述网络资源的资源标识。
本发明实施例提供的技术方案可达到以下技术效果:
首先,本发明实施例提供了一种获取网络资源标识的方法,该方法通过锚文本来提取资源的标识,由于锚文本能够更准确地描述资源的实际内容,所以能够选取到优质的资源标识,提高标识提取的质量,从而提高搜索的质量。而且,本发明实施例提供的获取网络资源标识的系统实现比较简单,对系统资源要求不高。
其次,在计算候选标识的属性权值时,本发明实施例提供了几种加权条件,其中:相似性规则通过比较候选标识与资源名称的相似性,能够保证候选标识与资源的相关性;站内规则是利用同一个网站内的链接其相关性较大的特性,通过比较相邻两级的链接是否属于同一个网站,也能够保证候选标识与资源的相关性;关键词规则是利用优质标识通常是规范化的标识这一特性,通过判断候选标识是否为规范化的标识,能够找到优质的标识;版本号规则主要针对软件类的标识,由于大部分软件都会在标识上把版本号体现出来,所以通过判断候选标识中是否包含软件版本号,也能够找到优质的标识。
附图说明
图1是本发明实施例所述锚文本示意图;
图2是本发明第一实施例一种获取网络资源标识方法的流程图;
图3是本发明第二实施例一种获取网络资源标识方法的流程图;
图4是本发明实施例连接点信息示意图;
图5是本发明实施例对应一个资源的多级锚文本示意图;
图6是本发明实施例中确定的候选标识示意图;
图7是本发明实施例所述一种获取网络资源标识的系统结构图;
图8是本发明第三实施例判断子单元系统结构图;
图9是本发明第四实施例判断子单元系统结构图;
图10是本发明第五实施例判断子单元系统结构图;
图11是本发明第六实施例判断子单元系统结构图;
图12是本发明第七实施例标识选取单元系统结构图;
图13是本发明第八实施例标识选取单元系统结构图;
图14是本发明另一实施例所述一种获取网络资源标识的系统结构图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种获取网络资源标识的方法,该方法通过锚文本进行网络资源实名化,选取到的资源标识能够更准确地标识该网络资源的内容。其中,所述实名化是指即对每个网络资源提取出一个能够准确描述该资源实际内容的标识,该标识用于搜索引擎检索时使用,从而改善搜索引擎的检索质量。
上述锚文本(anchor text)是网页中对一个超链接所指向内容的描述,在很大程度上表明这个超链接所指向页面或文件的内容主题。参照图1所示,这是在www.hao123.com主页上的一部分内容。其中,11是指向百度网站www.baidu.com的链接,“百度”两个字即为该链接的锚文本。同样,12是指向新浪网站www.sina.com.cn的链接,“新浪”两个字即为该链接的锚文本。
由于网络资源的名称在一定程度上也可以描述或标识该网络资源的内容,所以提取标识时,也可以将网络资源名称和锚文本一同作为候选标识。当然,本发明实施例最突出的还是从指向资源的多级锚文本中提取资源标识,而加入资源名称进行提取的方式仅是一种优化处理方法,因为这样可以扩大标识的选取范围,提取出更准确、更有效的标识。下面将以通过资源锚文本和网络资源名称提取标识为例,对本发明实施例的具体实现方案进行详细说明。
参照图2,是本发明第一实施例一种获取网络资源标识方法的流程图。
步骤101,获取一个网络资源的多个候选标识,所述候选标识包括一个或多个锚文本,该一个或多个锚文本为直接或间接指向所述网络资源存放地址的链接所对应的锚文本。
步骤102,从所获取的多个候选标识中选择一个作为所述网络资源的资源标识。
参照图3,是本发明第二实施例一种获取网络资源标识方法的流程图。
步骤301,根据网页间的链接关系,获取网络资源的名称及指向该资源的多级锚文本。
首先,获取网络资源的名称及指向该资源的多级锚文本的过程是:网络资源获取程序如spider(网络蜘蛛)等会在互联网沿着超链接爬行并进行页面内容的抓取,通常是从某一个页面开始读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页或者网络资源下载地址,这样一直循环下去,最后可以找到互联网上大部分的网络资源。spider会按照上述方式从网页上不断地抓取新的文件资源。
然后,将抓取到的信息进行存储,存储的信息主要包括资源的文件名和连接点的信息。其中,所述连接点信息包括:锚文本,当前页面链接,指向页面链接。对照于图1中百度的例子,参照图4所示,锚文本如果是“百度”,则当前页面链接是指www.hao123.com,指向页面链接是指www.baidu.com。
上述存入连接点信息的目的是:在网络资源标识选取的过程中,通常要从最后的文件下载地址往上级进行回溯,此时,通过所述连接点信息可以很方便地往上回溯。例如,根据所述连接点信息,可以得到对应一个资源的多级锚文本,而每级锚文本为直接或间接指向该资源(如一个网络资源)存放地址的链接所对应的锚文本。参照图5,从文件名为“QQ2007”的下载地址往上回溯,第一级为“QQ2007下载服务器选择页面”中的“电信服务器下载”链接,第二级为“腾讯软件下载页面”中的“QQ2007下载”链接,第三级为“腾讯主页”中的“软件下载”链接,第四级为“新浪主页”中的“进入腾讯主页”链接。所以,对应文件资源“QQ2007”的上级锚文本有4个,分别是“电信服务器下载”、“QQ2007下载”、“软件下载”、“进入腾讯主页”。其中,“电信服务器下载”是直接指向文件资源“QQ2007”存放地址的链接所对应的锚文本,其余3个是间接指向文件资源“QQ2007”存放地址的链接所对应的锚文本。
步骤302,分析所述获取的数据,确定候选标识。
在spider抓取回来的数据中,能够进行选取的候选标识包括:文件名以及对应的多级锚文本。然后根据各种规则运算,从中选择一个标识作为资源标识。
本实施例优选的,由于越靠近文件资源下载链接的锚文本越可能准确地描述该文件资源,对spider抓取回来的数据进行分析,如果往上回溯两级以后的锚文本已基本不能描述下载的文件资源。因此,针对一个文件资源,通常往上回溯两级即可。
例如,参照图5,从文件名为“QQ2007”的下载地址往上回溯,回溯两级以后,从第三级开始,锚文本“软件下载”已经不能准确描述最终指向的文件下载链接的资源信息“QQ2007”。所以,最终确定的候选标识参照图6所示:
文件名:qq.exe;
锚文本:下载链接对应的锚文本:电信服务器下载;下载链接的上级链接对应的锚文本:QQ2007正式版,QQ2007,腾讯软件,QQ2007正式版,QQ2007II正式版(即有多个链接都指向该下载链接)。
其中,有两个锚文本是“QQ2007正式版”,一个是从下载文件地址往上第二级的第一个链接,用2.1表示,一个是从下载文件地址往上第二级的第四个链接,用2.4表示。
优选步骤303,过滤无效的候选标识。
为提高标识选取效率,对于包含“下载”、“电信”、“另存为”、“网通”等无意义词语的候选标识进行过滤去除,留下有效的候选标识进行提取。对于图6中的例子,锚文本1.1“电信服务器下载”这个候选标识会被过滤掉。
本实施例采用的过滤方法是预先设置一些需要去除的无效关键词,将候选标识中的文字与关键词进行匹配,如果候选标识中包含此类无效关键词,则直接去除。基于所述过滤方法,其中一种具体实施方式为:使用正则表达式进行过滤。正则表达式是进行文本匹配的工具,可在待处理的字符串中,寻找与给定的正则表达式相匹配的部分。当然,也可以采用其他过滤方式,在此不作限定。
步骤303不是必要步骤,步骤302执行完之后也可以直接跳转到步骤304执行,本实施例中步骤303仅作为一种优化处理。
确定并滤除无效的候选标识后,从有效的候选标识中选取一个标识作为资源标识,本实施例采用的一种具体方法是:判断所获取的多个候选标识是否符合预置的加权条件;将符合预置的加权条件的各候选标识加上相应权值得到各候选标识的属性权值;从所获取的多个候选标识中,选择所述属性权值为最大的候选标识作为所述网络资源的资源标识。
本实施例还提供了另一种预设规则是:对各候选标识进行分词,各候选标识被分为一个或多个关键词;分别统计所述一个或多个关键词中的各关键词在所有候选标识中出现的次数;分别将各候选标识中分出的各关键词的所述出现次数求和;将所述求和结果最大的候选标识作为所述网络资源的资源标识。
当然,本发明实施例包括但不限于上述两种预设规则。而且,上述两种预设规则均可以单独用于判断所获取的候选标识是否可以作为资源标识。但以下实施例的说明是一种优选的处理方式,即将所述两种规则结合起来共同进行判断,具体结合方法是:对每个候选标识计算属性权值w;然后将候选标识进行简单的分词,计算分词之后的各个关键词在所有候选标识中出现的次数,再把每个候选标识中关键词出现的次数进行求和,把结果作为该候选标识的一个相似因子f;最后,将w×f作为这个标识的最终权值,而最终权值最大的标识,将作为这个资源的标识。下面继续步骤304进行详细说明。
步骤304,计算每个有效候选标识的属性权值w。
针对每个有效的候选标识,本实施例采用的计算方法是:首先对每个候选标识赋予基础权值(基础权值也可为0),然后进行不断的权值调整,调整依据是判断候选标识是否符合预置的加权条件,如果符合,则对所述候选标识加上相应权值;最后,对所述基础权值和加权权值求和,得到每个候选标识的属性权值。
本实施例提供的加权条件包括但不限于:相似性规则,站内规则,关键词规则和版本号规则。下面分别详细说明。
其一,相似性规则,是指比较候选标识与文件名的相似性,如果相似则进行相应的加权。所述加权条件能够保证候选标识与资源的相关性,主要是针对候选标识为锚文本的情况。
本实施例判断相似性的方法是:先对文件名和锚文本进行转化,如果字符串中出现英文字母,则忽略英文大小写,将一个英文字母转化成二个字节,即在英文字母后面补一个空字节,保证和中文单字一样的大小(由于存储一个中文字符占用二个字节,存储一个英文字符占用一个字节);然后以中文单字为单位求取锚文本与文件名的交集,即求取锚文本与文件名中相同的文本,如果求出来的交集长度占文件名长度或该锚文本长度两者中任一者的百分比符合预置阈值,例如50%或者50%以上,则认为他们是相似的。
例如,图6中,对“QQ2007正式版”这个候选标识求相似性的过程如下:将文件名“qq.exe”的后缀名“.exe”去除(因为后缀名一般不能用于标识文件内容),剩下“qq”,求得“QQ2007正式版”与“qq”的交集是“qq”。“QQ2007正式版”长度为12,文件名“qq”的长度为2,交集“qq”的长度为2。所以,交集“qq”占了文件名“qq”的100%,所以锚文本“QQ2007正式版”符合所述相似性规则,应该加上相应的权值。
如果候选标识是文件名,则直接符合所述相似性条件,因为文件名与文件名比较是完全相似的。
其二,站内规则,是指如果相邻两级的链接(即候选标识对应的当前页面的链接地址和下一页面的链接地址)属于同一个网站,则符合加权条件。由于同一网站内的链接,其制作者很了解网站中的内容,相关性比较大,不会出现大的偏差,所以符合此规则的候选标识,也能够保证与资源的相关性。
本实施例判断两个链接是否属于同一个站点的方法是,通过对两个链接的URL进行域名提取,比较提取的结果是否相同,如果相同则属于同一个站点。提取的方法是把协议头和第一个‘/’之间的内容作为提取结果,对于一个http链接http://www.skycn.com/index.html,提取的结果为www.skycn.com,其中协议头为“http://”。
例如,在天空软件的一个页面http://www.skycn.com/index.html中,有一个锚文本为“搜狗拼音输入法V3.2正式版”的链接http://www.skycn.com/soft/27159.html,两个链接的提取结果均为www.skycn.com,所以可以确定这两个链接属于同一站点,因此锚文本“搜狗拼音输入法V3.2正式版”符合所述站内规则,应该加上相应的权值。
其三,关键词规则,是指如果候选标识中包含规范化的有效关键词,则进行相应的加权。
由于优质的标识通常是被规范化的,而规范化的标识一般都会包含一些特定关键词,例如规范化的软件标识就常常带有“正式版”、“测试版”等关键词。相反,包含这些关键词的标识也很可能是规范化的软件标识。所以,通过判断候选标识是否为规范化的标识,能够找到更优质的标识。
本实施例判断候选标识是否为规范化标识的方法是,通过建立有效关键词模板库,将候选标识与所述有效关键词模板库进行匹配,如果所述候选标识中包含模板库中的有效关键词,则所述候选标识符合加权条件。
有效关键词模板库的建立依据于人工编辑和数据统计。人工编辑是由编辑人员根据自己的经验构造一个关键词库,由于人工编辑不可能构造一个覆盖面很广的关键词模板库,所以需要结合数据统计方法。数据统计是对实名化之后的资源标识进行统计,提取其中出现比较多而且模板库中还没有收录的关键词,并加入到模板库中。模板库中的有效关键词可以包括:客户端,单机,公测,简体版,正式版,标准版,破解版,企业版,播放器,作品集,软件,教程等等。
配置一个关键词模板库之后,如果候选标识中包含了模板库中的有效关键词,则该候选标识符合所述规则,进行相应的加权。
其四,版本号规则,主要针对软件类的标识,是指对包含软件版本号的候选标识进行加权。
现在大部分软件都会在标识上把版本号体现出来,例如“迅雷5.7.6.426”,“脱兔(Tuotu)3 V3.0.108”,“成语连连看V2008 Build 1890”等等。对于这些软件标识,可以提取到一个版本号,而对于能够提取到版本号的候选标识,符合所述规则。
本实施例提取版本号的方法是,根据版本号的描述特点,将候选标识中通过点号‘.’分开的一串连续数字,或者字母‘V’和‘v’后面带的一串数字,作为版本号提取。
如果候选标识符合上述加权条件中的任何一个,都可以在该候选标识的基础权值上进行加权。最后,将基础权值和加权权值相加,得到最终的属性权值w。
步骤305,计算每个有效候选标识的相似因子f。
本实施例采用的计算方法是,把候选标识进行分词,得到一系列的关键词,然后计算这些关键词在所有候选标识中出现的次数,再根据次数计算候选标识的相似因子。
分词是指从一串字符中提取单独有意义的词语或字,其中一种分词方法是:
1)按分隔符分,分隔符包括空格、标点符号等;
2)按类型分,中文、英文、数字各自为一种类型。
例如,“迅雷(Thunder)5.7.6.426正式版”通过以上几点就可分成“迅雷”、“Thunder”、“5.7.6.426”、“正式版”四个词。
计算相似因子f:每个候选标识将其包含的各关键词出现的次数减去1(即除去每个候选标识本身)再进行累加,得到的总数加1(加1主要是为了防止总和为0,因本实施例中相似因子f将和属性权值w进行乘法运算,为避免结果为0,所以相似因子至少为1),将此值作为这个候选标识的相似因子。例如,在图6中,“QQ2007”进行分词之后,得到“QQ”、“2007”两个关键字,而且在所有的6个有效的候选标识中(5个锚文本及一个文件名),“QQ”出现的次数是5,“2007”出现的次数是4,所以“QQ2007”的相似因子是(5-1)+(4-1)+1=8。
步骤306,根据所述属性权值w及相似因子f计算每个有效候选标识的最终权值,并将最终权值最大的候选标识确定为所述资源的标识。
根据w和f计算最终权值的方式有多种,一种简单的方法是w×f,或者w+f都可以,在此不作限定。如果最终权值最大的候选标识有多个,则任选其中一个。
下面对照图6所述的例子,举例说明上述标识提取过程,参照表1。表1中“符合规则”列的标号“1”、“2”、“3”及“4”分别代表:1相似性规则,2站内规则,3关键词规则和4版本号规则(即前述的四种加权条件),本实施例中,基础权值为20,每符合一种规则,则属性权值增加5。
候选标识类型 | 候选标识 | 符合规则 | 属性权值w | 关键词 | 相似因子f | 最终权值w*f |
文件名 | 1 | 25 | (5-1)+1=5 | 125 | ||
锚文本2.1 | QQ2007正式版 | 1234 | 40 | QQ,2007,正式版 | (5-1)+(4-1)+(3-1)+1=10 | 400 |
锚文本2.2 | QQ2007 | 14 | 30 | QQ,2007 | (5-1)+(4-1)+1=8 | 240 |
锚文本2.3 | 腾讯软件 | 2 | 25 | 腾讯,软件 | (1-1)+(1-1)+1=1 | 25 |
锚文本2.4 | QQ2007正式版 | 124 | 35 | QQ,2007,正式版 | (5-1)+(4-1)+(3-1)+1=10 | 350 |
锚文本2.5 | QQ2007II正式版 | 124 | 35 | QQ,2007,II,正式版 | (5-1)+(4-1)+(1-1)+(3-1)+1=10 | 350 |
表1
通过表1可知,最后选取最终权值为400的锚文本2.1“QQ2007正式版”作为文件资源“QQ2007”的实名。
综上所述,通过锚文本和网络资源名称进行资源实名化,由于锚文本能够更准确地描述资源的实际内容,所以能够选取到优质的资源标识,提高标识提取的质量,从而提高搜索引擎的质量。而且,系统实现比较简单,对系统资源要求不高。
针对上述资源标识提取方法,本发明实施例还提供了一种获取网络资源标识的系统实施例。参照图7,是实施例所述一种获取网络资源标识的系统结构图。所述系统主要包括:
候选标识获取单元71,用于获取一个网络资源的多个候选标识,所述候选标识包括从网页页面中获取的一个或多个锚文本,该一个或多个锚文本为直接或间接指向所述网络资源存放地址的链接所对应的锚文本;
标识选取单元72,用于从所获取的多个候选标识中选择一个作为所述网络资源的资源标识。
优选的,所述候选标识还包括所述网络资源的文件名。
优选的,所述候选标识获取单元71可通过以下方式获取每个锚文本:
根据一个第一链接地址,查找该第一链接地址对应的第一网页;
从所述第一网页中获取一个第二链接地址,该第二链接地址直接指向所述网络资源存放地址的链接;
获取所述第一链接地址对应的锚文本,则该第一链接地址对应的锚文本为一个间接指向所述网络资源存放地址的链接所对应的锚文本;或者,获取所述第二链接地址对应的锚文本,则该第二链接地址对应的锚文本为一个直接指向所述网络资源存放地址的链接所对应的锚文本。
本实施例包括但不限于通过如下两种方式从所获取的多个候选标识中选择一个作为所述网络资源的资源标识:一种是根据候选标识的属性权值进行判断,当候选标识的属性权值最大时,该候选标识就作为资源标识;另一种是根据候选标识分词后得到的关键词在所有候选标识中出现的次数进行判断,当所述次数最多时,该候选标识就作为资源标识。所述两种预设规则均可以单独用于判断所获取的候选标识是否可以作为资源标识,但结合起来共同进行判断效果更佳。
则优选的,所述标识选取单元72包括:
第一判断子单元721,用于判断所获取的多个候选标识是否符合预置的加权条件。
属性权值获取子单元722,用于将符合预置的加权条件的各候选标识加上相应权值得到各候选标识的属性权值。
第一标识确定子单元723,用于从所获取的多个候选标识中,选择所述属性权值为最大的候选标识作为所述网络资源的资源标识。
如果按照此方法进行判断,首先可对每个候选标识赋予基础权值,然后进行不断的权值调整,调整依据是判断候选标识是否符合预置的加权条件,如果符合,则对所述候选标识加上相应权值;最后,对所述基础权值和加权权值求和,得到每个候选标识的属性权值。
本实施例包括但不限于所提供的四种加权条件,分别是相似性规则,站内规则,关键词规则和版本号规则。
参照图8,如果采用相似性规则进行加权判断,则所述第一判断子单元721包括:
第一计算模块7211,用于计算各候选标识与所述网络资源的名称文本的交集文本;
第二计算模块7212,用于计算所述交集文本的字符长度占所述名称或所述候选标识字符长度的百分比;如果所述百分比达到预置阈值,则该候选标识符合加权条件。
参照图9,如果采用站内规则进行加权判断,则所述第一判断子单元721包括:
链接地址获取模块7213,用于分别获取各候选标识所在的当前网页页面链接地址和各候选标识对应的链接地址;
比较模块7214,用于比较所述两个链接地址中的域名部分是否相同,如果相同,则该候选标识符合加权条件。
参照图10,如果采用关键词规则进行加权判断,则所述判断子单元721为:
匹配模块7215,用于将各候选标识与预设的关键词模板库进行匹配;如果所述候选标识中包含模板库中的关键词,则该候选标识符合加权条件。
参照图11,如果采用版本号规则进行加权判断,则所述判断子单元721为:
版本号判断模块7216,用于判断各候选标识中是否包含软件版本号;如果包含,则该候选标识符合加权条件。
如果采用根据候选标识分词后得到的关键词在所有候选标识中出现的次数的方法进行判断,参照图12,则优选的,所述标识选取单元72包括:
分词子单元724,用于对各候选标识进行分词,各候选标识被分为一个或多个关键词;
统计子单元725,用于分别统计所述一个或多个关键词中的各关键词在所有候选标识中出现的次数;
求和子单元726,用于分别将各候选标识中分出的各关键词的所述出现次数求和;
第二标识确定子单元727,用于从所获取的多个候选标识中,选择所述求和结果最大的候选标识作为所述网络资源的资源标识。
为提高标识选取效率,对于包含“下载”、“电信”、“另存为”、“网通”等无意义词语的候选标识进行过滤去除,留下有效的候选标识进行提取。参照图13,则优选的,所述标识选取单元72包括:
第二判断子单元728,用于判断每个候选标识中是否包含预置的无效关键词;
第三标识确定子单元729,用于从不包含预置的无效关键词的候选标识中选择一个作为所述网络资源的资源标识。
基于图7所示的系统,本发明还提供了另一在实际应用中使用较多的实施例系统。参照图14,是本发明另一实施例所述一种获取网络资源标识的系统结构图。所述系统主要包括:候选标识选取单元121、计算单元122、标识选取单元123,还包括用于完成预处理过程的信息抓取单元124和存储单元125。
其中,所述信息抓取单元124用于利用spider(网络蜘蛛)从网页上不断地抓取文件资源,并保存到存储单元125。所述存储单元125用于将抓取到的信息进行存储,存储的信息主要包括资源的文件名和连接点的信息。
所述候选标识选取单元121用于根据所述连接点信息,从存储单元125获取资源的名称及指向该资源的多级锚文本,并将所述资源名称及多级锚文本确定为该资源的候选标识。优选的,候选标识选取单元121可以先过滤无效的候选标识,留下有效的候选标识再进行后续提取。
计算单元122用于计算每个候选标识的属性权值w及相似因子f。本实施例中,计算单元122包括第一计算单元和第二计算单元。
所述第一计算单元用于计算每个候选标识的属性权值,计算方式是:对每个候选标识赋予基础权值;判断候选标识是否符合预置的加权条件,如果符合,则对所述候选标识加上相应权值;对所述基础权值和加权权值求和,得到每个候选标识的属性权值。其中,所述加权条件包括:相似性规则,站内规则,关键词规则和版本号规则。
所述第二计算单元用于计算每个候选标识的相似因子,计算方式是:将候选标识进行分词处理;计算每个分词在所有候选标识中出现的次数;根据所述次数计算所述候选标识的相似因子。
标识选取单元123用于根据所述属性权值及相似因子计算每个候选标识的最终权值,计算公式可以是w×f,或者w+f,并将最终权值最大的候选标识确定为所述资源的标识。如果最终权值最大的候选标识有多个,则任选其中一个。
本发明实施例提供了一种获取网络资源标识的方法,该方法通过锚文本来提取资源的标识,由于锚文本能够更准确地描述资源的实际内容,所以能够选取到优质的资源标识,提高标识提取的质量,从而提高搜索的质量。而且,本发明实施例提供的获取网络资源标识的系统实现比较简单,对系统资源要求不高。
对于系统实施例而言,由于其基本相应于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可,为了篇幅考虑,在此不再详述。
以上对本发明实施例所提供的一种获取网络资源标识的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (20)
1、一种获取网络资源标识的方法,其特征在于,包括:
获取一个网络资源的多个候选标识,所述候选标识包括一个或多个锚文本,该一个或多个锚文本为直接或间接指向所述网络资源存放地址的链接所对应的锚文本;
从所获取的多个候选标识中选择一个作为所述网络资源的资源标识。
2、根据权利要求1所述的方法,其特征在于:所述候选标识还包括所述网络资源的文件名。
3、根据权利要求1所述的方法,其特征在于,所述获取一个网络资源的多个候选标识,所述候选标识包括一个或多个锚文本中,其中,获取每个锚文本包括:
根据一个第一链接地址,查找该第一链接地址对应的第一网页;
从所述第一网页中获取一个第二链接地址,该第二链接地址直接指向所述网络资源存放地址的链接;
获取所述第一链接地址对应的锚文本,则该第一链接地址对应的锚文本为一个间接指向所述网络资源存放地址的链接所对应的锚文本;或者,获取所述第二链接地址对应的锚文本,则该第二链接地址对应的锚文本为一个直接指向所述网络资源存放地址的链接所对应的锚文本。
4、根据权利要求1或2所述的方法,其特征在于,所述从所获取的多个候选标识中选择一个作为所述网络资源的资源标识,包括:
判断所获取的多个候选标识是否符合预置的加权条件;
将符合预置的加权条件的各候选标识加上相应权值得到各候选标识的属性权值;
从所获取的多个候选标识中,选择所述属性权值为最大的候选标识作为所述网络资源的资源标识。
5、根据权利要求4所述的方法,其特征在于,所述判断候选标识是否符合预置的加权条件包括:
计算各候选标识与所述网络资源的名称文本的交集文本;
计算所述交集文本的字符长度占所述名称文本或所述候选标识字符长度的百分比,如果所述百分比达到预置阈值,则该候选标识符合加权条件。
6、根据权利要求4所述的方法,其特征在于,所述判断候选标识是否符合预置的加权条件包括:
分别获取各候选标识所在的当前网页页面链接地址和各候选标识对应的链接地址;
比较所述两个链接地址中的域名部分是否相同,如果相同,则该候选标识符合加权条件。
7、根据权利要求4所述的方法,其特征在于,所述判断候选标识是否符合预置的加权条件包括:
将各候选标识与预设的关键词模板库进行匹配,如果所述候选标识中包含模板库中的有效关键词,则该候选标识符合加权条件。
8、根据权利要求4所述的方法,其特征在于,所述判断候选标识是否符合预置的加权条件包括:
判断各候选标识中是否包含软件版本号,如果包含,则该候选标识符合加权条件。
9、根据权利要求1或2所述的方法,其特征在于,所述从所获取的多个候选标识中选择一个作为所述网络资源的资源标识,包括:
对各候选标识进行分词,各候选标识被分为一个或多个关键词;
分别统计所述一个或多个关键词中的各关键词在所有候选标识中出现的次数;
分别将各候选标识中分出的各关键词的所述出现次数求和;
将所述求和结果最大的候选标识作为所述网络资源的资源标识。
10、根据权利要求1或2所述的方法,其特征在于,所述从所获取的多个候选标识中选择一个作为所述网络资源的资源标识包括:
判断每个候选标识中是否包含预置的无效关键词;
从不包含预置的无效关键词的候选标识中选择一个作为所述网络资源的资源标识。
11、一种获取网络资源标识的系统,其特征在于,包括:
候选标识获取单元,用于获取一个网络资源的多个候选标识,所述候选标识包括一个或多个锚文本,该一个或多个锚文本为直接或间接指向所述网络资源存放地址的链接所对应的锚文本;
标识选取单元,用于从所获取的多个候选标识中选择一个作为所述网络资源的资源标识。
12、根据权利要求11所述的系统,其特征在于:所述候选标识还包括所述网络资源的文件名。
13、根据权利要求11所述的系统,其特征在于,所述候选标识获取单元通过以下方式获取每个锚文本:
根据一个第一链接地址,查找该第一链接地址对应的第一网页;
从所述第一网页中获取一个第二链接地址,该第二链接地址直接指向所述网络资源存放地址的链接;
获取所述第一链接地址对应的锚文本,则该第一链接地址对应的锚文本为一个间接指向所述网络资源存放地址的链接所对应的锚文本;或者,获取所述第二链接地址对应的锚文本,则该第二链接地址对应的锚文本为一个直接指向所述网络资源存放地址的链接所对应的锚文本。
14、根据权利要求11或12所述的系统,其特征在于,所述标识选取单元包括:
第一判断子单元,用于判断所获取的多个候选标识是否符合预置的加权条件;
属性权值获取子单元,用于将符合预置的加权条件的各候选标识加上相应权值得到各候选标识的属性权值;
第一标识确定子单元,用于从所获取的多个候选标识中,选择所述属性权值为最大的候选标识作为所述网络资源的资源标识。
15、根据权利要求14所述的系统,其特征在于,所述第一判断子单元包括:
第一计算模块,用于计算各候选标识与所述网络资源的名称文本的交集文本;
第二计算模块,用于计算所述交集文本的字符长度占所述名称文本或所述候选标识字符长度的百分比;如果所述百分比达到预置阈值,则该候选标识符合加权条件。
16、根据权利要求14所述的系统,其特征在于,所述第一判断子单元包括:
链接地址获取模块,用于分别获取各候选标识所在的当前网页页面链接地址和各候选标识对应的链接地址;
比较模块,用于比较所述两个链接地址中的域名部分是否相同,如果相同,则该候选标识符合加权条件。
17、根据权利要求14所述的系统,其特征在于,所述第一判断子单元包括:
匹配模块,用于将各候选标识与预设的关键词模板库进行匹配;如果所述候选标识中包含模板库中的有效关键词,则该候选标识符合加权条件。
18、根据权利要求14所述的系统,其特征在于,所述第一判断子单元包括:
版本号判断模块,用于判断各候选标识中是否包含软件版本号;如果包含,则该候选标识符合加权条件。
19、根据权利要求11或12所述的系统,其特征在于,所述标识选取单元包括:
分词子单元,用于对各候选标识进行分词,各候选标识被分为一个或多个关键词;
统计子单元,用于分别统计所述一个或多个关键词中的各关键词在所有候选标识中出现的次数;
求和子单元,用于分别将各候选标识中分出的各关键词的所述出现次数求和;
第二标识确定子单元,用于从所获取的多个候选标识中,选择所述求和结果最大的候选标识作为所述网络资源的资源标识。
20、根据权利要求11或12所述的系统,其特征在于,所述标识选取单元包括:
第二判断子单元,用于判断每个候选标识中是否包含预置的无效关键词;
第三标识确定子单元,用于从不包含预置的无效关键词的候选标识中选择一个作为所述网络资源的资源标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101679673A CN101383782A (zh) | 2008-10-16 | 2008-10-16 | 一种获取网络资源标识的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101679673A CN101383782A (zh) | 2008-10-16 | 2008-10-16 | 一种获取网络资源标识的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101383782A true CN101383782A (zh) | 2009-03-11 |
Family
ID=40463409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008101679673A Pending CN101383782A (zh) | 2008-10-16 | 2008-10-16 | 一种获取网络资源标识的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101383782A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577461A (zh) * | 2012-08-02 | 2014-02-12 | 中国移动通信集团公司 | 一种图片作为翻页链接的识别方法及装置 |
CN104133830A (zh) * | 2013-05-02 | 2014-11-05 | 乐视网信息技术(北京)股份有限公司 | 一种数据获取方法 |
CN104317931A (zh) * | 2014-10-31 | 2015-01-28 | 北京奇虎科技有限公司 | 网页标题的确定方法和装置 |
CN104317930A (zh) * | 2014-10-31 | 2015-01-28 | 北京奇虎科技有限公司 | 终端搜索的呈现优化方法和装置 |
CN104331458A (zh) * | 2014-10-31 | 2015-02-04 | 北京奇虎科技有限公司 | 以锚文本作为网页标题的方法和装置 |
CN105279172A (zh) * | 2014-06-30 | 2016-01-27 | 惠州市伟乐科技股份有限公司 | 视频匹配方法和装置 |
CN105550335A (zh) * | 2015-12-22 | 2016-05-04 | 北京奇虎科技有限公司 | 嵌入资源下载信息的搜索摘要提供方法及装置 |
WO2016066066A1 (zh) * | 2014-10-31 | 2016-05-06 | 北京奇虎科技有限公司 | 以锚文本作为网页标题的方法和装置 |
WO2016066082A1 (zh) * | 2014-10-31 | 2016-05-06 | 北京奇虎科技有限公司 | 搜索结果呈现优化方法和装置 |
CN107818123A (zh) * | 2016-09-12 | 2018-03-20 | 联发科技股份有限公司 | 文本的自适应linkify方法及其处理器 |
CN108462902A (zh) * | 2018-03-29 | 2018-08-28 | 上海七牛信息技术有限公司 | 一种媒体文件读取方法及装置、多媒体播放系统 |
CN111639253A (zh) * | 2020-05-22 | 2020-09-08 | 北京百度网讯科技有限公司 | 一种数据判重方法、装置、设备及存储介质 |
-
2008
- 2008-10-16 CN CNA2008101679673A patent/CN101383782A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577461A (zh) * | 2012-08-02 | 2014-02-12 | 中国移动通信集团公司 | 一种图片作为翻页链接的识别方法及装置 |
CN104133830A (zh) * | 2013-05-02 | 2014-11-05 | 乐视网信息技术(北京)股份有限公司 | 一种数据获取方法 |
CN105279172A (zh) * | 2014-06-30 | 2016-01-27 | 惠州市伟乐科技股份有限公司 | 视频匹配方法和装置 |
CN105279172B (zh) * | 2014-06-30 | 2019-07-09 | 惠州市伟乐科技股份有限公司 | 视频匹配方法和装置 |
CN104331458B (zh) * | 2014-10-31 | 2018-06-19 | 北京奇虎科技有限公司 | 以锚文本作为网页标题的方法和装置 |
CN104317931A (zh) * | 2014-10-31 | 2015-01-28 | 北京奇虎科技有限公司 | 网页标题的确定方法和装置 |
CN104317930A (zh) * | 2014-10-31 | 2015-01-28 | 北京奇虎科技有限公司 | 终端搜索的呈现优化方法和装置 |
CN104331458A (zh) * | 2014-10-31 | 2015-02-04 | 北京奇虎科技有限公司 | 以锚文本作为网页标题的方法和装置 |
WO2016066066A1 (zh) * | 2014-10-31 | 2016-05-06 | 北京奇虎科技有限公司 | 以锚文本作为网页标题的方法和装置 |
WO2016066082A1 (zh) * | 2014-10-31 | 2016-05-06 | 北京奇虎科技有限公司 | 搜索结果呈现优化方法和装置 |
CN104317931B (zh) * | 2014-10-31 | 2018-04-17 | 北京奇虎科技有限公司 | 网页标题的确定方法和装置 |
CN105550335A (zh) * | 2015-12-22 | 2016-05-04 | 北京奇虎科技有限公司 | 嵌入资源下载信息的搜索摘要提供方法及装置 |
CN107818123A (zh) * | 2016-09-12 | 2018-03-20 | 联发科技股份有限公司 | 文本的自适应linkify方法及其处理器 |
CN108462902A (zh) * | 2018-03-29 | 2018-08-28 | 上海七牛信息技术有限公司 | 一种媒体文件读取方法及装置、多媒体播放系统 |
CN111639253A (zh) * | 2020-05-22 | 2020-09-08 | 北京百度网讯科技有限公司 | 一种数据判重方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101383782A (zh) | 一种获取网络资源标识的方法及系统 | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
CN100498790C (zh) | 一种搜索方法和系统 | |
US8719262B1 (en) | Identification of semantic units from within a search query | |
CN101079064B (zh) | 一种网页排序方法及装置 | |
CN101908071B (zh) | 一种提高搜索引擎搜索效率的方法及其系统 | |
KR100849272B1 (ko) | 마크업 문서 자동 요약 방법 | |
CN101788988B (zh) | 信息抓取方法 | |
CN105138558B (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN103294681B (zh) | 一种搜索结果的生成方法和装置 | |
CN108737423A (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
CN106021418B (zh) | 新闻事件的聚类方法及装置 | |
KR20150036117A (ko) | 쿼리 확장 | |
WO2010014082A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN103631794A (zh) | 一种用于对搜索结果进行排序的方法、装置与设备 | |
CN102890683B (zh) | 信息提供方法及装置 | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN106021351B (zh) | 针对新闻事件的聚合提取方法及装置 | |
CN102541910A (zh) | 提取关键字的方法 | |
JP2011192102A (ja) | サマリ作成装置、サマリ作成方法及びプログラム | |
CN103970800B (zh) | 网页相关关键词的抽取处理方法和系统 | |
CN102999521B (zh) | 一种识别搜索需求的方法和装置 | |
CN110532450A (zh) | 一种基于改进鲨鱼搜索的主题爬虫方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20090311 |