CN104408175A - 识别网页类型的方法和装置 - Google Patents
识别网页类型的方法和装置 Download PDFInfo
- Publication number
- CN104408175A CN104408175A CN201410771952.3A CN201410771952A CN104408175A CN 104408175 A CN104408175 A CN 104408175A CN 201410771952 A CN201410771952 A CN 201410771952A CN 104408175 A CN104408175 A CN 104408175A
- Authority
- CN
- China
- Prior art keywords
- webpage
- access times
- identified
- user
- diversity factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种识别网页类型的方法和装置,包括:确定预定时间内待识别网页中多个位置处链接的平均用户访问次数;根据多个位置处链接的平均用户访问次数,确定待识别网页基于不同位置的用户访问次数的差异度;当用户访问次数的差异度达到阈值时,确定待识别网页的类型为人工编辑网页。待识别网页基于不同位置的用户访问次数的差异度较大,即该待识别网页具有明显的人工参与特性,可判定为人工编辑网页;从而区别于机器生成网页,可以对人工编辑网页做不同的区分处理,也使得搜索引擎可以获取更多有价值、有针对性的信息,也更有效利用了网络资源。
Description
技术领域
本发明涉及互联网技术领域,具体而言,本发明涉及一种识别网页类型的方式和装置。
背景技术
互联网上的索引页,即网站中的导航页,为用户提供网站或者一组网页的索引,帮助用户较快的找到想要获取的信息。目前,一部分索引页是人工编辑的,比如新浪等门户网站的首页;还有一部分索引页是机器自动生成的,比如普通的新闻索引页就是机器自动生成的。人工编辑索引页的和机器生成索引页具有不同的特点,例如,人工编辑索引页的和机器生成索引页的更新及调度周期设定上是不同的,机器生成索引页的更新频率比较快,人工编辑索引页的更新频率相对比较慢;另外,人工编辑索引页会因时间段的不同而在网页上产生新链接的速度不同,具有明显的人工参与的特色;人工编辑索引页会带有明显的人为参与色彩,例如,人工编辑索引页上的链接内容是经过编辑者人工筛选的,可能具有倾向性和偏好特点。但是当前,搜索引擎在爬取互联网网页时并不能有效区分人工编辑网页和机器生成网页两种类型,因此导致网页的获取和利用不能得到有效区分,从而很多人工编辑网页中的高价值内容没有得到充分利用,使得搜索引擎的效用没有最大化,也造成一定程度的网络资源浪费。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种识别网页类型的方法,包括:
确定预定时间内待识别网页中多个位置处链接的平均用户访问次数;
根据多个位置处链接的平均用户访问次数,确定待识别网页基于不同位置的用户访问次数的差异度;
当用户访问次数的差异度达到阈值时,确定待识别网页的类型为人工编辑网页。
本发明还提供了一种识别网页类型的装置,包括:
次数确定模块,用于确定预定时间内待识别网页中多个位置处链接的平均用户访问次数;
差异度确定模块,用于根据多个位置处链接的平均用户访问次数,确定待识别网页基于不同位置的用户访问次数的差异度;
识别模块,用于当用户访问次数的差异度达到阈值时,确定待识别网页的类型为人工编辑网页。
本方案的实施例中,通过计算预定时间内多个位置处链接的平均用户访问次数,来确定待识别网页基于不同位置的用户访问次数的差异度,若差异度大于或等于阈值,可判定待识别网页中,对于任意两个前后位置关系的链接处,靠前位置处链接的平均用户访问次数大于靠前位置处链接的平均用户访问次数的情形占全部比较结果的大部分,即待识别网页基于不同位置的用户访问次数的差异度较大,该待识别网页具有明显的人工参与特性,可判定为人工编辑网页;从而区别于机器生成网页,可以对人工编辑网页做不同的区分处理,也使得搜索引擎可以获取更多有价值、有针对性的信息,也更有效利用了网络资源。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明中的识别网页类型的方法一个实施例的流程图;
图2为本发明中的识别网页类型的装置一个实施例的结构示意图;
图3为本发明中的用于识别网页类型的一个实施例的示例图;
图4为本发明中的用于识别网页类型的另一实施例的示例图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
图1为本发明中的识别网页类型的方法一个实施例的流程图。
根据本发明的方法包括由网络设备执行的步骤S110、步骤S120和步骤S130。
其中,网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在步骤S110中,确定预定时间内待识别网页中多个位置处链接的平均用户访问次数;在步骤S120中,根据多个位置处链接的平均用户访问次数,确定待识别网页基于不同位置的用户访问次数的差异度;在步骤S130中,当用户访问次数的差异度达到阈值时,确定待识别网页的类型为人工编辑网页。
本实施例中,通过计算预定时间内多个位置处链接的平均用户访问次数,来确定待识别网页基于不同位置的用户访问次数的差异度,若差异度大于或等于阈值,可判定待识别网页中,对于任意两个前后位置关系的链接处,靠前位置处链接的平均用户访问次数大于靠前位置处链接的平均用户访问次数的情形占全部比较结果的大部分,即待识别网页基于不同位置的用户访问次数的差异度较大,该待识别网页具有明显的人工参与特性,可判定为人工编辑网页;为后续搜索引擎的网页爬虫设定较佳的网页爬取频率提供了可靠保证,对于更新频率相对较低的人工编辑网页,可设置相对较低的爬取频率,节约网络资源。
在步骤S110中,确定预定时间内待识别网页中多个位置处链接的平均用户访问次数。
其中,待识别网页中多个位置处的链接是指网页中特定展现位置的链接,例如,新闻索引页中的特定展现位置的链接为新闻网页的链接;视频索引页中的特定展现位置的链接为视频播放网页的链接;其中,特定展现位置是以前后位置顺序排列在待识别网页中。
该方法(参照图1)还包括步骤S150(图中未示出),在步骤S150中,基于待识别网页的结构特征信息,确定待识别网页中的多个位置。
具体地,对多次抓取获得的待识别网页进行结构特征分析,确定待识别网页中的多个特定展现位置。例如,对待识别网页中全部链接的更新频率进行统计,确定更新频率高于预定更新频率阈值的链接所在位置处为该待识别网页中的特定展现位置;和/或读取待识别网页中全部链接的锚文本,提取锚文本的文本关键词,通过对文本关键词进行语义分析,来确定与待识别网页的主题相关联的多个链接的锚文本,并确定该多个链接所在位置处为该待识别网页中的特定展现位置。
例如,参照图3,待识别网页为第一新闻索引页,基于第一新闻索引页的结构特征信息,可确定第一新闻索引页中方框区域中的链接均为新闻类链接,链接更新频率较高,即确定第一新闻索引页方框区域中的链接所在位置为特定展现位置;而第一新闻索引页椭圆框区域中的链接为广告类链接,链接更新频率较低且链接价值度较低,本方案的实施例中对广告类链接所在位置不予考虑。参照图4,待识别网页为第二新闻索引页,基于第二新闻索引页的结构特征信息,可确定第二新闻索引页中方框区域中的链接均为新闻类链接,即确定方框区域中的链接位置均为特定展现位置。
步骤S110包括步骤S111(图中未示出)和步骤S112(图中未示出);在步骤S111中,确定预定时间内待识别网页中多个位置处链接的更新次数及每次更新后的更新链接对应的用户访问次数;在步骤S112中,基于更新次数及每次更新后的更新链接对应的用户访问次数,确定预定时间内多个位置处链接的平均用户访问次数。
具体地,首先,在预定时间内以固定频率多次抓取待识别网页,随后,基于预先已确定的该待识别网页中的多个特定展现位置,在多次抓取的待识别网页中提取每个特定展现位置处的多个链接,通过比较一个特定展现位置处的多个链接来确定该特定展现位置处在预定时间内的更新链接的个数,即确定链接的更新次数;同时,通过在用户历史访问记录查询,确定每次更新后的更新链接对应的用户访问次数,其中,用户历史访问记录中包括网页中的多个链接及其各自对应的用户点击和/或浏览记录;随后,基于更新次数及每次更新后的更新链接对应的用户访问次数,通过预定的平均值计算公式进行计算,来确定预定时间内多个位置处链接的平均用户访问次数。
例如,如图3所示,预定时间内第一新闻索引页中位置A处链接的更新次数3次,第一次更新后的更新链接对应的用户访问次数位1000次,第二次更新后的更新链接对应的用户访问次数位1200次,第三次更新后的更新链接对应的用户访问次数位800次,则可确定在预定时间内位置A处链接的平均用户访问次数为1000次(1000=(1000+1200+800)/3);预定时间内该第一新闻索引页中位置B处链接的更新次数3次,第一次更新后的更新链接对应的用户访问次数位700次,第二次更新后的更新链接对应的用户访问次数位600次,第三次更新后的更新链接对应的用户访问次数位800次,则可确定在预定时间内位置B处链接的平均用户访问次数为700次(700=(600+700+800)/3)。
在步骤S120中,根据多个位置处链接的平均用户访问次数,确定待识别网页基于不同位置的用户访问次数的差异度。
步骤S120包括步骤S121(图中未示出)和步骤S122(图中未示出);在步骤S121中,比较待识别网页中任意前后位置关系链接的平均用户访问次数;在步骤S122中,根据比较结果,确定待识别网页基于不同位置的用户访问次数的差异度。
具体地,比较待识别网页中任意前后位置关系链接的平均用户访问次数,当待识别网页中任意两个前后位置关系的链接中,靠前链接的平均用户访问次数大于靠后链接的平均用户访问次数,则增加该待识别网页基于不同位置的用户访问次数的差异度。
例如,待识别网页中有n个位置,每个位置处链接的平均用户访问次数为kx(x=1,2……n),其中x代表任意位置处,且设置变量r=0,w=0;对于任意两个前后位置处的平均用户访问次数ki和kj(其中i<j,并且1<=i,j<=n),如果ki>=kj,则r=r+1,否则w=w+1;遍历n个位置中所有任意两个前后位置处i和j,并比较前后位置处i和j的平均用户访问次数ki和kj后,通过公式s=r/(w+r),计算该待识别网页基于不同位置的用户访问次数的差异度s。如图3所示,图中第一新闻索引页中位置A与位置B的位置关系为位置A靠前,位置B靠后,位置A处链接的平均用户访问次数kA为1000次,新闻索引页中位置B处链接的平均用户访问次数为kB 700次,比较确定kA>=kB,则r=r+1。如图4所示,图中第二新闻索引页中位置C与位置D的位置关系为位置C靠前,位置D靠后,位置C处链接的平均用户访问次数kC为1000次,新闻索引页中位置D处链接的平均用户访问次数为kD 1200次,比较确定kC<kD,则w=w+1。
在步骤S130中,当待识别网页基于不同位置的用户访问次数的差异度达到阈值时,确定待识别网页的类型为人工编辑网页。
具体地,将待识别网页基于不同位置的用户访问次数的差异度与预定差异度的阈值进行比较,若差异度大于或等于阈值,确定待识别网页的类型为人工编辑网页。
例如,接上例,若待识别网页基于不同位置的用户访问次数的差异度s大于或等于预定差异度的阈值,则确定待识别网页的类型为人工编辑网页。如图3所示,通过比较第一新闻索引页中任意前后位置关系链接的平均用户访问次数,可判断该新闻索引页基于不同位置的用户访问次数的差异度s大于或等于预定差异度的阈值,则确定该新闻索引页的类型为人工编辑网页。
本实施例中,通过计算预定时间内多个位置处链接的平均用户访问次数,来确定待识别网页基于不同位置的用户访问次数的差异度,若差异度大于或等于阈值,可判定待识别网页中,对于任意两个前后位置关系的链接处,靠前位置处链接的平均用户访问次数大于靠前位置处链接的平均用户访问次数的情形占全部比较结果的大部分,即待识别网页基于不同位置的用户访问次数的差异度较大,该待识别网页具有明显的人工参与特性,可判定为人工编辑网页;从而区别于机器生成网页,可以对人工编辑网页做不同的区分处理,也使得搜索引擎可以获取更多有价值、有针对性的信息,也更有效利用了网络资源。
优选地,该方法还包括步骤S140(图中未示出);在步骤S140中,当用户访问次数的差异度未达到阈值时,确定待识别网页的类型为机器生成网页。
具体地,将待识别网页基于不同位置的用户访问次数的差异度与预定差异度的阈值进行比较,若差异度小于阈值,确定待识别网页的类型为机器生成网页。
如图4所示,通过比较第二新闻索引页中任意前后位置关系链接的平均用户访问次数,可判断该新闻索引页基于不同位置的用户访问次数的差异度s小于预定差异度的阈值,则确定该新闻索引页的类型为机器生成网页。
本优选实施例中,若待识别网页基于不同位置的用户访问次数的差异度小于阈值,可判定待识别网页中,对于任意两个前后位置关系的链接处,靠前位置处链接的平均用户访问次数大于靠前位置处链接的平均用户访问次数的情形并不占全部比较结果的大部分,即待识别网页基于不同位置的用户访问次数的差异度不足够大,该待识别网页具有机器生成特性,可判定为机器生成网页;为后续搜索引擎的网页爬虫设定较佳的网页爬取频率提供了可靠保证,对于更新频率相对较高的机器生成网页,可设置相对较高的爬取频率,以保证能够及时爬取到更新频率较高的机器生成网页。
图2为本发明中的识别网页类型的装置一个实施例的结构示意图。
本实施例中,识别网页类型的装置包括次数确定模块210、差异度确定模块220和识别模块230。
首先,次数确定模块210确定预定时间内待识别网页中多个位置处链接的平均用户访问次数;接着,差异度确定模块220根据多个位置处链接的平均用户访问次数,确定待识别网页基于不同位置的用户访问次数的差异度;随后,识别模块230当用户访问次数的差异度达到阈值时,确定待识别网页的类型为人工编辑网页。
本实施例中,通过计算预定时间内多个位置处链接的平均用户访问次数,来确定待识别网页基于不同位置的用户访问次数的差异度,若差异度大于或等于阈值,可判定待识别网页中,对于任意两个前后位置关系的链接处,靠前位置处链接的平均用户访问次数大于靠前位置处链接的平均用户访问次数的情形占全部比较结果的大部分,即待识别网页基于不同位置的用户访问次数的差异度较大,该待识别网页具有明显的人工参与特性,可判定为人工编辑网页;从而区别于机器生成网页,可以对人工编辑网页做不同的区分处理,也使得搜索引擎可以获取更多有价值、有针对性的信息,也更有效利用了网络资源。
次数确定模块210确定预定时间内待识别网页中多个位置处链接的平均用户访问次数。
其中,待识别网页中多个位置处的链接是指网页中特定展现位置的链接,例如,新闻索引页中的特定展现位置的链接为新闻网页的链接;视频索引页中的特定展现位置的链接为视频播放网页的链接;其中,特定展现位置是以前后位置顺序排列在待识别网页中。
例如,参照图3,待识别网页为第一新闻索引页,基于第一新闻索引页的结构特征信息,可确定第一新闻索引页中方框区域中的链接均为新闻类链接,链接更新频率较高,即确定第一新闻索引页方框区域中的链接所在位置为特定展现位置;而第一新闻索引页椭圆框区域中的链接为广告类链接,链接更新频率较低,本方案的实施例中对广告类链接所在位置不予考虑。参照图4,待识别网页为第二新闻索引页,基于第二新闻索引页的结构特征信息,可确定第二新闻索引页中方框区域中的链接均为新闻类链接,即确定方框区域中的链接位置均为特定展现位置。
该装置(参照图2)还包括位置确定模块(图中未示出),位置确定模块基于待识别网页的结构特征信息,确定待识别网页中的多个位置。,用于基于所述待识别网页的结构特征信息,确定所述待识别网页中的所述多个位置具体地,对多次抓取获得的待识别网页进行结构特征分析,确定待识别网页中的多个特定展现位置。例如,对待识别网页中全部链接的更新频率进行统计,确定更新频率高于预定更新频率阈值的链接所在位置处为该待识别网页中的特定展现位置;和/或读取待识别网页中全部链接的锚文本,提取锚文本的文本关键词,通过对文本关键词进行语义分析,来确定与待识别网页的主题相关联的多个链接的锚文本,并确定该多个链接所在位置处为该待识别网页中的特定展现位置。
次数确定模块210包括第一确定单元(图中未示出)和第二确定单元(图中未示出)。第一确定单元确定预定时间内待识别网页中多个位置处链接的更新次数及每次更新后的更新链接对应的用户访问次数;随后,第二确定单元基于更新次数及每次更新后的更新链接对应的用户访问次数,确定预定时间内多个位置处链接的平均用户访问次数。
具体地,首先,在预定时间内以固定频率多次抓取待识别网页,随后,基于预先已确定的该待识别网页中的多个特定展现位置,在多次抓取的待识别网页中提取每个特定展现位置处的多个链接,通过比较一个特定展现位置处的多个链接来确定该特定展现位置处在预定时间内的更新链接的个数,即确定链接的更新次数;同时,通过在用户历史访问记录查询,确定每次更新后的更新链接对应的用户访问次数,其中,用户历史访问记录中包括网页中的多个链接及其各自对应的用户点击和/或浏览记录;随后,基于更新次数及每次更新后的更新链接对应的用户访问次数,通过预定的平均值计算公式进行计算,来确定预定时间内多个位置处链接的平均用户访问次数。
例如,如图3所示,预定时间内第一新闻索引页中位置A处链接的更新次数3次,第一次更新后的更新链接对应的用户访问次数位1000次,第二次更新后的更新链接对应的用户访问次数位1200次,第三次更新后的更新链接对应的用户访问次数位800次,则可确定在预定时间内位置A处链接的平均用户访问次数为1000次(1000=(1000+1200+800)/3);预定时间内该第一新闻索引页中位置B处链接的更新次数3次,第一次更新后的更新链接对应的用户访问次数位700次,第二次更新后的更新链接对应的用户访问次数位600次,第三次更新后的更新链接对应的用户访问次数位800次,则可确定在预定时间内位置A处链接的平均用户访问次数为700次(700=(600+700+800)/3)。
差异度确定模块220根据多个位置处链接的平均用户访问次数,确定待识别网页基于不同位置的用户访问次数的差异度。
差异度确定模块220包括比较单元(图中未示出)和差异度确定单元(图中未示出);比较单元比较待识别网页中任意前后位置关系链接的平均用户访问次数;随后,差异度确定单元根据比较结果,确定待识别网页基于不同位置的用户访问次数的差异度。
具体地,比较待识别网页中任意前后位置关系链接的平均用户访问次数,当待识别网页中任意两个前后位置关系的链接中,靠前链接的平均用户访问次数大于靠后链接的平均用户访问次数,则增加该待识别网页基于不同位置的用户访问次数的差异度。
例如,待识别网页中有n个位置,每个位置处链接的平均用户访问次数为kx(x=1,2……n),其中x代表任意位置处,且设置变量r=0,w=0;对于任意两个前后位置处的平均用户访问次数ki和kj(其中i<j,并且1<=i,j<=n),如果ki>=kj,则r=r+1,否则w=w+1;遍历n个位置中所有任意两个前后位置处i和j,并比较前后位置处i和j的平均用户访问次数ki和kj后,通过公式s=r/(w+r),计算该待识别网页基于不同位置的用户访问次数的差异度s。如图3所示,图中第一新闻索引页中位置A与位置B的位置关系为位置A靠前,位置B靠后,位置A处链接的平均用户访问次数kA为1000次,新闻索引页中位置B处链接的平均用户访问次数为kB 700次,比较确定kA>=kB,则r=r+1。如图4所示,图中第二新闻索引页中位置C与位置D的位置关系为位置C靠前,位置D靠后,位置C处链接的平均用户访问次数kC为1000次,新闻索引页中位置D处链接的平均用户访问次数为kD 1200次,比较确定kC<kD,则w=w+1。
识别模块230当待识别网页基于不同位置的用户访问次数的差异度达到阈值时,确定待识别网页的类型为人工编辑网页。
具体地,将待识别网页基于不同位置的用户访问次数的差异度与预定差异度的阈值进行比较,若差异度大于或等于阈值,确定待识别网页的类型为人工编辑网页。
例如,接上例,若待识别网页基于不同位置的用户访问次数的差异度s大于或等于预定差异度的阈值,则确定待识别网页的类型为人工编辑网页。如图3所示,通过比较第一新闻索引页中任意前后位置关系链接的平均用户访问次数,可判断该新闻索引页基于不同位置的用户访问次数的差异度s大于或等于预定差异度的阈值,则确定该新闻索引页的类型为人工编辑网页。
本实施例中,通过计算预定时间内多个位置处链接的平均用户访问次数,来确定待识别网页基于不同位置的用户访问次数的差异度,若差异度大于或等于阈值,可判定待识别网页中,对于任意两个前后位置关系的链接处,靠前位置处链接的平均用户访问次数大于靠前位置处链接的平均用户访问次数的情形占全部比较结果的大部分,即待识别网页基于不同位置的用户访问次数的差异度较大,该待识别网页具有明显的人工参与特性,可判定为人工编辑网页;从而区别于机器生成网页,可以对人工编辑网页做不同的区分处理,也使得搜索引擎可以获取更多有价值、有针对性的信息,也更有效利用了网络资源。
优选地,识别模块230当用户访问次数的差异度未达到阈值时,确定待识别网页的类型为机器生成网页。
具体地,将待识别网页基于不同位置的用户访问次数的差异度与预定差异度的阈值进行比较,若差异度小于阈值,确定待识别网页的类型为机器生成网页。
如图4所示,通过比较第二新闻索引页中任意前后位置关系链接的平均用户访问次数,可判断该新闻索引页基于不同位置的用户访问次数的差异度s小于预定差异度的阈值,则确定该新闻索引页的类型为机器生成网页。
本优选实施例中,若待识别网页基于不同位置的用户访问次数的差异度小于阈值,可判定待识别网页中,对于任意两个前后位置关系的链接处,靠前位置处链接的平均用户访问次数大于靠前位置处链接的平均用户访问次数的情形并不占全部比较结果的大部分,即待识别网页基于不同位置的用户访问次数的差异度不足够大,该待识别网页具有机器生成特性,可判定为机器生成网页;为后续搜索引擎的网页爬虫设定较佳的网页爬取频率提供了可靠保证,对于更新频率相对较高的机器生成网页,可设置相对较高的爬取频率,以保证能够及时爬取到更新频率较高的机器生成网页。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种识别网页类型的方法,其特征在于,包括:
确定预定时间内待识别网页中多个位置处链接的平均用户访问次数;
根据所述多个位置处链接的平均用户访问次数,确定所述待识别网页基于不同位置的用户访问次数的差异度;
当所述用户访问次数的差异度达到阈值时,确定所述待识别网页的类型为人工编辑网页。
2.根据权利要求1所述的识别网页类型的方法,其特征在于,确定待识别网页中多个位置处链接的平均用户访问次数,包括:
确定预定时间内所述待识别网页中多个位置处链接的更新次数及每次更新后的更新链接对应的用户访问次数;
基于所述更新次数及每次更新后的更新链接对应的用户访问次数,确定预定时间内多个位置处链接的平均用户访问次数。
3.根据权利要求1或2所述的识别网页类型的方法,其特征在于,根据所述多个位置处链接的平均用户访问次数,确定所述待识别网页基于不同位置的用户访问次数的差异度,包括:
比较所述待识别网页中任意前后位置关系链接的平均用户访问次数;
根据比较结果,确定所述待识别网页基于不同位置的用户访问次数的差异度。
4.根据权利要求1-3任一项所述的识别网页类型的方法,其特征在于,还包括:
当所述用户访问次数的差异度未达到阈值时,确定所述待识别网页的类型为机器生成网页。
5.根据权利要求1-4任一项所述的识别网页类型的方法,其特征在于,还包括:
基于所述待识别网页的结构特征信息,确定所述待识别网页中的所述多个位置。
6.一种识别网页类型的装置,其特征在于,包括:
次数确定模块,用于确定预定时间内待识别网页中多个位置处链接的平均用户访问次数;
差异度确定模块,用于根据所述多个位置处链接的平均用户访问次数,确定所述待识别网页基于不同位置的用户访问次数的差异度;
识别模块,用于当所述用户访问次数的差异度达到阈值时,确定所述待识别网页的类型为人工编辑网页。
7.根据权利要求6所述的识别网页类型的装置,其特征在于,所述次数确定模块包括:
第一确定单元,用于确定预定时间内所述待识别网页中多个位置处链接的更新次数及每次更新后的更新链接对应的用户访问次数;
第二确定单元,用于基于所述更新次数及每次更新后的更新链接对应的用户访问次数,确定预定时间内多个位置处链接的平均用户访问次数。
8.根据权利要求6或7所述的识别网页类型的装置,其特征在于,所述差异度确定模块包括:
比较单元,用于比较所述待识别网页中任意前后位置关系链接的平均用户访问次数;
差异度确定单元,用于根据比较结果,确定所述待识别网页基于不同位置的用户访问次数的差异度。
9.根据权利要求6-8任一项所述的识别网页类型的装置,其特征在于,所述识别模块还用于当所述用户访问次数的差异度未达到阈值时,确定所述待识别网页的类型为机器生成网页。
10.根据权利要求6-9任一项所述的识别网页类型的装置,其特征在于,还包括:
位置确定模块,用于基于所述待识别网页的结构特征信息,确定所述待识别网页中的所述多个位置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410771952.3A CN104408175B (zh) | 2014-12-12 | 2014-12-12 | 识别网页类型的方法和装置 |
PCT/CN2015/095011 WO2016091051A1 (zh) | 2014-12-12 | 2015-11-19 | 识别网页类型的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410771952.3A CN104408175B (zh) | 2014-12-12 | 2014-12-12 | 识别网页类型的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104408175A true CN104408175A (zh) | 2015-03-11 |
CN104408175B CN104408175B (zh) | 2017-11-10 |
Family
ID=52645806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410771952.3A Active CN104408175B (zh) | 2014-12-12 | 2014-12-12 | 识别网页类型的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104408175B (zh) |
WO (1) | WO2016091051A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016091051A1 (zh) * | 2014-12-12 | 2016-06-16 | 北京奇虎科技有限公司 | 识别网页类型的方法和装置 |
CN106649384A (zh) * | 2015-11-03 | 2017-05-10 | 中国电信股份有限公司 | 对url进行分类的方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090319879A1 (en) * | 2007-10-19 | 2009-12-24 | Jeffrey Scott | Double click inline edit / single click action |
CN102332020A (zh) * | 2011-09-22 | 2012-01-25 | 奇智软件(北京)有限公司 | 一种网址导航页面的生成方法和装置 |
CN103838798A (zh) * | 2012-11-27 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 页面分类系统及页面分类方法 |
CN104077288A (zh) * | 2013-03-26 | 2014-10-01 | 富士通株式会社 | 网页内容推荐方法和网页内容推荐设备 |
CN104090976A (zh) * | 2014-07-21 | 2014-10-08 | 北京奇虎科技有限公司 | 搜索引擎爬虫抓取网页的方法及装置 |
CN104156134A (zh) * | 2013-05-13 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 一种计数展示方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100507918C (zh) * | 2007-04-20 | 2009-07-01 | 清华大学 | 一种网络关键资源页面的自动定位方法 |
CN101329687B (zh) * | 2008-07-31 | 2010-06-23 | 清华大学 | 一种新闻网页定位方法 |
CN101383730B (zh) * | 2008-10-30 | 2012-01-25 | 北京搜狗科技发展有限公司 | 确定权威网站的方法及装置 |
CN103324637B (zh) * | 2012-03-23 | 2017-12-12 | 深圳市世纪光速信息技术有限公司 | 一种热点信息挖掘方法和系统 |
CN104408175B (zh) * | 2014-12-12 | 2017-11-10 | 北京奇虎科技有限公司 | 识别网页类型的方法和装置 |
-
2014
- 2014-12-12 CN CN201410771952.3A patent/CN104408175B/zh active Active
-
2015
- 2015-11-19 WO PCT/CN2015/095011 patent/WO2016091051A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090319879A1 (en) * | 2007-10-19 | 2009-12-24 | Jeffrey Scott | Double click inline edit / single click action |
CN102332020A (zh) * | 2011-09-22 | 2012-01-25 | 奇智软件(北京)有限公司 | 一种网址导航页面的生成方法和装置 |
CN103838798A (zh) * | 2012-11-27 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 页面分类系统及页面分类方法 |
CN104077288A (zh) * | 2013-03-26 | 2014-10-01 | 富士通株式会社 | 网页内容推荐方法和网页内容推荐设备 |
CN104156134A (zh) * | 2013-05-13 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 一种计数展示方法和装置 |
CN104090976A (zh) * | 2014-07-21 | 2014-10-08 | 北京奇虎科技有限公司 | 搜索引擎爬虫抓取网页的方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016091051A1 (zh) * | 2014-12-12 | 2016-06-16 | 北京奇虎科技有限公司 | 识别网页类型的方法和装置 |
CN106649384A (zh) * | 2015-11-03 | 2017-05-10 | 中国电信股份有限公司 | 对url进行分类的方法和装置 |
CN106649384B (zh) * | 2015-11-03 | 2019-07-09 | 中国电信股份有限公司 | 对url进行分类的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104408175B (zh) | 2017-11-10 |
WO2016091051A1 (zh) | 2016-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103870461B (zh) | 主题推荐方法、装置和服务器 | |
CN103365924B (zh) | 一种互联网信息搜索的方法、装置和终端 | |
CN107193987B (zh) | 获取与页面相关的搜索词的方法、装置和系统 | |
CN109325182B (zh) | 基于会话的信息推送方法、装置、计算机设备及存储介质 | |
CN104462293A (zh) | 搜索处理方法、生成搜索结果排序模型的方法和装置 | |
CN103310003A (zh) | 一种基于点击日志的新广告点击率预测方法及系统 | |
CN103365839A (zh) | 一种搜索引擎的推荐搜索方法和装置 | |
CN109800431B (zh) | 事件信息关键词提取、监控方法及系统及存储和处理装置 | |
CN105045901A (zh) | 搜索关键词的推送方法和装置 | |
CN103023714A (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
US20150161517A1 (en) | Device and method for predicting popularity of social data | |
CN102646095B (zh) | 一种基于网页分类信息的对象分类方法和系统 | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
CN104166683B (zh) | 一种数据挖掘方法 | |
CN105095175B (zh) | 获取截短的网页标题的方法及装置 | |
CN105183873A (zh) | 恶意点击行为检测方法及装置 | |
CN104090976A (zh) | 搜索引擎爬虫抓取网页的方法及装置 | |
CN105389329A (zh) | 一种基于群体评论的开源软件推荐方法 | |
CN103810283A (zh) | 一种基于用户关联关系的微博数据采集方法 | |
Gupta et al. | A review on search engine optimization: Basics | |
CN106021418A (zh) | 新闻事件的聚类方法及装置 | |
CN108959580A (zh) | 一种标签数据的优化方法及系统 | |
CN103942268A (zh) | 搜索与应用相结合的方法、设备以及应用接口 | |
CN103577566A (zh) | 一种网页阅读内容加载方法和装置 | |
CN104361109A (zh) | 确定图片筛选结果的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220715 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |