CN102411587B - 一种网页分类方法和装置 - Google Patents

一种网页分类方法和装置 Download PDF

Info

Publication number
CN102411587B
CN102411587B CN 201010291553 CN201010291553A CN102411587B CN 102411587 B CN102411587 B CN 102411587B CN 201010291553 CN201010291553 CN 201010291553 CN 201010291553 A CN201010291553 A CN 201010291553A CN 102411587 B CN102411587 B CN 102411587B
Authority
CN
China
Prior art keywords
webpage
sorted
web page
feature
content information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010291553
Other languages
English (en)
Other versions
CN102411587A (zh
Inventor
杨巍
张立明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 201010291553 priority Critical patent/CN102411587B/zh
Publication of CN102411587A publication Critical patent/CN102411587A/zh
Application granted granted Critical
Publication of CN102411587B publication Critical patent/CN102411587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例实施例公开了一种网页分类方法和装置。该方法包括:确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;根据所述内容信息和所述位置信息对所述待分类网页进行分类。该装置包括确定模块和分类模块;所述确定模块,确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;所述分类模块,根据所述内容信息和所述位置信息对所述待分类网页进行分类。应用本发明实施例能够提高网页分类的性能。

Description

一种网页分类方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页分类方法和装置。
背景技术
在互联网技术领域,经常需要对网页进行分类。衡量网页分类方法的指标包括召回率和准确率。召回率,是正确分出类别的网页数量和所有网页中属于该类别的网页数量的比值,用于衡量网页分类方法是否具有通用性。准确率,是正确分出类别的网页数量除以所有分出类别的网页数量的比值,用于衡量网页分类方法是否准确。
由于网页通常以文字信息为主,因此目前常用的网页分类方法是:抽取网页中的文字信息,利用现有的文本分类器对网页分类。其中的文本分类器是预先训练好的分类器,其基于文本的语意特性对文本进行分类。
利用文本分类器对网页进行分类时,由于仅考虑了网页中的文字特征,而忽略了其他特征,所以准确率和召回率相对较低。
发明内容
有鉴于此,本发明实施例提供了一种网页分类方法和装置,以便提高网页分类的性能。
本发明实施例的技术方案具体是这样实现的:
一种网页分类方法,该方法包括:
确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;
根据所述内容信息和所述位置信息对所述待分类网页进行分类;
其中,对所述待分类网页进行分类包括:
根据各类网页的内容信息和位置信息确定各类网页的特征库;
根据所述内容信息和所述位置信息提取待分类网页的特征,根据提取的特征和所述确定的特征库对待分类网页进行分类。
一种网页分类装置,该装置包括确定模块、分类模块和特征库模块;
所述确定模块,确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;
所述分类模块,根据所述内容信息和所述位置信息对所述待分类网页进行分类;
所述特征库模块,用于存储各类网页的特征,所述各类网页的特征是根据各类网页的内容信息和位置信息确定的;
所述分类模块,用于根据待分类网页的内容信息和位置信息以及所述特征库模块中存储的各类网页的特征对待分类网页进行分类。
由上述技术方案可见,本发明实施例在对网页进行分类时,不仅考虑待分类网页显示的内容信息,还进一步考虑所述内容信息在所述待分类网页中的位置信息,与利用文本分类器对页面进行分类相比,更加全面地考虑了网页的各项特征,因此能够提高网页分类的准确率或召回率等性能。其中,所述内容信息不仅包括文字内容,还包括图片、链接等内容,与仅根据文字内容进行网页分类相比,能够提高网页分类的准确率。
附图说明
图1是本发明实施例提供的网页分类方法流程图。
图2是本发明实施例提供的网页分类装置的结构图。
图3是本发明实施例提供的网页分类方法详细流程图。
具体实施方式
图1是本发明实施例提供的网页分类方法流程图。
如图1所示,该方法包括:
步骤101,确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息。
步骤102,根据所述内容信息和所述位置信息对所述待分类网页进行分类。
在根据所述内容信息和所述位置信息对待分类网页进行分类时,可以先根据所述内容信息和所述位置信息将待分类网页分成多个网页块,然后根据分出的各个网页块的特征对待分类网页进行分类。
其中,可以根据网页的内容信息所处的位置、所述内容信息的语义特征和结构特征,和/或网页描述语言(例如html语言)中的标记特征,将网页分成多个网页块。
其中的语义特征是指,网页内容的语义含义,通常通过关键字的形式来表示。结构特征是指,网页内容中各种信息表现形式的数量或者不同信息表现形式之间的比例,例如文字的数量、图片的数量、链接文本的数量、或者文字、图片以及链接文本之间的比例。
具体地,位置相近的网页内容可能组成一个网页块,语义特征相似和/或结构特征相似的网页内容通常组成一个网页块,网页描述语言的一个标记特征下的信息往往能独立构成一个网页块。以html语言为例,标记为div特征的网页内容通常可以分为一个网页块,标记为table特征的网页内容可以分为另一个网页块。
通过将网页分成多个网页块,根据各个网页块在待分类网页中所处的位置、各个网页块的语义特征和各个网页块的结构特征中的任意一项或多项对网页进行分类,可以提高分类准确率。
首先,网页块是相近语义内容的集合,将网页块作为一个特征点来对网页分类,比利用单个关键词对网页分类更加准确。
其次,分出网页块后,可以识别出噪声块,去掉这些噪声块的影响会使网页分类结果更佳。比如,在广告块中出现的是某个新车的广告,但是网页正文块中描述的是体育新闻,如果去掉噪声块,会更容易识别出体育新闻来。
再者,在不同的网页块中出现的特征对网页分类的影响会不同,比如出现在二级导航块中的关键字比正文中出现的关键字更能说明网页的类别。
典型的网页块例如有:广告块、导航块、评论块、边框块和推荐链接块等。其中,广告块和推荐链接块通常都以链接文字为主,但是广告块其链接出的统一资源定位符(Uiform Resouse Locator,URL)通常含有advis等关键字;导航块通常出现在网页的最上方;评论块通常出现在网页正文的下方,包含对正文的评论信息;边框块通常出现在网页的左右两边,并且宽度较窄。根据各个网页块所具有的特征可以将待分类网页分成多个网页块。
将网页分成多个网页块后,可以根据各个网页块的结构特征和/或语义特征对待分类网页进行分类。其中的结构特征可以包括文字链接比、图片个数和/或图片链接个数等。所述文字链接比是网页块中的文字数与链接数的比值。
为了进一步提高网页分类结果的准确性,如上所述,本发明实施例还可以对网页内容进行去噪处理,然后根据去噪处理后的网页内容以及所述内容在网页中的位置对网页进行分类。
具体地,可以根据网页块在待分类网页中的位置和/或网页块中的关键词确定网页块是否是噪声块,然后根据不是噪声块的网页块对待分类网页进行分类。
例如,当需要将导航块作为噪声块时,可以首先将处于网页最上方,且关键字含有“导航”的网页块识别为噪声块。
除了考虑网页所显示的文字、图片、边框、flash、链接等内容信息及其所在位置外,本发明实施例还可以进一步考虑网页的URL特征,综合考虑网页显示的内容信息、所述内容信息在网页中的位置信息以及网页的URL特征对网页进行分类,从而进一步提高网页分类的准确率和召回率。
其中网页的URL特征通常包括语义特征、结构特征和位置特征中的任意一项或多项。通常网页的URL按照结构分段可以分为子域级、目录级、文件级以及cgi级,可以通过比较待分类网页URL各段的语义特征与某一类网页的URL的相应段的语义特征,判断待分类网页属于该某一类网页的概率。其中,由于结构特征在URL中所处的位置不同,因此处于URL不同结构特征中的语义特征对分类结果的影响一般不同,通常,位置越靠后的结构特征中的语义特征对分类结果影响越大;另外,结构特征的信息表现形式通常也可以影响分类结果。
例如,http://vipemarketing.qq.com/doov/con/show/act/detail?id=44892775中,子域是指“vipemarketing.qq.com”,目录是“/doov/con/show/act/”,资源名是“detail”,cgi是“id=44892775”。URL不同位置中出现的关键字对分类的影响不同,大体上说,位置越往后,准确率越高。比如:URL资源名中出现“news.html”,而目录中出现“/video/”,则该页面是新闻页的可能性比视频页的可能性大。除了关键字外,URL中的结构特征的信息表现形式也可以作为分类的因子,比如,资源名中全是数字组成,则该页面是信息页的可能性就比较大。
在具体实施过程中,本发明实施例可以通过自学习等方法离线训练出各类网页的特征库,即预先根据各类网页的内容信息和位置信息确定各类网页的特征库;然后在在线分类的过程中,根据所述内容信息和所述位置信息提取待分类网页的特征,根据提取的特征和所述确定的特征库对待分类网页进行分类。
图2是本发明实施例提供的网页分类装置的结构图。
如图2所述,该分类装置包括确定模块201和分类模块202。
确定模块201,用于确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息。
分类模块202,用于根据所述内容信息和所述位置信息对所述待分类网页进行分类。
分类模块202可以包括分块单元和分类单元。
所述分块单元,用于根据所述内容信息和所述位置信息将待分类网页分成多个网页块。
所述分类单元,用于根据分出的网页块对待分类网页进行分类。
所述分块单元,具体用于根据网页内容信息的语义特征和/或结构特征,以及所述内容信息在待分类网页中的位置信息,将待分类网页分成多个网页块;或者用于根据网页内容信息的语义特征和/或结构特征、所述内容信息在待分类网页中的位置信息以及待分类网页的网页描述语言中的标记特征,将待分类网页分成多个网页块。
分类模块202还可以进一步包括噪声确定单元。
所述噪声确定单元,用于根据网页块在待分类网页中的位置和/或网页块中的关键词确定网页块是否是噪声块。
相应地,所述分类单元,用于根据不是噪声块的网页块对待分类网页进行分类。
确定模块201,还可以进一步用于确定待分类网页的URL特征。
相应地,分类模块202,用于根据所述内容信息、所述位置信息以及所述URL特征对待分类网页进行分类。
所述URL特征通常包括URL的语义特征、结构特征或位置特征。
图2所示分类装置还可以包括特征库模块。
所述特征库模块,用于存储各类网页的特征,所述各类网页的特征是预先根据各类网页的内容信息和位置信息确定的。
所述分类模块202,还可以用于根据待分类网页的内容信息和位置信息以及所述特征库模块中存储的各类网页的特征对待分类网页进行分类。
下面结合具体的例子对本发明实施例的分类方法和分类装置进行示例性说明。
图3是本发明实施例提供的网页分类方法详细流程图。
图3所示网页分类方法分为离线训练阶段和在线分类阶段两部分。
图3中,步骤301-304是离线训练阶段,步骤301-302利用机器自学习的方法训练出网页分类器,步骤303-304利用机器自学习的方法训练出网页噪声块识别模型,其中网页分类器的训练阶段(步骤301-302)和网页噪声块识别模型的训练阶段(即步骤303-304)顺序可调。
步骤305-309是在线分类阶段,利用离线训练阶段训练出的网页噪声块识别模型对待分类网页进行降噪处理,然后提取降噪处理后的待分类网页的特征,利用离线训练阶段训练出的网页分类器对待分类网页进行分类。
具体地,图3所示流程包括如下步骤:
步骤301,根据预先分好的网页类型库中的各类网页,确定各类网页的特征库。
其中的网页类型库可以通过预先由人工区分网页类型的方式得到;各类网页的特征库可以通过分析得到,比如通过人工总结一些规则(比如总结一批新闻页的关键词),或者通过特征挖掘或者聚类的方法得到特征库(比如通过对同一个类型的网页,通过自动分词,找出词频较高的关键词作为该类型网页的特征)。
步骤302,利用离线训练样本和各类网页的特征库训练网页分类器。
其中的离线训练样本通常也是通过人工方式得到的,其网页类型通过人工方式预先确定。通过离线训练样本和所述特征库,可以训练出特征库中的各个特征对应的权值因子,网页分类器根据待分类网页所具有的特征及该特征的权值因子即可对待分类网页进行分类。
步骤303,确定网页噪声块特征库。
本步骤中,也可以通过人工方式确定网页噪声块的特征库。
步骤304,训练网页噪声块识别模型。
本步骤中,根据网页噪声块的特征库训练网页噪声块识别模型。
步骤305,对待分类网页进行网页分块。
其中,网页显示的文字内容是由文字以及相对结构关系组成的二维结构。根据网页中结构特征以及语义特征的不同,可以将处于相似结构特征以及相似语义特征中的文字切割成一个网页块。
步骤306,识别分出的各个网页块是否是噪声块。
其中,典型的噪声块包括广告块、导航块、评论块和推荐链接块等。
步骤307,根据识别结果对网页进行降噪处理。
具体地,本步骤中,可以删除网页中的噪声块,也可以标注出网页中的噪声块。
步骤308,从不是噪声块的网页块中提取出待分类网页的特征。
本步骤中的特征包括语义特征和/或结构特征。
步骤309,利用离线训练阶段训练出的网页分类器对待分类网页进行分类,得到待分类网页的网页类型。
其中,可以将分出类别的网页再送入相应类别的网页库中,以便丰富网页库的内容,根据更加丰富的网页库更新相应类型网页的特征库。
图3所示方法中,每一类网页的特征库中都包含网页显示的内容信息的语义特征和结构特征、网页显示的内容信息在网页中的位置信息,以及网页的URL特征,这样,根据该特征库训练出的网页分类器能够全面考虑网页的文字、除文字外的图片等内容信息、所述内容信息在网页中的位置信息、网页的URL特征等多种特征,从而提高网页分类的准确率和召回率。其中的URL特征例如可以包括URL的语义特征、结构特征或位置特征等。
下面以一个具体的例子来阐述本发明实施例中所描述的网页分类方法。
首先,我们定义两个网页类型:
信息页,网页的主题是以非链接文本为主,用以表述某个主题内容,例如我们经常见到的网络中某个新闻的页面。
索引页,网页的主题是以链接文本为主,网页主要是提供到其他信息的导航,例如网站的首页等。
我们以新闻页http://news.qq.com/a/20100519/000045.htm为例,看本发明实施例中的网页分类方法如何对其进行分类:
首先,输入待分类网页的URL以及该网页的html源码,其中,待分类网页的URL是http://news.qq.com/a/20100519/000045.htm。
然后,根据html语法中具有分块特征的标签将网页进行切分。具体而言,我们可以用最小的table,div,span,tbody,title等节点,将该网页切成若干个小网页块。
接下来进行网页噪声块识别。具体地,预先定义出导航块、边框块、广告块以及评论块等噪声块。根据这些噪声块的特征,识别出切割出来的网页块中哪些是噪声块,并将这些噪声块去除。其中,噪声块的特征包括:导航块通常在网页的最上方出现,用以在该网站中导航作用;边框块通常在网页的左右两边出现,其宽度较窄;广告块通常是以链接文字为主,并且链出的URL通常含有advis等关键词;评论块通常是对正文的评论信息,出现在正文的下方。
去除噪声块之后,页面的内容更加干净。从剩下的网页块中,提取出最能描述类别的特征点。在识别信息页的特征中,我们认为链接文本的字数与非链接文本的字数的比值,是最有效的特征。同时,在该网页中,具有信息页特征的网页块,比如,二级导航块,还有很多具有信息页特征的语义信息,比如二级导航中存在“正文”关键字。除了网页自身特征之外,网页对应的URL也有相应的特征点,例如该URL是一个静态URL,并且该URL的资源名000045.htm是由全数字组成,这些都是信息页URL的特征。
取出上述特征之后,根据离线训练的分类器模型,综合考虑各个特征因子对分类的贡献,最终产生出该网页的类别为信息页。
本发明实施例中提及到的网页分类器,是采用机器学习算法得到的分类器。这里也可以使用其他一些方法得到分类器,比如分支定界的方法,阙值分支法等。
本发明实施例中直接对网页的html源代码进行分析,也可以先对网页建立文档对象模型(Document Object Model,DOM)树,后续的分析过程都依赖于DOM树来实现,对DOM树描述的网页进行分类与对html语言描述的网页进行分类的方法是类似的,区别仅在于,对于DOM树描述的网页,通过遍历DOM树获取网页内容信息的语义特征和结构特征以及网页内容信息在网页中的位置信息,而无需遍历整个html页面。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本

Claims (15)

1.一种网页分类方法,其特征在于,该方法包括:
确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;
根据所述内容信息和所述位置信息对所述待分类网页进行分类;
其中,对所述待分类网页进行分类包括:
根据各类网页的内容信息和位置信息确定各类网页的特征库;
根据所述内容信息和所述位置信息提取待分类网页的特征,根据提取的特征和所述确定的特征库对待分类网页进行分类。
2.根据权利要求1所述的方法,其特征在于,根据所述内容信息和所述位置信息对所述待分类网页进行分类包括:
根据所述内容信息和所述位置信息将待分类网页分成多个网页块,根据分出的网页块对待分类网页进行分类。
3.根据权利要求2所述的方法,其特征在于,
该方法进一步包括:
根据网页块在待分类网页中的位置和/或网页块中的关键词确定网页块是否是噪声块;
所述根据分出的网页块对待分类网页进行分类包括:
根据不是噪声块的网页块对待分类网页进行分类。
4.根据权利要求2所述的方法,其特征在于,根据所述内容信息和所述位置信息将待分类网页分成多个网页块包括:
根据网页内容信息的语义特征和/或结构特征,以及所述内容信息在待分类网页中的位置信息,将待分类网页分成多个网页块;
或者根据网页内容信息的语义特征和/或结构特征、所述内容信息在待分类网页中的位置信息以及待分类网页的网页描述语言中的标记特征,将待分类网页分成多个网页块。
5.根据权利要求4所述的方法,其特征在于,所述网页块包括:广告块、导航块、评论块、边框块或推荐链接块。
6.根据权利要求2所述的方法,其特征在于,根据分出的网页块对待分类网页进行分类包括:
根据各个网页块在待分类网页中所处的位置、各个网页块的结构特征和各个网页块的语义特征中的任意一项或多项对所述待分类网页进行分类。
7.根据权利要求4或6所述的方法,其特征在于,所述结构特征包括:
文字链接比、图片个数和链接个数中的任意一项或多项。
8.根据权利要求1至6任一权利要求所述的方法,其特征在于,该方法进一步包括:确定待分类网页的统一资源定位符URL特征;
对所述待分类网页进行分类包括:根据所述内容信息、所述位置信息以及所述URL特征对待分类网页进行分类。
9.根据权利要求8所述的方法,其特征在于,所述URL特征包括URL的语义特征、结构特征和位置特征中的任意一项或多项。
10.一种网页分类装置,其特征在于,该装置包括确定模块、分类模块和特征库模块;
所述确定模块,用于确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;
所述分类模块,用于根据所述内容信息和所述位置信息对所述待分类网页进行分类;
所述特征库模块,用于存储各类网页的特征,所述各类网页的特征是根据各类网页的内容信息和位置信息确定的;
所述分类模块,用于根据待分类网页的内容信息和位置信息以及所述特征库模块中存储的各类网页的特征对待分类网页进行分类。
11.根据权利要求10所述的分类装置,其特征在于,所述分类模块包括分块单元和分类单元;
所述分块单元,用于根据所述内容信息和所述位置信息将待分类网页分成多个网页块;
所述分类单元,用于根据分出的网页块对待分类网页进行分类。
12.根据权利要求11所述的分类装置,其特征在于,
所述分块单元,用于根据网页内容信息的语义特征和/或结构特征,以及所述内容信息在待分类网页中的位置信息,将待分类网页分成多个网页块;
或者用于根据网页内容信息的语义特征和/或结构特征、所述内容信息在待分类网页中的位置信息以及待分类网页的网页描述语言中的标记特征,将待分类网页分成多个网页块。
13.根据权利要求11所述的分类装置,其特征在于,所述分类模块进一步包括噪声确定单元;
所述噪声确定单元,用于根据网页块在待分类网页中的位置和/或网页块中的关键词确定网页块是否是噪声块;
所述分类单元,用于根据不是噪声块的网页块对待分类网页进行分类。
14.根据权利要求10至13任一权利要求所述的分类装置,其特征在于,
所述确定模块,进一步用于确定待分类网页的统一资源定位符URL特征;
所述分类模块,根据所述内容信息、所述位置信息以及所述符URL特征对待分类网页进行分类。
15.根据权利要求14所述的分类装置,其特征在于,所述URL特征包括URL的语义特征、结构特征和位置特征中的任意一项或多项。
CN 201010291553 2010-09-21 2010-09-21 一种网页分类方法和装置 Active CN102411587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010291553 CN102411587B (zh) 2010-09-21 2010-09-21 一种网页分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010291553 CN102411587B (zh) 2010-09-21 2010-09-21 一种网页分类方法和装置

Publications (2)

Publication Number Publication Date
CN102411587A CN102411587A (zh) 2012-04-11
CN102411587B true CN102411587B (zh) 2013-08-21

Family

ID=45913663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010291553 Active CN102411587B (zh) 2010-09-21 2010-09-21 一种网页分类方法和装置

Country Status (1)

Country Link
CN (1) CN102411587B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377243B (zh) * 2012-04-27 2017-09-08 腾讯科技(深圳)有限公司 一种对网页进行版式分类的方法和装置
CN103631787B (zh) 2012-08-22 2019-01-11 腾讯科技(深圳)有限公司 网页类型识别方法以及网页类型识别装置
CN103678310B (zh) * 2012-08-31 2018-04-27 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN102880694B (zh) * 2012-09-19 2016-03-30 北京奇虎科技有限公司 在新标签页中加载分类频道的浏览器客户端和方法
CN102902793B (zh) * 2012-09-29 2016-12-21 北京奇虎科技有限公司 网页类别知识库的建立系统及方法
CN102929948B (zh) * 2012-09-29 2017-03-08 北京奇虎科技有限公司 列表页识别系统及方法
CN102902791B (zh) * 2012-09-29 2016-08-03 北京奇虎科技有限公司 网页分类存储系统及方法
CN105183843B (zh) * 2012-09-29 2018-09-14 北京奇虎科技有限公司 列表页识别系统及方法
CN102890717B (zh) * 2012-09-29 2016-09-28 北京奇虎科技有限公司 网页类别知识库的建立系统及方法
CN102902794B (zh) * 2012-09-29 2016-08-03 北京奇虎科技有限公司 网页分类系统及方法
CN102902790B (zh) * 2012-09-29 2017-06-06 北京奇虎科技有限公司 网页分类系统及方法
CN103020129B (zh) * 2012-11-20 2015-11-18 中兴通讯股份有限公司 一种文本内容提取方法和装置
CN103049557A (zh) * 2012-12-31 2013-04-17 百度在线网络技术(北京)有限公司 一种站点资源管理方法及装置
CN103218390A (zh) * 2012-12-31 2013-07-24 百度在线网络技术(北京)有限公司 一种站点资源管理方法及装置
CN103942233B (zh) * 2013-01-21 2019-02-26 腾讯科技(深圳)有限公司 目录型网页的介绍页识别方法及装置
CN103942211B (zh) * 2013-01-21 2019-04-26 腾讯科技(深圳)有限公司 一种正文页的识别方法及装置
CN104239332A (zh) 2013-06-18 2014-12-24 腾讯科技(深圳)有限公司 网页内容处理方法、装置及浏览器客户端
CN105512143A (zh) * 2014-09-26 2016-04-20 中兴通讯股份有限公司 一种网页分类方法及装置
CN105205090A (zh) * 2015-05-29 2015-12-30 湖南大学 基于网页链接分析和支持向量机的网页文本分类算法研究
CN106445974B (zh) * 2015-08-12 2021-01-26 腾讯科技(深圳)有限公司 数据推荐方法及装置
CN106170791A (zh) * 2016-01-20 2016-11-30 马岩 一种基于app的信息分类方法及系统
CN108475275A (zh) * 2016-09-26 2018-08-31 微软技术许可有限责任公司 识别视频页面
CN106790593B (zh) * 2016-12-28 2020-11-06 北京奇虎科技有限公司 一种页面处理方法和装置
CN110020331A (zh) * 2017-07-20 2019-07-16 北京国双科技有限公司 网页类型识别方法和装置
CN107391383B (zh) * 2017-08-11 2021-01-12 上海巍擎信息技术有限责任公司 一种应用程序界面的测试方法和测试系统
CN111339453A (zh) * 2018-12-19 2020-06-26 顺丰科技有限公司 导航页的判别方法和装置
CN112131445A (zh) * 2019-06-24 2020-12-25 第四范式(北京)技术有限公司 用于对网页数据进行分类的分类模型的训练方法及装置
CN113495839A (zh) * 2020-04-08 2021-10-12 百度在线网络技术(北京)有限公司 测试页面的生成方法、装置、电子设备和存储介质
CN112287274B (zh) * 2020-10-27 2022-10-18 中国科学院计算技术研究所 一种网站列表页面的分类方法、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN101093487A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 基于html特征的文本内容提取方法
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置
CN101093487A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 基于html特征的文本内容提取方法
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法
CN103544210B (zh) * 2013-09-02 2017-01-18 烟台中科网络技术研究所 一种识别网页类型的系统和方法

Also Published As

Publication number Publication date
CN102411587A (zh) 2012-04-11

Similar Documents

Publication Publication Date Title
CN102411587B (zh) 一种网页分类方法和装置
CN102054016B (zh) 用于撷取及管理社群智能信息的系统及方法
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN103309862A (zh) 一种网页类型识别方法和系统
CN106570171A (zh) 一种基于语义的科技情报处理方法及系统
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN108256104A (zh) 基于多维特征的互联网网站综合分类方法
CN106844640B (zh) 一种网页数据分析处理方法
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN102841920A (zh) 一种页面信息提取方法及装置
CA2460538A1 (en) Information analyzing method and apparatus
CN102708096A (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN109558587B (zh) 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN101609450A (zh) 基于训练集的网页分类方法
CN103514234A (zh) 一种页面信息提取方法和装置
US10387805B2 (en) System and method for ranking news feeds
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN109657058A (zh) 一种公告信息的抽取方法
Carey et al. HTML web content extraction using paragraph tags
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN103246644A (zh) 一种网络舆情信息处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131025

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131025

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.