CN103838798A - 页面分类系统及页面分类方法 - Google Patents
页面分类系统及页面分类方法 Download PDFInfo
- Publication number
- CN103838798A CN103838798A CN201210491800.9A CN201210491800A CN103838798A CN 103838798 A CN103838798 A CN 103838798A CN 201210491800 A CN201210491800 A CN 201210491800A CN 103838798 A CN103838798 A CN 103838798A
- Authority
- CN
- China
- Prior art keywords
- page
- network address
- data
- module
- sorted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种页面分类系统及页面分类方法。系统包括:网址模式生成模块,被配置成针对用户访问日志中每个访问网址对应地生成网址模式,其中,按照预定条件将网址模式中的一部分网址模式作为测试数据,将网址模式中剩余的网址模式作为待分类数据;页面特征抓取模块,被配置成对测试数据所对应的页面内容进行特征抽取以得到测试特征数据,并将测试特征数据中的一部分作为训练数据,并且还对待分类数据所对应的页面内容进行特征抽取以得到待分类特征数据;训练模块,被配置成使用分类器对训练数据进行模型计算和评估以获得分类模型;以及预测模块,被配置成使用分类器和分类模型对待分类特征数据进行预测以将待分类特征数据分类为不同类型的页面。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种页面分类系统及页面分类方法。
背景技术
目前,网页分类是一个热门的技术前沿领域,其主要应用于搜索引擎、推荐系统、创建(扩展和维护)网站目录、爬虫应用等。网页推荐主要包括主题分类、功能分类和用户态度分类这三类。主题分类主要针对页面的话题进行区分,例如鉴别页面描述的是“体育”,或是“艺术”,或是“商业”等;功能分类关心页面在整个站点扮演的角色,例如是否是“个人主页”,或者“论坛”等;用户态度分类主要针对用户的评价、或者用户发表言论的立场等进行区分。现有的一些技术方案主要关心具体的页面话题,这种页面分类的通常做法是:先提取出一些既定的类目作为先验值,然后通过一些典型的分类算法,将这些先验类目和页面做匹配。相对于此,本申请并没有关注具体的话题和功能性类目,而是关注推荐或搜索等应用中展示的页面。
在推荐、搜索等系统中,展示的页面能给用户提供较好的用户体验是至关重要的。众所周知,每点击一次页面,流量就会损失一半,因而对于所展示的页面而言,最理想情况应该是用户所希望浏览的页面。为了使所展示的页面是用户所希望浏览的页面,那么需要针对高质量搜索和推荐等应用进行页面分类。我们将页面分为对象页面、内容页面以及其他页面这三类。具体来说,对象页面是指对象是描述某个站点业务目标事物的页面,这类页面包含概括信息和介绍信息、以及对所要介绍的事物附录的主要截图等。例如,对于小说站点而言,对象页面是对于某个具体小说的介绍页面或列表页面;对于资讯类站点而言,对象页面表示某篇有分页的资讯正文的第一页;而对于购物站点而言,某个商品的介绍页面是其对象页面。内容页面与对象页面相对应,内容页面是对对象页面进行扩展描述的页面。在内容上,内容页面给出对象页面所需描述的对象的具体信息;在URL(Uniform ResourceLocator:网址)形式上,内容页面与对象页面存在某种关系,可以直接从URL反推出对应于对象页面的地址。不一定所有的站点都具有内容页面,小说站点是比较典型的具有内容页面的站点,通常是小说具体的章节页面;而对于资讯类站点,通常是除首页外其余的分页。其他页面是指在页面分类中无法认定为对象或内容的页面,换句话说它是除了对象页面和内容页面之外的页面。在通常情况下,其他页面是评论页面、用户信息等,不作为推荐或者搜索结果展示,这些页面是可以被过滤的页面。
在推荐或搜索等应用中着重展示的页面是对象页面,这些对象页面没有特定的话题和功能,不能利用传统的网页分类方法加以区分。目前,对于对象页面、内容页面以及其他页面这三类网址的区分通常依赖于两种方案。第一种方案是人工标注,通过人工标注方式针对各个站点的一些浏览量(PageView:PV)大的URL所对应的URL模式(以下也称作网址模式)而识别出对象页面、内容页面以及其他页面。虽然人工标注的精度高,但是其缺点是显而易见的,即不可能对全网(即整个互联网)上的每个站点的上千万个URL都进行人工标注工作。第二种方案是单纯基于URL模式的访问日志大体地对页面进行区分。通常情况下,从访问日志中抽取的特征包括:对于某个站点的某个URL模式下的PV占总PV的比重(PV占比);该URL模式所包含的URL数量占站点总访问URL数量的比重(URL占比);以及停留时间。事实上,一些小说站点会表现出比较好的匹配度,这是由于对内容页面来说URL占比和PV占比都比较大、而对象页面URL占比小、PV占比大的缘故。此外,用户在内容页面上的停留时间会稍微长于在对象页面上的停留时间。然而,由于用户浏览行为的不可预测性决定了偏移(bias)的存在,并且无法精确地记录用户浏览页面的停留时间,因而导致在页面的分类结果上会产生较大的偏差。
另外,内容页面是浏览量占比很大的页面(尤其是小说站点),而用户通常会先看对象页面,了解小说或者资讯的主体内容后,才会决定是否继续浏览内容页面。在推荐和搜索等应用中,如果直接展示内容页面,那么用户还是会先找到与展示的内容页面所对应的对象页面而浏览对象页面。其结果是,一来造成用户流失,二来展示对于同一个对象的内容页面(如同一本小说的不同章节页或者同一则资讯的不同分页)会给用户提供较差的用户体验。
由于存在上述的技术缺陷,所以本申请从页面内容出发,抛开了用户浏览的行为,从而不会引入用户访问随机性的偏差。另外,从内容上可以较好地定位登录页面、错误页面等干扰源,保证了实验的可靠性。
发明内容
本申请的主要目的在于提供一种页面分类系统及页面分类方法,以解决现有技术存在的由于用户访问随机性的偏差导致页面分类结果的精度下降、由于在推荐和搜索等应用中直接展示内容页面而造成用户流失等问题,其中:本申请提供一种页面分类系统,包括:网址模式生成模块,被配置成针对用户访问日志中的每个访问网址对应地生成多个网址模式,其中,按照预定条件将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中剩余的网址模式作为待分类数据;页面特征抓取模块,被配置成对所述测试数据所对应的页面内容进行特征抽取以得到测试特征数据,并将所述测试特征数据中的一部分测试特征数据作为训练数据,并且还对所述待分类数据所对应的页面内容进行特征抽取以得到待分类特征数据;训练模块,被配置成使用分类器对所述训练数据进行模型计算和评估以获得分类模型;以及预测模块,被配置成使用所述分类器和所述分类模型对所述待分类特征数据进行预测以将所述待分类特征数据分类为不同类型的页面。
根据本申请的实施例,在所述页面分类系统中,所述网址模式生成模块进一步包括:关键字获取模块,被配置成针对用户访问日志中的所述每个访问网址获取关键字;以及模式生成模块,被配置成针对所述每个访问网址使用所述关键字和预定正则表达式生成网址模式,其中,将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中剩余的网址模式作为待分类数据。
根据本申请的实施例,在所述页面分类系统中,所述关键字获取模块进一步包括:替换模块,被配置成从用户访问日志中的每个访问网址中查找无用字符串,并用预定通用字符串替换所述无用字符串以形成临时网址模式;分割模块,被配置成针对不同的位置并按照预定规则将每个所述临时网址模式分割为多个网址单元;以及统计模块,被配置成统计每个网址单元在所在位置上出现的次数,将超出预定次数的网址单元标记为所述关键字,并以预定格式将所述关键字保存在网址单元词典中。
根据本申请的实施例,在所述页面分类系统中,所述模式生成模块进一步包括:匹配模块,被配置成将所述多个网址单元分别与所述网址单元词典中的关键字进行匹配,将匹配的网址单元保留为第一网址单元,将不匹配的网址单元用所述预定正则表达式取代并保留为第二网址单元;以及整合模块,被配置成使用所述第一网址单元和所述第二网址单元将所述多个网址单元整合为网址模式。
根据本申请的实施例,在所述页面分类系统中,所述页面特征抓取模块进一步包括:抽取模块,被配置成对所述测试数据所对应的页面内容进行特征抽取以得到所述测试特征数据,并将全部的所述测试特征数据存储为特征输出文件,还对所述待分类数据所对应的页面内容进行特征抽取以获得所述待分类特征数据;判断模块,被配置成针对所述特征输出文件中的每个所述测试特征数据依次判断所述测试特征数据中的页面形式是否为特殊页面,当判断为所述页面形式是特殊页面时,删除所述页面形式是特殊页面的测试特征数据,当判断为所述页面形式不是特殊页面时,保存所述页面形式不是特殊页面的测试特征数据以构成一部分测试特征数据;以及计算模块,被配置成针对所述一部分测试特征数据计算特征向量,并将具有所述特征向量的所述一部分测试特征数据作为训练数据。
根据本申请的实施例,在所述页面分类系统中,所述训练模块进一步包括:数据区分模块,被配置成使用所述分类器对所述训练数据进行训练以将所述训练数据区分为至少两类数据;以及模型构建模块,被配置成将所述至少两类数据分别构成为与每一类数据对应的页面模型,从而构建出包含至少两类所述页面模型。
根据本申请的实施例,在所述页面分类系统中,所述预测模块进一步包括:判定模块,被配置成使用所述分类模型判定所述待分类特征数据属于至少两类所述页面模型中的哪一类;以及分类模块,被配置成使用所述分类器并根据判定结果将所述待分类特征数据分类为至少两类页面。
根据本申请的实施例,在所述页面分类系统中,所述预测模块还包括:纠错模块,被配置成从已分类的特征数据所对应的待分类数据中任意地抽取两个数据,根据预定的标准来判断所抽取的两个数据的分类是否成功,并修改分类失败的数据的类别。
根据本申请的实施例,在所述页面分类系统中,所述特殊页面包括登录页面和错误页面。
根据本申请的实施例,在所述页面分类系统中,所述预定条件包括站点的访问频率高。
根据本申请的实施例,在所述页面分类系统中,所述无用字符串包括数字串、检索串。
根据本申请的实施例,在所述页面分类系统中,所述预定格式是:域名—位置—关键字。
根据本申请的实施例,在所述页面分类系统中,所述测试特征数据包括页面话题、页面形式、正文、外部链接、文章标题、导航信息以及正文关键词。
根据本申请的实施例,在所述页面分类系统中,所述特征向量包括所述页面话题的向量值、所述页面形式的向量值、所述正文的长度、所述外部链接的数量、所述文章标题与所述正文关键词的吻合度以及所述文章标题与所述导航信息的吻合度。
本申请的另一方面,提供一种页面分类方法,包括以下步骤:网址模式生成步骤,针对用户访问日志中的每个访问网址对应地生成网址模式,其中,按照预定条件将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中剩余的网址模式作为待分类数据;页面特征抓取步骤,对所述测试数据所对应的页面内容进行特征抽取以得到测试特征数据,并将所述测试特征数据中的一部分测试特征数据作为训练数据,并且还对所述待分类数据所对应的页面内容进行特征抽取以得到待分类特征数据;训练步骤,使用分类器对所述训练数据进行模型计算和评估以获得分类模型;以及预测步骤,使用所述分类器和所述分类模型对所述待分类特征数据进行预测以将所述待分类特征数据分类为不同类型的页面。
根据本申请的实施例,在所述页面分类方法中,所述网址模式生成步骤进一步包括:关键字获取步骤,针对用户访问日志中的所述每个访问网址获取关键字;以及模式生成步骤,针对所述每个访问网址使用所述关键字和预定正则表达式生成网址模式,其中,将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中剩余的网址模式作为待分类数据。
根据本申请的实施例,在所述页面分类方法中,所述关键字获取步骤进一步包括:替换步骤,从用户访问日志中的每个访问网址中查找无用字符串,并用预定通用字符串替换所述无用字符串以形成临时网址模式;分割步骤,针对不同的位置并按照预定规则将每个所述临时网址模式分割为多个网址单元;以及统计步骤,统计每个网址单元在所在位置上出现的次数,将超出预定次数的网址单元标记为所述关键字,并以预定格式将所述关键字保存在网址单元词典中。
根据本申请的实施例,在所述页面分类方法中,所述模式生成步骤进一步包括:匹配步骤,将所述多个网址单元分别与所述网址单元词典中的关键字进行匹配,将匹配的网址单元保留为第一网址单元,将不匹配的网址单元用所述预定正则表达式取代并保留为第二网址单元;以及整合步骤,使用所述第一网址单元和所述第二网址单元将所述多个网址单元整合为网址模式,将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中剩余的网址模式作为待分类数据。
根据本申请的实施例,在所述页面分类方法中,所述页面特征抓取步骤进一步包括:抽取步骤,对所述测试数据所对应的页面内容进行特征抽取以得到所述测试特征数据,并将全部的所述测试特征数据存储为特征输出文件,还对所述待分类数据所对应的页面内容进行特征抽取以获得所述待分类特征数据;判断步骤,针对所述特征输出文件中的每个所述测试特征数据依次判断所述测试特征数据中的页面形式是否为特殊页面,当判断为所述页面形式是特殊页面时,删除所述页面形式是特殊页面的测试特征数据,当判断为所述页面形式不是特殊页面时,保存所述页面形式不是特殊页面的测试特征数据以构成一部分测试特征数据;以及计算步骤,针对所述一部分测试特征数据计算特征向量,并将具有所述特征向量的所述一部分测试特征数据作为训练数据。
根据本申请的实施例,在所述页面分类方法中,所述训练步骤进一步包括:数据区分步骤,使用所述分类器对所述训练数据进行训练以将所述训练数据区分为至少两类数据;以及模型构建步骤,将所述至少两类数据分别构成为与每一类数据对应的页面模型,从而构建出包含至少两类所述页面模型的分类模型。
根据本申请的实施例,在所述页面分类方法中,所述预测步骤进一步包括:判定步骤,使用所述分类模型判定所述待分类特征数据属于至少两类所述页面模型中的哪一类;以及分类步骤,使用所述分类器并根据判定结果将所述待分类特征数据分类为至少两类页面。
根据本申请的实施例,在所述页面分类方法中,所述预测步骤还包括:纠错步骤,从已分类的特征数据所对应的待分类数据中任意地抽取两个数据,根据预定的标准来判断所抽取的两个数据的分类是否成功,并修改分类失败的数据的类别。
根据本申请的实施例,在所述页面分类方法中,所述特殊页面包括登录页面和错误页面。
根据本申请的实施例,在所述页面分类方法中,所述预定条件包括站点的访问频率高。
根据本申请的实施例,在所述页面分类方法中,所述无用字符串包括数字串、检索串。
根据本申请的实施例,在所述页面分类方法中,所述预定格式是:域名—位置—关键字。
根据本申请的实施例,在所述页面分类方法中,所述测试特征数据包括页面话题、页面形式、正文、外部链接、文章标题、导航信息以及正文关键词。
根据本申请的实施例,在所述页面分类方法中,所述特征向量包括所述页面话题的向量值、所述页面形式的向量值、所述正文的长度、所述外部链接的数量、所述文章标题与所述正文关键词的吻合度以及所述文章标题与所述导航信息的吻合度。
与现有技术相比,根据本申请的技术方案,能够在推荐或搜索等应用中,针对全网页面进行对象页面与内容页面的分类,并过滤掉大量无用的其他页面以降低数据处理压力;在搜索或推荐的结果中尽可能展示对象页面;而在用户浏览内容页面时,可以通过内容页面与对象页面在URL模式上的关联,提供用于推荐对应的对象页面的支持。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的页面分类系统100的概略结构图;
图2是本申请实施例的网址模式生成模块101的具体结构图;
图3是本申请实施例的页面特征抓取模块102的具体结构图;
图4是本申请实施例的训练模块103的具体结构图;
图5是本申请实施例的预测模块104的具体结构图;
图6是本申请实施例的页面分类方法的整体流程图;
图7是本申请实施例的图6中的网址模式生成步骤S601的具体流程;
图8是本申请实施例的图7中的关键字获取步骤S701的具体流程;
图9是本申请实施例的图7中的模式生成步骤S702的具体流程;
图10是本申请实施例的图6中的页面特征抓取步骤S602的具体流程;
图11是本申请实施例的图6中的训练步骤S603的具体流程;
图12是本申请实施例的图6中的预测步骤S604的具体流程。
具体实施方式
本申请的主要思想在于,针对高质量搜索和推荐等应用进行页面分类时,一方面,在不存在内容页面的情况下能正确区分对象页面和其他页面,以便用于更准确地定位和展示对象页面,从而给用户提供较好的体验,同时在预处理时过滤掉登录页面或错误页面等页面,以达到大大降低系统的数据处理负载的目的;另一方面,在存在内容页面的情况下能够在预处理时过滤掉登录页面或错误页面等页面,用以高精度地区分对象页面和内容页面。
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
根据本申请的实施例,提供了一种页面分类系统100。
参考图1,图1是本申请实施例的页面分类系统100的概略结构图。如图1所示,页面分类系统100可以包括网址模式生成模块101、页面特征抓取模块102、训练模块103以及预测模块104。
下面,详细说明页面分类系统100的各组成部分。
网址模式生成模块101被配置成针对用户访问日志中的每个访问网址对应地生成网址模式,其中,按照预定条件将网址模式中的一部分网址模式作为测试数据,将所述网址模式中剩余的网址模式作为待分类数据。在此,网址模式(以下也称作URL模式)是指使用预定的正则表达式和预定的特殊符号来表示的网址(以下也称作URL)。在计算机科学中,正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。实际上,正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符及这些特定字符的组合来组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。另外,用户访问日志是用户在一天内对全网(即整个互联网)的访问记录,因而,上述的测试数据和待分类数据均是全网中的所有域名网址所对应的网址模式。上述的预定条件包括站点的访问频率高等条件。
下面,结合图2来说明网址模式生成模块101的具体结构。图2是本申请实施例的网址模式生成模块101的具体结构图。如图2所示,网址模式生成模块101可以包括关键字获取模块201和模式生成模块202。
关键字获取模块201被配置成针对用户访问日志中的所述每个访问网址获取关键字。实际上,就是从访问网址中获取用户访问频率高的关键字,由此构成为由多个关键字组成的网址单元词典。换句话说,网址单元词典用于存储访问网址中的关键字。如图2所示,关键字获取模块201可以进一步包括替换模块211、分割模块212以及统计模块213。
替换模块211被配置成从用户访问日志中的每个访问网址中查找无用字符串,并用预定通用字符串替换所述无用字符串以形成临时网址模式。在此,无用字符串是指在URL模式生成过程中不需要的数字串、检索串(query串)等。通用字符串是指预先定义的字符串。换句话说,替换模块211是用于进行替换数字串、检索串等的预处理的模块。例如,当前正在处理域名为domain_name的用户访问日志。访问网址记录如下所示:
domain_name host_name pv
host_name/a/b/1234/5678.html?id=323&book=32 (1)
其中,a和html是关键字,b是非关键字。用预先定义的通用字符串将上述的网址中的无用字符串替换为:
host_name/a/(\w+)/(\d+)/(\d+).html?<query> (2)
如上述所示,式(1)是用户访问日志中的一个访问网址,式(2)是对式(1)替换了字符串后的临时网址模式。显然,访问网址记录中的“b”、“1234”、“5678”、“id=323&book=32”是无用字符串,而式(2)中的(\w+)、(\d+)、<query>是通用字符串。即,用(\w+)替换了“b”,用(\d+)替换了“1234”,用(\d+)替换了“5678”,用<query>替换了“id=323&book=32”。
分割模块212被配置成针对不同的位置并按照预定规则将每个所述临时网址模式分割为多个网址单元(以下也称作URL单元)。这里,预定规则是指网址中的“/、?、#”等特殊符号。即,分割模块212按照“/、?、#”等符号将经过预处理的每个临时网址模式分割为多个URL单元,并且每个URL单元与其在URL中的位置相关联。以上述式(2)为例,分割模块212按照“/”、“.”、“?”这三个符号将式(2)分割为“a”、“(\w+-)”、“(\d+)”、“(\d+)”、“html”、“<query>”这六个URL单元,并且每个URL单元均与其在URL中的位置相关联,即:“a”对应于位置1,“(\w+)”对应于位置2等。统计模块213被配置成统计每个网址单元在所在位置上出现的次数,将超出预定次数的网址单元标记为所述关键字,并以预定格式将所述关键字保存在网址单元词典中。这里,预定格式为“域名—位置—关键字”。也就是说,统计模块213针对每个分割的位置统计每个URL单元出现的次数,当某URL单元出现的次数超出预定值时,就将该URL单元标记为关键字,并且将所标记的关键字以“域名—位置—关键字”这样的格式存储在URL单元词典中。例如,在上述例子中,a和html为关键字,则将a和html分别以“{domain_name,1,a}、{domain_name,5,html}”这样的格式存储在URL单元词典中。
另外,模式生成模块202被配置成针对所述每个访问网址使用所述关键字和预定正则表达式生成网址模式,并且按照预定条件将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中的剩余的网址模式作为待分类数据。也就是说,模式生成模块202使用在上述的URL单元词典中存储的关键字和预先设定的正则表达式将用户访问日志中的每个访问网址生成对应的URL模式,然后按照访问率高等条件将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中剩余的网址模式作为待分类数据。
另外,如图2所示,模式生成模块202可以进一步包括匹配模块221和整合模块222。
匹配模块221被配置成将所述多个网址单元分别与所述网址单元词典中的关键字进行匹配,当匹配成功时将匹配的网址单元保留为第一网址单元,当匹配失败时将不匹配的网址单元用所述预定正则表达式取代并保留为第二网址单元。也就是说,匹配模块221将分割后的URL单元分别与URL单元词典中的关键字进行匹配,如果匹配成功,就保留匹配的URL单元;如果匹配失败,就用预先设定的正则表达式替换不匹配的URL单元。在此,匹配表示分割而成的URL单元是否与URL单元词典中的某一个关键字一致的意思。为了明确地区分保留的URL单元和替换的URL单元,将保留的URL单元设为第一URL单元(即第一网址单元),将替换的URL单元设为第二URL单元(即第二网址单元)。此外,将多个网址单元分别与网址单元词典中的关键字进行匹配的理由是,由多个关键字构成的网址单元词典只是一个配置文件,系统不能自动地识别出在构成网址的多个网址单元中哪些网址单元是关键字,因此在对用户访问日志中的网址进行处理时需要调用这个配置文件才会获知每个访问网址中特定位置上的网址单元是否为网址单元词典中的关键字,然后才能执行使用正则表达式对非关键字的网址单元进行替换的处理。
整合模块222被配置成使用所述第一网址单元和所述第二网址单元将所述多个网址单元整合为网址模式,并且按照预定条件将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中的剩余的网址模式作为待分类数据。也就是说,按照每个分割后的(匹配前的)URL单元所在的位置,将多个(匹配后的)URL单元(即第一URL单元或第二URL单元)进行整合,通过整合后构成为URL模式。
此外,虽然未图示,但在模式生成模块202中,在匹配模块221和整合模块222之前还可以包括重新替换模块和重新分割模块。其中,重新替换模块被配置成从用户访问日志中的每个访问网址中查找无用字符串,并用所述通用字符串替换所述无用字符串以形成所述临时网址模式。重新分割模块被配置成按照所述预定规则将每个所述临时网址模式重新分割为所述多个网址单元。即,重新替换模块相当于替换模块211,重新分割模块相当于分割模块212。追加重新替换模块和重新分割模块的好处是能够使匹配模块更容易且快速地区分开每个访问网址中的关键字和非关键字从而使整合模块快速地执行URL模式的生成,能减少复杂的操作流程。当然,也可以省略重新替换模块和重新分割模块。
返回至图1,页面特征抓取模块102被配置成对所述测试数据所对应的页面内容进行特征抽取以得到测试特征数据,并将所述测试特征数据中的一部分测试特征数据作为训练数据,并且还对所述待分类数据所对应的页面内容进行特征抽取以得到待分类特征数据。也就是说,页面特征抓取模块102分别对测试数据和待分类数据中每个URL模式所对应的页面内容进行特征抽取,而且仅从抽取后的测试特征数据中选出一部分测试特征数据作为训练数据。
图3是本申请实施例的页面特征抓取模块102的结构图。如图3所示,页面特征抓取模块102可以包括抽取模块301、判断模块302以及计算模块303。
抽取模块301被配置成对所述测试数据所对应的页面内容进行特征抽取以得到所述测试特征数据,并将全部的所述测试特征数据存储为测试数据特征输出文件,还对所述待分类数据所对应的页面内容进行特征抽取以获得所述待分类特征数据,并将抽取的全部结果存储为待分类数据特征输出文件。也就是说,抽取模块301针对每个URL模式所对应的页面内容抽取出如下表中所列出的那样的包括页面话题等的特征数据,并将这些特征数据存储为特征输出文件。即,特征数据包括页面形式、正文、外部链接、文章标题、导航信息以及正文关键词等信息。例如,针对小说类和资讯类站点,所抽取的特征如下表格1所示。
<表格1>
特征 | 描述 |
页面话题(page topic) | 页面话题包括bbs,blog,news等 |
页面形式(page form) | 页面形式包括登录页面、错误页面等 |
正文(maintext) | 页面中主要文字内容 |
外部链接(outlink) | 页面中包含的外部链接 |
文章标题(AT) | 利用一定的算法抽取出来的文章标题 |
导航信息(breadcrumb) | 页面上代表当前页面访问结构的信息 |
正文关键词(keywords) | 从正文中进一步抽取的关键词 |
URL模式 | 通过URL模式生成模块生成的关键词 |
判断模块302被配置成针对所述测试数据特征输出文件中的每个所述测试特征数据依次判断所述测试特征数据中的页面形式是否为特殊页面,当判断为所述页面形式是特殊页面时,删除所述页面形式是特殊页面的测试特征数据,当判断为所述页面形式不是特殊页面时,保存所述页面形式不是特殊页面的测试特征数据以构成所述一部分测试特征数据。这里,特殊页面可以是登录页面或错误页面。换句话说,当判断模块302判断为测试特征数据中的页面形式是登录页面或错误页面时,删除该测试特征数据。这个步骤相当于在对两种以上的页面进行分类之前过滤掉其他页面中的登录页面和错误页面。过滤登录页面和错误页面主要是由于这两种页面最容易进行过滤处理且过滤效果最佳的缘故。当然,登录页面和错误页面只是其他页面中的一部分,除此之外,其他页面还包括用户profile页,列表页等。通过过滤掉登录页面和错误页面,既能提高页面分类的准确性,又能够大大降低系统的数据处理压力。
计算模块303被配置成针对所述一部分测试特征数据计算特征向量,并将具有所述特征向量的所述一部分测试特征数据作为训练数据。也就是说,计算模块303将按照例如上述表格中所列出的特征列表所抽取的特征数据转化为分类所需要的数值形式。所述的数值形式可以包括页面话题的向量值、页面形式的向量值、正文的长度、外部链接的数量、文章标题与正文关键词的吻合度以及文章标题与导航信息的吻合度等。即,所述的特征向量可以包括页面话题的向量值、页面形式的向量值、正文的长度、外部链接的数量、文章标题与正文关键词的吻合度以及文章标题与导航信息的吻合度等。
返回至图1,训练模块103被配置成使用分类器对所述训练数据进行模型计算和评估以获得分类模型。所述的分类器是使待分对象被划归某一类而使用的数学模型。实质上,它是一种计算机程序,它能够通过对训练数据进行训练后会自动地将未分类的数据划分到已知类别。本申请涉及的分类器例如是SVM分类器。这里的分类模型实际上是能区分出对象页面和内容页面(或其他页面)的分类结果。该分类模型可以看作是通过对训练数据进行训练而构建的用于区分两种以上的页面的函数。从而,分类器能够调用该函数对待分类的数据进行分类。例如,可以根据函数值是正值还是负值来区分两种不同的页面。
图4是本申请实施例的训练模块103的具体结构图。如图4所示,训练模块103可以进一步包括数据区分模块401和模型构建模块402。
数据区分模块401被配置成使用所述分类器对所述训练数据进行训练以将所述训练数据区分为至少两类数据。在此,例如,当对对象页面、内容页面以及其他页面进行分类时,数据区分模块401可以将训练数据区分为与对象页面对应的数据、与内容页面对应的数据以及与其他页面对应的数据;当对对象页面和其他页面进行分类时,数据区分模块401可以将训练数据区分为与对象页面对应的数据和与其他页面对应的数据。这里所说的其他页面不包括登录页面和错误页面。
模型构建模块402被配置成将所述至少两类数据分别构成为与每一类数据对应的页面模型,从而构建出包含至少两类所述页面模型的分类模型。也就是说,假设对对象页面、内容页面以及其他页面进行分类时,模型构建模块402构建出用于区分对象页面、内容页面以及其他页面的分类模型。从另一个角度来说,如上所述,例如可以看作模型构建模块402构建出用于区分对象页面、内容页面以及其他页面的函数,然后根据函数的取值范围来区分对象页面、内容页面以及其他页面。
返回至图1,预测模块104被配置成使用所述分类器和所述分类模型对所述待分类特征数据进行预测以将所述待分类特征数据分类为不同类型的页面。如上述那样,通过使用分类器并调用分类模型就可以对待分类特征数据进行预测并分类。
图5是本申请实施例的预测模块104的具体结构图。如图5所示,训练模块104可以进一步包括判定模块501和分类模块502。
判定模块501被配置成使用所述分类模型判定所述待分类特征数据属于至少两类所述页面模型中的哪一类。
分类模块502被配置成使用所述分类器并根据判定结果将所述待分类特征数据分类为至少两类页面。
换句话说,例如在对对象页面、内容页面以及其他页面进行分类时,判定模块501根据用于区分对象页面、内容页面以及其他页面的分类结果来判定待分类特征数据属于哪个页面模型的范围,从而将属于对象页面模型的待分类特征数据分类为对象页面,将属于内容页面模型的待分类特征数据分类为内容页面,将属于其他页面模型的待分类特征数据分类为其他页面。
如图3所示,预测模块104还可以包括纠错模块503。纠错模块503被配置成从已分类的特征数据所对应的待分类数据中任意地抽取两个数据,根据预定的标准来判断所抽取的两个数据的分类是否成功,并修改分类失败的数据的类别。在此,预定的标准是指已分类的特征数据所对应的待分类数据的网址模式的长度、相似度等。
换句话说,假设对对象页面和内容页面进行分类时,从被分类器分好的对象页面和内容页面中任意地抽取两个特征数据所对应的待分类数据,比较这两个数据的网址模式的长度、相似度,然后根据比较结果来判断两个数据是否分类成功,并且对分类失败的数据的类别进行修改。如下面的表格2所示。
<表格2>
在上述表格中,假设种类I表示所抽取的两个特征数据所对应的待分类数据中URL模式较短的数据的页面类型,种类II表示所抽取的两个特征数据所对应的待分类数据中URL模式较长的数据的页面类型。即,种类I的URL模式的长度小于种类II的URL模式的长度。按照抽取的两个特征数据所对应的待分类数据的URL模式的长度,在该表格中示出了六种情况。
对于状况1、状况3、状况5,由于没有用于比较的基准,所以不进行处理。当处于状况2时,由于两种URL模式的相似度高,且种类I的URL模式的长度小于种类II的URL模式的长度,所以基于对象页面的URL模式的长度小于内容页面的URL模式的长度而认定为所抽取的两个特征数据所对应的两个待分类数据分类成功,在这种情况下可以将本申请应用于执行将内容页面的URL模式映射到对应的对象页面的处理。当处于状况4和状况6时,由于两种URL模式的相似度高,且种类I的URL模式的长度小于种类II的URL模式的长度,所以基于对象页面的URL模式的长度小于内容页面的URL模式的长度而认定为分类失败,并且修改分类失败的特征数据所对应的待分类数据的类别。
根据本申请的实施例,还提供一种页面分类方法。本申请的页面分类方法所包括的各个步骤的具体实施与本申请的页面分类系统100中的各个模块的具体实施是相对应的,为了不模糊本申请,在此省略具体细节的重复描述。
图6是本申请实施例的页面分类方法的整体流程图,图7是图6中的网址模式生成步骤S601的具体流程,图8是图7中的关键字获取步骤S701的具体流程,图9是图7中的模式生成步骤S702的具体流程,图10是图6中的页面特征抓取步骤S602的具体流程;图11是图6中的训练步骤S603的具体流程,图12是图6中的预测步骤S604的具体流程。
下面,具体说明页面分类方法的具体细节。如图6所示,页面分类方法主要包括网址生成模式步骤S601、页面特征抓取步骤S602、训练步骤S603以及预测步骤S604。
在网址生成模式步骤S601中,针对用户访问日志中的每个访问网址对应地生成网址模式,其中,按照预定条件将所述网址模式中的一部分网址模式标注为测试数据,将所述网址模式中剩余的网址模式作为待分类数据。在此,所述的预定条件可以包括站点的访问频率高等条件。用户访问日志是用户在一天内对全网的多个域名访问记录。
具体来说,在步骤S601中如图7所示那样依次执行关键字获取步骤S701和模式生成步骤S702。
首先,在关键字获取步骤S701中,针对用户访问日志中的所述每个访问网址获取关键字。更具体地说,如图8所示,关键字获取步骤S701可以进一步包括替换步骤S801、分割步骤S802以及统计步骤S803。在替换步骤S801中,从用户访问日志中的每个访问网址中查找无用字符串,并用预定通用字符串替换所述无用字符串以形成临时网址模式。在此,无用字符串包括数字串、检索串等。通用字符串表示预先定义的字符串。接着,在分割步骤S802中,针对不同的位置并按照预定规则将每个所述临时网址模式分割为多个网址单元。在此,预定规则是指URL中的“/、?、#”等特殊符号。也就是说,将每个临时网址模式按照“/、?、#”等符号分割为多个URL单元,且每个URL单元与其所在位置相关联。然后,在统计步骤S803中,统计每个网址单元在所在位置上出现的次数,将超出预定次数的网址单元标记为所述关键字,并以预定格式将所述关键字保存在网址单元词典中。在此,预定格式是“域名—位置—关键字”。也就是说,将超出预定次数的URL单元按“域名—位置—关键字”的格式存储在URL单元词典中。
返回至图7,接着在模式生成步骤S702中,针对所述每个访问网址使用所述关键字和预定正则表达式生成网址模式,其中,将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中的剩余的网址模式作为待分类数据。具体地说,如图9所示,首先执行匹配步骤S901。即,在步骤S901中,将所述多个网址单元分别与所述网址单元词典中的关键字进行匹配,当匹配成功时将匹配的网址单元保留为第一网址单元,当匹配失败时将不匹配的网址单元用所述预定正则表达式取代并保留为第二网址单元。然后,执行整合步骤S902。即,在步骤S902中,使用所述第一网址单元和所述第二网址单元将所述多个网址单元整合为网址模式。另外,为了更容易快速地生成网址模式,可以在模式生成步骤S702中先重新执行上述的替换步骤和分割步骤,然后再执行匹配步骤S901和整合步骤S902。
返回至图6,在页面特征抓取步骤S602中,对所述测试数据所对应的页面内容进行特征抽取以得到测试特征数据,并将所述测试特征数据中的一部分特征数据作为训练数据,并且还对所述待分类数据所对应的页面内容进行特征抽取以得到待分类特征数据。
具体来说,如图10所示,在页面特征抓取步骤S602中依次执行抽取步骤S1001、判断步骤S1002以及计算步骤S1003。
在抽取步骤S1001中,对所述测试数据所对应的页面内容进行特征抽取以得到所述测试特征数据,并将全部的所述测试特征数据存储为特征输出文件,还对所述待分类数据所对应的页面内容进行特征抽取以获得所述待分类特征数据。所述测试特征数据可以包括页面话题、页面形式、正文、外部链接、文章标题、导航信息以及正文关键词等。
在判断步骤S1002中,针对所述特征输出文件中的每个所述测试特征数据依次判断所述测试特征数据中的页面形式是否为特殊页面,当判断为所述页面形式是特殊页面时,删除所述页面形式是特殊页面的测试特征数据,当判断为所述页面形式不是特殊页面时,保存所述页面形式不是特殊页面的测试特征数据以构成一部分测试特征数据。在此,所述的特殊页面可以包括登录页面和错误页面等。换句话说,在判断步骤S1002中,过滤掉页面形式是登录页面或错误页面等的其他页面,剩余的页面就仅包括对象页面和内容页面。
在计算步骤S1003中,针对所述一部分测试特征数据计算特征向量,并将具有所述特征向量的所述一部分测试特征数据作为训练数据。在此,所述的特征向量可以包括页面话题的向量值、页面形式的向量值、正文的长度、外部链接的数量、文章标题与正文关键词的吻合度以及文章标题与导航信息的吻合度等。
返回至图6,在训练步骤S603中,使用分类器对所述训练数据进行模型计算和评估以获得分类模型。
具体来说,如图11所示那样,在训练步骤S603中依次执行数据区分步骤S1101和模型构建步骤S1102。
在数据区分步骤S1101中,使用所述分类器对所述训练数据进行训练以将所述训练数据区分为至少两类数据。即,在对对象页面、内容页面以及其他页面进行分类时,将训练数据区分为对象页面数据、内容页面数据以及其他页面数据。
在模型构建步骤S1102中,将所述至少两类数据构成为与每一类数据对应的页面模型,从而构建出包含至少两类所述页面模型。即,在对对象页面、内容页面以及其他页面进行分类时,构建出能区分对象页面、内容页面以及其他页面的分类模型。
返回至图6,在预测步骤S604中,使用所述分类器和所述分类模型对所述待分类特征数据进行预测以将所述待分类特征数据分类为不同类型的页面。
具体来说,如图12所示,在预测步骤S604中依次执行判定步骤S1201和分类步骤S1202。
在判定步骤S1201中,使用所述分类模型判定所述待分类特征数据属于至少两类所述页面模型中的哪一类。即,在对对象页面、内容页面以及其他页面进行分类时,根据用于区分对象页面、内容页面以及其他页面的分类模型来判定待分类特征数据属于哪一类页面模型的范围内。
在分类步骤S1202中,使用所述分类器并根据判定结果将所述待分类特征数据分类为至少两类页面。即,在对对象页面、内容页面以及其他页面进行分类时,将属于对象页面模型的待分类特征数据分类为对象页面,将属于内容页面模型的待分类特征数据分类为内容页面,将属于其他页面模型的待分类特征数据分类为其他页面。
另外,在分类步骤S1202之后还可以执行纠错步骤S1203。
在纠错步骤S1203中,从已分类的特征数据所对应的待分类数据中任意地抽取两个数据,根据预定的标准来判断所抽取的两个数据的分类是否成功,并修改分类失败的数据的类别。在此,预定的标准是指已分类的特征数据所对应的待分类数据的网址模式的长度、相似度等。
通过采用本申请的页面分类方法,能够识别出对象页面。即,在不存在内容页面时能够正确鉴别对象页面和其他页面,而在存在内容页面情况下能够完成对象页面、内容页面以及其他页面的区分。从而,达到展示对象页面,以提高用户体验的友好度。并且,通过过滤掉其他页面中的登录页面和错误页面,能够降低数据处理压力。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的模块及方法的步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或方法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
应当注意,本申请的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当注意,尽管在上文详细描述中提及了设备的若干模块或子模块,但是这种划分仅仅并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
Claims (22)
1.一种页面分类系统,包括:
网址模式生成模块,被配置成针对用户访问日志中的每个访问网址对应地生成网址模式,其中,按照预定条件将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中剩余的网址模式作为待分类数据;
页面特征抓取模块,被配置成对所述测试数据所对应的页面内容进行特征抽取以得到测试特征数据,并将所述测试特征数据中的一部分测试特征数据作为训练数据,并且还对所述待分类数据所对应的页面内容进行特征抽取以得到待分类特征数据;
训练模块,被配置成使用分类器对所述训练数据进行模型计算和评估以获得分类模型;以及
预测模块,被配置成使用所述分类器和所述分类模型对所述待分类特征数据进行预测以将所述待分类特征数据分类为不同类型的页面。
2.根据权利要求1所述的页面分类系统,其中,所述网址模式生成模块进一步包括:
关键字获取模块,被配置成针对用户访问日志中的所述每个访问网址获取关键字;以及
模式生成模块,被配置成针对所述每个访问网址使用所述关键字和预定正则表达式生成网址模式,其中,将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中的剩余的网址模式作为待分类数据。
3.根据权利要求2所述的页面分类系统,其中,所述关键字获取模块进一步包括:
替换模块,被配置成从用户访问日志中的每个访问网址中查找无用字符串,并用预定通用字符串替换所述无用字符串以形成临时网址模式;
分割模块,被配置成针对不同的位置并按照预定规则将每个所述临时网址模式分割为多个网址单元;以及
统计模块,被配置成统计每个网址单元在所在位置上出现的次数,将超出预定次数的网址单元标记为所述关键字,并以预定格式将所述关键字保存在网址单元词典中。
4.根据权利要求3所述的页面分类系统,其中,所述模式生成模块进一步包括:
匹配模块,被配置成将所述多个网址单元分别与所述网址单元词典中的关键字进行匹配,将匹配的网址单元保留为第一网址单元,将不匹配的网址单元用所述预定正则表达式取代并保留为第二网址单元;以及
整合模块,被配置成使用所述第一网址单元和所述第二网址单元将所述多个网址单元整合为网址模式,其中,将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中的剩余的网址模式作为待分类数据。
5.根据权利要求1所述的页面分类系统,其中,所述页面特征抓取模块进一步包括:
抽取模块,被配置成对所述测试数据所对应的页面内容进行特征抽取以得到所述测试特征数据,并将全部的所述测试特征数据存储为特征输出文件,还对所述待分类数据所对应的页面内容进行特征抽取以获得所述待分类特征数据;
判断模块,被配置成针对所述特征输出文件中的每个所述测试特征数据依次判断所述测试特征数据中的页面形式是否为特殊页面,当判断为所述页面形式是特殊页面时,删除所述页面形式是特殊页面的测试特征数据,当判断为所述页面形式不是特殊页面时,保存所述页面形式不是特殊页面的测试特征数据以构成一部分测试特征数据;以及
计算模块,被配置成针对所述一部分测试特征数据计算特征向量,并将具有所述特征向量的所述一部分测试特征数据作为训练数据。
6.根据权利要求1所述的页面分类系统,其中,所述训练模块进一步包括:
数据区分模块,被配置成使用所述分类器对所述训练数据进行训练以将所述训练数据区分为至少两类数据;以及
模型构建模块,被配置成将所述至少两类数据分别构成为与每一类数据对应的页面模型,从而构建出包含至少两类所述页面模型的分类模型。
7.根据权利要求6所述的页面分类系统,其中,所述预测模块进一步包括:
判定模块,被配置成使用所述分类模型判定所述待分类特征数据属于至少两类所述页面模型中的哪一类;以及
分类模块,被配置成使用所述分类器并根据判定结果将所述待分类特征数据分类为至少两类页面。
8.根据权利要求6所述的页面分类系统,其中,所述预测模块还包括:
纠错模块,被配置成从已分类的特征数据所对应的待分类数据中任意地抽取两个数据,根据预定的标准来判断所抽取的两个数据的分类是否成功,并修改分类失败的数据的类别。
9.根据权利要求5所述的页面分类系统,其中,所述特殊页面包括登录页面和错误页面。
10.根据权利要求1所述的页面分类系统,其中,所述预定条件包括站点的访问频率高。
11.根据权利要求3所述的页面分类系统,其中,所述无用字符串包括数字串、检索串。
12.根据权利要求3所述的页面分类系统,其中,所述预定格式是:域名—位置—关键字。
13.根据权利要求1所述的页面分类系统,其中,所述测试特征数据包括页面话题、页面形式、正文、外部链接、文章标题、导航信息以及正文关键词。
14.根据权利要求13所述的页面分类系统,其中,所述特征向量包括所述页面话题的向量值、所述页面形式的向量值、所述正文的长度、所述外部链接的数量、所述文章标题与所述正文关键词的吻合度以及所述文章标题与所述导航信息的吻合度。
15.一种页面分类方法,包括以下步骤:
网址模式生成步骤,针对用户访问日志中的每个访问网址对应地生成网址模式,其中,按照预定条件将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中剩余的网址模式作为待分类数据;
页面特征抓取步骤,对所述测试数据所对应的页面内容进行特征抽取以得到测试特征数据,并将所述测试特征数据中的一部分测试特征数据作为训练数据,并且还对所述待分类数据所对应的页面内容进行特征抽取以得到待分类特征数据;
训练步骤,使用分类器对所述训练数据进行模型计算和评估以获得分类模型;以及
预测步骤,使用所述分类器和所述分类模型对所述待分类特征数据进行预测以将所述待分类特征数据分类为不同类型的页面。
16.根据权利要求15所述的页面分类方法,其中,所述网址模式生成步骤进一步包括:
关键字获取步骤,针对用户访问日志中的所述每个访问网址获取关键字;以及
模式生成步骤,针对所述每个访问网址使用所述关键字和预定正则表达式生成网址模式,其中,将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中的剩余的网址模式作为待分类数据。
17.根据权利要求15所述的页面分类方法,其中,所述关键字获取步骤进一步包括:
替换步骤,从用户访问日志中的每个访问网址中查找无用字符串,并用预定通用字符串替换所述无用字符串以形成临时网址模式;
分割步骤,针对不同的位置并按照预定规则将每个所述临时网址模式分割为多个网址单元;以及
统计步骤,统计每个网址单元在所在位置上出现的次数,将超出预定次数的网址单元标记为所述关键字,并以预定格式将所述关键字保存在网址单元词典中。
18.根据权利要求16所述的页面分类方法,其中,所述模式生成步骤进一步包括:
匹配步骤,将所述多个网址单元分别与所述网址单元词典中的关键字进行匹配,将匹配的网址单元保留为第一网址单元,将不匹配的网址单元用所述预定正则表达式取代并保留为第二网址单元;以及
整合步骤,使用所述第一网址单元和所述第二网址单元将所述多个网址单元整合为网址模式,其中,将所述网址模式中的一部分网址模式作为测试数据,将所述网址模式中的剩余的网址模式作为待分类数据。
19.根据权利要求15所述的页面分类方法,其中,所述页面特征抓取步骤进一步包括:
抽取步骤,对所述测试数据所对应的页面内容进行特征抽取以得到所述测试特征数据,并将全部的所述测试特征数据存储为特征输出文件,还对所述待分类数据所对应的页面内容进行特征抽取以获得所述待分类特征数据;
判断步骤,针对所述特征输出文件中的每个所述测试特征数据依次判断所述测试特征数据中的页面形式是否为特殊页面,当判断为所述页面形式是特殊页面时,删除所述页面形式是特殊页面的测试特征数据,当判断为所述页面形式不是特殊页面时,保存所述页面形式不是特殊页面的测试特征数据以构成一部分测试特征数据;以及
计算步骤,针对所述一部分测试特征数据计算特征向量,并将具有所述特征向量的所述一部分测试特征数据作为训练数据。
20.根据权利要求15所述的页面分类方法,其中,所述训练步骤进一步包括:
数据区分步骤,使用所述分类器对所述训练数据进行训练以将所述训练数据区分为至少两类数据;以及
模型构建步骤,将所述至少两类数据分别构成为与每一类数据对应的页面模型,从而构建出包含至少两类所述页面模型的分类模型。
21.根据权利要求20所述的页面分类方法,其中,所述预测步骤进一步包括:
判定步骤,使用所述分类模型判定所述待分类特征数据属于至少两类所述页面模型中的哪一类;以及
分类步骤,使用所述分类器并根据判定结果将所述待分类特征数据分类为至少两类页面。
22.根据权利要求20所述的页面分类方法,其中,所述预测步骤还包括:
纠错步骤,从已分类的特征数据所对应的待分类数据中任意地抽取两个数据,根据预定的标准来判断所抽取的两个数据的分类是否成功,并修改分类失败的数据的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210491800.9A CN103838798B (zh) | 2012-11-27 | 2012-11-27 | 页面分类系统及页面分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210491800.9A CN103838798B (zh) | 2012-11-27 | 2012-11-27 | 页面分类系统及页面分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103838798A true CN103838798A (zh) | 2014-06-04 |
CN103838798B CN103838798B (zh) | 2017-07-14 |
Family
ID=50802307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210491800.9A Active CN103838798B (zh) | 2012-11-27 | 2012-11-27 | 页面分类系统及页面分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103838798B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361010A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种纠正新闻分类的自动分类方法 |
CN104408175A (zh) * | 2014-12-12 | 2015-03-11 | 北京奇虎科技有限公司 | 识别网页类型的方法和装置 |
CN104504086A (zh) * | 2014-12-25 | 2015-04-08 | 北京国双科技有限公司 | 网页页面的聚类方法和装置 |
CN105117434A (zh) * | 2015-08-07 | 2015-12-02 | 北京品友互动信息技术有限公司 | 一种网页分类方法和系统 |
CN105550207A (zh) * | 2015-12-02 | 2016-05-04 | 合一网络技术(北京)有限公司 | 一种信息推广方法及装置 |
CN106126642A (zh) * | 2016-06-23 | 2016-11-16 | 北京工业大学 | 一种基于流式计算的金融仓单风控信息爬取和筛选方法 |
CN106484700A (zh) * | 2015-08-25 | 2017-03-08 | 北京国双科技有限公司 | 页面访问数据的显示方法和装置 |
CN109933744A (zh) * | 2018-08-10 | 2019-06-25 | 深信服科技股份有限公司 | 目标识别方法及装置、设备及计算机可读存储介质 |
CN111881398A (zh) * | 2020-06-29 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 页面类型确定方法、装置和设备及计算机存储介质 |
CN112073427A (zh) * | 2020-09-17 | 2020-12-11 | 成都思维世纪科技有限责任公司 | 一种基于http协议上下行流量数据接口识别系统及方法 |
CN113468108A (zh) * | 2021-09-06 | 2021-10-01 | 辰风策划(深圳)有限公司 | 基于特征数据识别的企业策划方案智能管理分类系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872347B (zh) * | 2009-04-22 | 2012-09-26 | 富士通株式会社 | 判断网页类型的方法和装置 |
-
2012
- 2012-11-27 CN CN201210491800.9A patent/CN103838798B/zh active Active
Non-Patent Citations (2)
Title |
---|
LEI T,CAI R,YANG J,ET AL: "A pattern tree-based approach to learning URL normalization rules", 《PROCEEDINGS OF THE 19TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
SHIH L, KARGER D: "Using urls and table layout for web classification tasks", 《PROCEEDING OF THE 13TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361010A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种纠正新闻分类的自动分类方法 |
CN104408175B (zh) * | 2014-12-12 | 2017-11-10 | 北京奇虎科技有限公司 | 识别网页类型的方法和装置 |
CN104408175A (zh) * | 2014-12-12 | 2015-03-11 | 北京奇虎科技有限公司 | 识别网页类型的方法和装置 |
CN104504086A (zh) * | 2014-12-25 | 2015-04-08 | 北京国双科技有限公司 | 网页页面的聚类方法和装置 |
CN104504086B (zh) * | 2014-12-25 | 2017-11-21 | 北京国双科技有限公司 | 网页页面的聚类方法和装置 |
CN105117434A (zh) * | 2015-08-07 | 2015-12-02 | 北京品友互动信息技术有限公司 | 一种网页分类方法和系统 |
CN106484700A (zh) * | 2015-08-25 | 2017-03-08 | 北京国双科技有限公司 | 页面访问数据的显示方法和装置 |
CN105550207A (zh) * | 2015-12-02 | 2016-05-04 | 合一网络技术(北京)有限公司 | 一种信息推广方法及装置 |
CN106126642A (zh) * | 2016-06-23 | 2016-11-16 | 北京工业大学 | 一种基于流式计算的金融仓单风控信息爬取和筛选方法 |
CN106126642B (zh) * | 2016-06-23 | 2020-01-17 | 北京工业大学 | 一种基于流式计算的金融仓单风控信息爬取和筛选方法 |
CN109933744A (zh) * | 2018-08-10 | 2019-06-25 | 深信服科技股份有限公司 | 目标识别方法及装置、设备及计算机可读存储介质 |
CN111881398A (zh) * | 2020-06-29 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 页面类型确定方法、装置和设备及计算机存储介质 |
CN111881398B (zh) * | 2020-06-29 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 页面类型确定方法、装置和设备及计算机存储介质 |
CN112073427A (zh) * | 2020-09-17 | 2020-12-11 | 成都思维世纪科技有限责任公司 | 一种基于http协议上下行流量数据接口识别系统及方法 |
CN112073427B (zh) * | 2020-09-17 | 2023-04-07 | 成都思维世纪科技有限责任公司 | 一种基于http协议上下行流量数据接口识别系统及方法 |
CN113468108A (zh) * | 2021-09-06 | 2021-10-01 | 辰风策划(深圳)有限公司 | 基于特征数据识别的企业策划方案智能管理分类系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103838798B (zh) | 2017-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A content-based recommender system for computer science publications | |
CN103838798A (zh) | 页面分类系统及页面分类方法 | |
US10261954B2 (en) | Optimizing search result snippet selection | |
US9501476B2 (en) | Personalization engine for characterizing a document | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
Gupta et al. | Survey on social tagging techniques | |
US9268843B2 (en) | Personalization engine for building a user profile | |
US7814089B1 (en) | System and method for presenting categorized content on a site using programmatic and manual selection of content items | |
US9928296B2 (en) | Search lexicon expansion | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
US20130246440A1 (en) | Processing a content item with regard to an event and a location | |
US20090182723A1 (en) | Ranking search results using author extraction | |
US20170212899A1 (en) | Method for searching related entities through entity co-occurrence | |
US20170154116A1 (en) | Method and system for recommending contents based on social network | |
US20120016863A1 (en) | Enriching metadata of categorized documents for search | |
WO2011008848A2 (en) | Activity based users' interests modeling for determining content relevance | |
CN101404015A (zh) | 自动生成词条层次 | |
CN101872351A (zh) | 识别同义词的方法、装置及利用其进行搜索的方法和装置 | |
US20080147588A1 (en) | Method for discovering data artifacts in an on-line data object | |
EP2933734A1 (en) | Method and system for the structural analysis of websites | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
Maiya et al. | Exploratory analysis of highly heterogeneous document collections | |
Rajkumar et al. | Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine | |
US8195458B2 (en) | Open class noun classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1195145 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1195145 Country of ref document: HK |