CN103631787B - 网页类型识别方法以及网页类型识别装置 - Google Patents

网页类型识别方法以及网页类型识别装置 Download PDF

Info

Publication number
CN103631787B
CN103631787B CN201210299843.7A CN201210299843A CN103631787B CN 103631787 B CN103631787 B CN 103631787B CN 201210299843 A CN201210299843 A CN 201210299843A CN 103631787 B CN103631787 B CN 103631787B
Authority
CN
China
Prior art keywords
webpage
web page
type
measured
page address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210299843.7A
Other languages
English (en)
Other versions
CN103631787A (zh
Inventor
蔡兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210299843.7A priority Critical patent/CN103631787B/zh
Priority to PCT/CN2013/081836 priority patent/WO2014029318A1/en
Publication of CN103631787A publication Critical patent/CN103631787A/zh
Priority to US14/627,311 priority patent/US10311120B2/en
Application granted granted Critical
Publication of CN103631787B publication Critical patent/CN103631787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网页类型识别方法以及网页类型识别装置,其中网页类型识别方法包括步骤:接收待测网页的网页地址,并对网页地址进行解析以得到网页地址的组成部分;判断待测网页地址的组成部分是否与网页分类规则相匹配;以及若判断结果为相匹配,则根据网页分类规则将待测网页分类以得到待测网页的网页类型,否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。本发明仅利用网页地址的情况下即可预测出网页类别,预测速度快、实时性高。

Description

网页类型识别方法以及网页类型识别装置
技术领域
本发明涉及类型识别技术领域,特别涉及网页类型识别方法以及网页类型识别装置。
背景技术
随着互联网的高速发展,万维网“WWW”网页类型识别也成为一项必不可少的工作。目前网页类型识别方法主要有两种:第一种是基于人工规则和策略的方法。其主要利用专家领域知识对网页进行整理分类。这种方法尤其适用于范围已知的网页类型识别,其优点是识别效果好、速度快。缺点是其可扩展性较差,当需要识别的网页范围非常大时,由于人力不足而难以处理海量数据。第二种是文本分类方法,例如朴素贝叶斯、SVM等,其优点是可以基于样本统计,需要较少的人工干预,且能够保证一定的准确率和网页覆盖度。缺点是计算量大,耗时较高,难以满足一些对网页识别实时性要求非常高的系统。由此可知,上述两种方法在覆盖度和计算量方面均存在一定的限制,无法满足实时性要求极高的网页类型识别系统。
发明内容
因此,本发明提供网页类型识别方法以及网页类型识别装置,以克服现有网页类型识别技术存在的问题。
具体地,本发明实施例提供的一种网页类型识别方法,其包括步骤:接收待测网页的网页地址,并对网页地址进行解析以得到网页地址的组成部分;判断待测网页地址的组成部分是否与网页分类规则相匹配;以及若判断结果为相匹配,则根据网页分类规则将待测网页分类以得到待测网页的网页类型,否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。
另外,本发明实施例提供的一种网页类型识别装置,其包括:解析单元以及判断单元。其中,解析单元,用于接收待测网页的网页地址,并对网页地址进行解析以得到网页地址的组成部分;判断单元,用于判断待测网页地址的组成部分是否与网页分类规则库中的网页分类规则相匹配,若判断结果为相匹配,则根据网页分类规则将待测网页分类,否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。
由上述实施例可知,本发明通过判断待测网页地址的组成部分是否与网页分类规则相匹配,若相匹配,则根据网页分类规则将待测网页分类以得到待测网页的网页类型,否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。从而达到仅基于网页地址即可进行网页类型预测,具有速度快、效率高、覆盖广的优点,可适用于实时性高的在线网页类型预测系统。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明实施例提供的网页类型识别方法的步骤流程图;
图2是本发明另一实施例提供的网页类型识别方法的步骤流程图;
图3为本发明实施例提供的网页类型识别装置的主要架构框图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的网页类型识别方法以及网页类型识别装置其具体实施方式、结构、特征及功效,详细说明如后。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
图1是本发明实施例提供的网页类型识别方法的步骤流程图。请参阅图1,本发明实施例的网页类型识别方法可包括以下步骤S111- S113:
步骤S111,接收待测网页的网页地址(网页地址又称为统一资源定位符URL,Uniform/Universal Resource Locator),并对网页地址进行解析以得到网页地址的组成部分。
本步骤中,待测网页地址例如为http://域名X/目录A/目录B/.../abc.html时,则待测网页地址的组成部分包括协议类型http、域名X、目录名A及B、以及参数abc.html。此外,还可以将网页地址的组成部分进一步解析为一些字段,例如将目录名A及B解析为20110202等字段。
步骤S113,判断待测网页地址的组成部分是否与网页分类规则相匹配,若相匹配,则进行步骤S115,若否,则执行步骤S117。
本步骤中,网页分类规则可以为一组网页地址和组中网页类型对应关系的多模式串。假设某一网页分类规则中网页地址组的目录名解析字段为2010*(*代表任何的数据,例如字母、数字等)时,组中网页属于新闻网页类型。若待测网页地址的目录名解析字段为20100202,则待测网页地址与此网页分类规则相匹配,若待测网页地址的目录名解析字段为20120202,则待测网页地址与此网页分类规则不相匹配。
步骤S115,根据网页分类规则将待测网页分类以得到待测网页的网页类型
本步骤中,若待测网页地址的组成部分与网页分类规则相匹配,根据网页分类规则将待测网页分类以得到待测网页的网页类型,即判断为待测网页类型为所匹配的网页分类规则中对应的网页类型。若网页分类规则中网页地址组的目录名解析字段为2010*(*代表任何的数据,例如字母、数字等)时,组中网页属于新闻网页类型为例。若待测网页地址的目录名的解析字段为20100303,则待测网页的类型为新闻类型。
步骤S117,将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型在本发明实施例中,通过判断待测网页地址的组成部分是否与网页分类规则相匹配,若相匹配,则根据网页分类规则将待测网页分类以得到待测网页的网页类型,否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型,从而仅利用网页地址的情况下即可预测出其类别,预测速度快、实时性高。
图2是本发明实施例提供的网页类型识别方法的步骤流程图。图2是在图1的基础上改进而来的。请参阅图2,本发明实施例的网页类型识别方法可包括步骤S201- S215:
步骤S201,将网页样本进行训练而生成网页地址与网页类型的对应关系,并将此对应关系发送到网页分类器中进行存储。
本步骤中,网页样本进行训练时可以对网页的内容进行解析,采用人工神经网络等方法对样本进行训练而得到网页地址与网页类型的对应关系。在其它实施方式中,也可以根据实际需要而省略此步骤S201。
步骤S203,读取预先存储的所有网页地址及网页类型,并对所有网页地址进行解析以得到网页地址组成部分的集合。
本步骤中,所有网页地址及其对应的网页类型可以预先存储在网页分类器中。其中一网页地址例如为http://域名X/目录A/目录B/.../abc.html时,则网页地址的组成部分的集合为S={域名X,目录A,…,目录N,abc.html},且集合元素的顺序与网页地址保持一致。
步骤S205,按照预设的聚合方法将网页地址组成部分类同的网页地址聚合至一个组从而形成多个组。
本步骤中,可以采用如下聚合方法而将类同的网页地址聚合至一个组中:若一网页地址的组成部分的集合为S1={域名X,目录A1,…,目录N1,abc.html},另一网页地址的组成部分的集合S2={域名X,目录A2,…,目录N2,123.html},若集合S1中目录A1,…,目录N1解析字段为20120101,集合S2中目录A2,…,目录N2解析字段为20120102,则认为此两网页地址的组成部分类同,而将这两个网页聚合到一个组中。
步骤S209,判断每个组中网页的覆盖度和网页类型的准确率是否满足要求,若满足要求,则进行步骤S210,若不满足要求,则继续进行步骤S205。
本步骤中,通过计算每个组中网页数量是否小于阈值N来判断每个组中的网页的覆盖度是否满足要求,通过计算组的熵E是否小于阈值T来判断组中网页类型的准确率是否满足要求。若一个组中网页的数量小于等于阈值N且熵E小于阈值T,则表示此组中网页的覆盖度和网页类型的准确率满足要求。反之,若一个组中网页的数量大于阈值N且E不小于阈值T,则表示此组中网页的覆盖度和网页类型的准确率不满足要求。其中,熵E= sum(pi*log(pi)),i=1,2…,n,n为此组中网页的数量,pi为此组中相同类型的网页出现的概率。假设一个组中,包括9条新闻类型的网页,1条博客类型的网页,则这个组的熵为E= 0.9*log0.9+0.1*log0.1。若熵E满足要求,则表示聚合到这个组中的网页类型的准确率高。
步骤S210,停止聚合以形成网页分类规则并将网页分类规则存储至网页分类规则库中。
本步骤中,网页分类规则为一个模式,其包括一组网页地址和组中网页类型信息,例如新闻类型。
步骤S211,接收待测网页的网页地址(网页地址又称为统一资源定位符URL,Uniform/Universal Resource Locator),并对网页地址进行解析以得到网页地址的组成部分。
本步骤中,待测网页地址例如为http://域名X/目录A/目录B/.../abc.html时,则待测网页地址的组成部分包括协议类型http、域名X、目录名A及B、以及参数abc.html。此外,还可以将网页地址的组成部分进一步解析为一些字段,例如将目录名A及B解析为20110202等字段。
步骤S213,判断待测网页地址的组成部分是否与网页分类规则相匹配,若相匹配,则进行步骤S215,若不相匹配,则进行步骤S212。
本步骤中,网页分类规则可以为一组网页地址和组中网页的类型对应关系的多模式串。假设某一网页分类规则中网页地址组的目录名解析字段为2010*(*代表任何的数据,例如字母、数字等)时,组中网页属于新闻网页类型。若待测网页地址的目录名解析字段为20100202,则待测网页地址与此网页分类规则相匹配,若待测网页地址的目录名解析字段为20120202,则待测网页地址与此网页分类规则不相匹配。
步骤S212,将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。
本步骤中,将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型即查找网页分类器中是否存有与待测网页地址相匹配的网页地址,若有,则判断待测网页类型为网页分类器中所匹配的网页类型,若否,则结束。
步骤S215,根据网页分类规则将待测网页分类以得到待测网页的网页类型。
本步骤中,若待测网页地址的组成部分与网页分类规则相匹配,根据网页分类规则将待测网页分类以得到待测网页的网页类型,即判断为待测网页类型为所匹配的网页分类规则中对应的网页类型。若网页分类规则中网页地址组的目录名解析字段为2010*(*代表任何的数据,例如字母、数字等)时,组中网页属于新闻网页类型为例。若待测网页地址的目录名的解析字段为20100303,则待测网页的类型为新闻类型。
步骤S215中具体还可包括步骤:存储测得的网页地址及其网页类型。
在本发明实施例中,通过分析和聚合网页分类器的输出结果,以形成网页分类规则,还通过判断待测网页地址的组成部分是否与网页分类规则相匹配,若相匹配,则根据网页分类规则将待测网页分类以得到待测网页的网页类型,否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型,从而达到仅基于网页地址即可进行网页类型预测,具有速度快、效率高、覆盖广的优点,可适用于实时性高的在线网页类型预测系统。
图3为本发明实施例提供的网页类型识别装置的主要架构框图。请一并参阅图1至图3,本发明实施例提供的网页类型识别装置包括:解析单元301、判断单元303。
解析单元301,用于接收待测网页的网页地址,并对网页地址进行解析以得到网页地址的组成部分。
判断单元303,用于判断待测网页地址的组成部分是否与规则相匹配,若相匹配,则根据网页分类规则将待测网页分类,否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。
此外,网页类型识别装置还可以包括:存储单元305、网页分类器生成单元307、聚合单元309、以及规则形成单元311。
具体地,网页分类器生成单元307,用于将网页样本进行训练而生成网页地址与网页类型的对应关系,并将此对应关系发送到网页分类器中进行存储。
聚合单元309,用于读取预先存储的所有网页地址及网页类型,并对所有网页地址进行解析以得到网页地址组成部分的集合,按照预设的聚合方法将网页地址组成部分类同的网页地址聚合至一个组从而形成多个组。
规则形成单元311,判断每个组中网页的覆盖度和网页类型的准确率是否满足要求,若满足要求,则停止聚合以形成网页分类规则并将网页分类规则存储至网页分类规则库中。此外,规则形成单元311还用于在不满足要求时,继续进行聚合。
具体地,若一个组中网页的数量小于等于阈值N且熵E小于阈值T,则表示此组中网页的覆盖度和网页类型的准确率满足要求。反之,若一个组中网页的数量大于阈值N且E不小于阈值T,则表示此组中网页的覆盖度和网页类型的准确率不满足要求。其中,熵E= sum(pi*log(pi)),i=1,2…,n,n为组中网页的数量,pi为相同类型的网页出现的概率。
存储单元305,用于存储测得的网页地址及其网页类型。
在本发明实施例中,通过分析和聚合网页分类器的输出结果,以形成网页分类规则,还通过判断待测网页地址的组成部分是否与网页分类规则相匹配,若相匹配,则根据网页分类规则将待测网页分类以得到待测网页的网页类型,否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型,从而达到仅基于网页地址即可进行网页类型预测,具有速度快、效率高、覆盖广的优点,可适用于实时性高的在线网页类型预测系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (6)

1.一种网页类型识别方法,其特征在于,该网页类型识别方法包括步骤:
读取预先存储的所有网页地址及网页类型,并对所有网页地址进行解析以得到网页地址组成部分的集合;
按照预设的聚合方法将网页地址组成部分类同的网页地址聚合至一个组从而形成多个组;
判断每个组中网页的覆盖度和网页类型的准确率是否满足要求:若一个组中网页的数量小于等于第一阈值且熵小于第二阈值,则表示该组中网页的覆盖度和网页类型的准确率满足要求,反之,若一个组中网页的数量大于第一阈值且熵不小于第二阈值,则表示该组中网页的覆盖度和网页类型的准确率不满足要求,熵E=sum(pi*log(pi)),i=1,2…,n,n为该组中网页的数量,pi为该组中相同类型的网页出现的概率;
若判断结果为满足要求,则停止聚合以形成网页分类规则并将该网页分类规则存储至网页分类规则库中;
接收待测网页的网页地址,并对该网页地址进行解析以得到该网页地址的组成部分;
判断该待测网页地址的组成部分是否与网页分类规则相匹配;以及
若判断结果为相匹配,则根据该网页分类规则将该待测网页分类以得到该待测网页的网页类型,否则将该待测网页的网页地址发送至网页分类器中进行分类以得到该待测网页的网页类型。
2.如权利要求1所述的网页类型识别方法,其特征在于,在执行步骤若判断结果为相匹配后,还包括步骤:
存储该待测网页的网页地址及其网页类型。
3.如权利要求1所述的网页类型识别方法,其特征在于,在执行步骤接收待测网页的网页地址前,还包括步骤:
将网页样本进行训练而生成网页地址与网页类型的对应关系,并将该对应关系发送到该网页分类器中进行存储。
4.一种网页类型识别装置,其特征在于,该网页类型识别装置包括:
聚合单元,用于读取预先存储的所有网页地址及网页类型,并对所有网页地址进行解析以得到网页地址组成部分的集合,按照预设的聚合方法将网页地址组成部分类同的网页地址聚合至一个组从而形成多个组;
规则形成单元,用于判断每个组中网页的覆盖度和网页类型的准确率是否满足要求:判断每个组中网页的覆盖度和网页类型的准确率是否满足要求:若一个组中网页的数量小于等于第一阈值且熵小于第二阈值,则表示该组中网页的覆盖度和网页类型的准确率满足要求,反之,若一个组中网页的数量大于第一阈值且熵不小于第二阈值,则表示该组中网页的覆盖度和网页类型的准确率不满足要求,熵E=sum(pi*log(pi)),i=1,2…,n,n为该组中网页的数量,pi为该组中相同类型的网页出现的概率;若满足要求,则停止聚合形成网页分类规则并将该网页分类规则存储至网页分类规则库中;
解析单元,用于接收待测网页的网页地址,并对该网页地址进行解析以得到该网页地址的组成部分;以及
判断单元,用于判断该待测网页地址的组成部分是否与网页分类规则库中的网页分类规则相匹配,若判断结果为相匹配,则根据该网页分类规则将该待测网页分类,否则将该待测网页的网页地址发送至网页分类器中进行分类以得到该待测网页的网页类型。
5.如权利要求4所述的装置,其特征在于,还包括:
网页分类器生成单元,用于将网页样本进行训练而生成网页地址与网页类型的对应关系,并将该对应关系发送到该网页分类器中进行存储。
6.如权利要求4所述的装置,其特征在于,还包括:
存储单元,用于存储该待测网页的网页地址及其网页类型。
CN201210299843.7A 2012-08-22 2012-08-22 网页类型识别方法以及网页类型识别装置 Active CN103631787B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210299843.7A CN103631787B (zh) 2012-08-22 2012-08-22 网页类型识别方法以及网页类型识别装置
PCT/CN2013/081836 WO2014029318A1 (en) 2012-08-22 2013-08-20 Method and apparatus for identifying webpage type
US14/627,311 US10311120B2 (en) 2012-08-22 2015-02-20 Method and apparatus for identifying webpage type

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210299843.7A CN103631787B (zh) 2012-08-22 2012-08-22 网页类型识别方法以及网页类型识别装置

Publications (2)

Publication Number Publication Date
CN103631787A CN103631787A (zh) 2014-03-12
CN103631787B true CN103631787B (zh) 2019-01-11

Family

ID=50149442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210299843.7A Active CN103631787B (zh) 2012-08-22 2012-08-22 网页类型识别方法以及网页类型识别装置

Country Status (3)

Country Link
US (1) US10311120B2 (zh)
CN (1) CN103631787B (zh)
WO (1) WO2014029318A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512143A (zh) * 2014-09-26 2016-04-20 中兴通讯股份有限公司 一种网页分类方法及装置
CN106294442A (zh) * 2015-05-28 2017-01-04 上海池乐信息科技有限公司 一种基于url的互联网信息分类识别方法及系统
CN106708952B (zh) 2016-11-25 2019-11-19 北京神州绿盟信息安全科技股份有限公司 一种网页聚类方法及装置
CN107506472B (zh) * 2017-09-05 2020-09-08 淮阴工学院 一种学生浏览网页分类方法
CN108921184A (zh) * 2018-04-18 2018-11-30 中国科学院信息工程研究所 一种通用的网页类型判定方法
CN109165297B (zh) * 2018-08-10 2021-12-24 新华智云科技有限公司 一种通用实体链接装置及方法
TWI682287B (zh) * 2018-10-25 2020-01-11 財團法人資訊工業策進會 知識圖譜產生裝置、方法及其電腦程式產品
CN109800353A (zh) * 2019-01-04 2019-05-24 上海上湖信息技术有限公司 一种基于用户浏览行为的实时推荐的方法及系统
US11314833B1 (en) * 2021-08-24 2022-04-26 metacluster lt, UAB Adaptive data collection optimization
US20230222169A1 (en) * 2022-01-12 2023-07-13 Dell Products L.P. Automated shifting of web pages between different user devices

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101727447A (zh) * 2008-10-10 2010-06-09 浙江搜富网络技术有限公司 基于url的正则表达式的生成方法和装置
WO2010120941A2 (en) * 2009-04-15 2010-10-21 Evri Inc. Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839680B1 (en) * 1999-09-30 2005-01-04 Fujitsu Limited Internet profiling
JP4226261B2 (ja) * 2002-04-12 2009-02-18 三菱電機株式会社 構造化文書種別判定システム及び構造化文書種別判定方法
US20040128136A1 (en) * 2002-09-20 2004-07-01 Irani Pourang Polad Internet voice browser
US7680810B2 (en) * 2005-03-31 2010-03-16 Microsoft Corporation Live graphical preview with text summaries
US7702675B1 (en) * 2005-08-03 2010-04-20 Aol Inc. Automated categorization of RSS feeds using standardized directory structures
US7565350B2 (en) * 2006-06-19 2009-07-21 Microsoft Corporation Identifying a web page as belonging to a blog
KR100793989B1 (ko) * 2006-07-11 2008-01-16 삼성전자주식회사 사진 카테고리 분류 방법 및 그 시스템
US7672943B2 (en) * 2006-10-26 2010-03-02 Microsoft Corporation Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling
CN100578500C (zh) * 2006-12-20 2010-01-06 腾讯科技(深圳)有限公司 一种网页分类方法及装置
US8515937B1 (en) * 2008-06-30 2013-08-20 Alexa Internet Automated identification and assessment of keywords capable of driving traffic to particular sites
TWI427490B (zh) * 2010-08-27 2014-02-21 Htc Corp 網頁檢視方法及系統,及其電腦程式產品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101727447A (zh) * 2008-10-10 2010-06-09 浙江搜富网络技术有限公司 基于url的正则表达式的生成方法和装置
WO2010120941A2 (en) * 2009-04-15 2010-10-21 Evri Inc. Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置

Also Published As

Publication number Publication date
US20150161278A1 (en) 2015-06-11
US10311120B2 (en) 2019-06-04
CN103631787A (zh) 2014-03-12
WO2014029318A1 (en) 2014-02-27

Similar Documents

Publication Publication Date Title
CN103631787B (zh) 网页类型识别方法以及网页类型识别装置
CN110070117B (zh) 一种数据处理方法及装置
US8327385B2 (en) System and method for recording web page events
RU2601190C2 (ru) Система и способы обнаружения спама с помощью частотных спектров строк символов
CN111614690A (zh) 一种异常行为检测方法及装置
Tang et al. A network Kernel Density Estimation for linear features in space–time analysis of big trace data
CN103793484A (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
US20130198240A1 (en) Social Network Analysis
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN104090931A (zh) 一种基于网页链接参数分析的信息预测采集方法
CN109257390A (zh) Cc攻击的检测方法、装置及电子设备
CN109525551A (zh) 一种基于统计机器学习的cc攻击防护的方法
CN110855648A (zh) 一种网络攻击的预警控制方法及装置
CN114187036B (zh) 一种基于行为特征识别的互联网广告智能推荐管理系统
US9336316B2 (en) Image URL-based junk detection
CN102982048A (zh) 一种用于评估垃圾信息挖掘规则的方法与设备
CN108280102A (zh) 上网行为记录方法、装置及用户终端
CN110225009A (zh) 一种基于通信行为画像的代理使用者检测方法
CN103248513A (zh) 基于Office办公套件的网络信息数据采集方法及系统
CN113157871A (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
Flood et al. Browser fingerprinting
CN107239704A (zh) 恶意网页发现方法及装置
Zhang et al. A Multi-Mode Learning Behavior Real-time Data Acquisition Method Based on Data Quality
Mauri et al. Social smart meter: Identifying energy consumption behavior in user-generated content
CN109933744A (zh) 目标识别方法及装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221125

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518100

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right