CN104090931A - 一种基于网页链接参数分析的信息预测采集方法 - Google Patents
一种基于网页链接参数分析的信息预测采集方法 Download PDFInfo
- Publication number
- CN104090931A CN104090931A CN201410290459.XA CN201410290459A CN104090931A CN 104090931 A CN104090931 A CN 104090931A CN 201410290459 A CN201410290459 A CN 201410290459A CN 104090931 A CN104090931 A CN 104090931A
- Authority
- CN
- China
- Prior art keywords
- web page
- page interlinkage
- webpage
- information
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网页链接参数分析的信息预测采集方法,包括以下顺序的步骤:计算网页链接的参数特征统计信息,计算网页所包含外部链接的分布信息,根据网页的外部链接分布特征对网页进行分类,网页资源的抽样预测,预测样本的采集测试,网页资源的总体预测。本发明的方法,有效地补充了传统采集信息方式的不足,扩展了待采集链接资源的数量,利用已知的网页资源特征预测到了大量未采集的网页资源,提高了采集网页信息的覆盖率。
Description
技术领域
本发明涉及搜索引擎和Web挖掘机所需的信息采集技术领域,特别涉及一种基于网页链接参数分析的信息预测采集方法。
背景技术
当今,互联网提供了越来越多有价值的信息,人们习惯通过搜索引擎来获取信息,信息采集系统是搜索引擎的核心组成部分;对Web进行数据挖掘能发现Web上大量隐藏的知识,从而衍生各种互联网服务,Web数据挖掘也需要对网页信息进行深层次的采集。通用的网页信息采集系统有一些局限性:
(一)在一定采集深度内,无法收录一些深层网页数据。
(二)网页的编码技术日益复杂,无法从中抽取到链接资源,遗漏大量网页资源。
(三)基于JavaScript引擎解析网页中的动态代码会给信息采集系统带来较大的开销。
互联网上的网页总数持续高速增长,这对搜索引擎的网络信息采集提出了更高的要求。互联网的网页数量很庞大,尤其是动态网页的数量增长迅速。在信息采集的过程中,难免会碰到各种异常情况,如服务器响应缓慢,重复网页、无效网页链接过多,网页资源之间的链接难以发现等问题。网页链接简称URL。
因此,人们需要一种新的网络信息采集方法,来满足人们的需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于网页链接参数分析的信息预测采集方法,其对采集到大量网页和链接资源进行聚类和分类决策,预测未知的网页集合中还会包括哪些链接资源,结合预测方法,可以比传统的采集方式发现更多具有相似链接的动态网页。
本发明的目的通过以下的技术方案实现:
一种基于网页链接参数分析的信息预测采集方法,包括以下顺序的步骤:
(1)计算网页链接的参数特征统计信息;
(2)计算网页所包含外部链接的分布信息,为网页分类提供特征并作为识别的依据;
(3)根据网页的外部链接分布特征对网页进行分类;
(4)利用网页链接的分类结果和参数统计信息进行网页资源的抽样预测,产生一个测试所预测网页资源的小样本;
(5)对抽样得到的预测样本进行采集测试,筛选出采集成功率达到自定义阈值的网页链接集合,舍弃不符合条件的部分网页链接;
(6)网页资源的总体预测:利用抽样测试的结果和网页链接的参数特征统计信息,用于预测大量有效的网页链接集合。
所述的步骤(1),具体如下:通过对已采集的网页链接库进行遍历,遍历过程中提取网页链接的参数特征,并记录每对参数值对中已出现的最小值、最大值。
步骤(1)中,所述的网页链接参数的统计信息包括每个网页链接的参数部分的取值信息,其中参数部分由多组参数值对组成,将纯数值的部分转化为一个取值范围,为预测类似的网页链接提供依据。
所述的步骤(2),具体如下:抽取每个网页中的外链接,对它们进行聚类,得到该网页上所包含的链接资源分布特征。
步骤(3)中,所述的网页的外部链接分布特征由聚类产生,通过前缀相同数目的统计、编辑距离在一定范围内,把每个网页的所有外链接聚集为相似形式的多个类别,并根据每个类别数目的大小进行排序得到分布特征。
步骤(3)中,所述的网页分类是用于识别网页链接所对应的类别,为导航类网页链接、列表页网页链接、内容页网页链接中的一种。
步骤(4)中,所述的网页资源的抽样预测,是在所有可以预测的网页资源集合中,在每个网站每个路径下都随机抽取一定比例的网页链接。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明的方法有效地补充了传统采集信息方式的不足,扩展了待采集链接资源的数量,利用已知的网页资源特征预测到了大量未采集的网页资源,提高了采集网页信息的速度和覆盖率。
2、本发明的方法中,所述预测样本的采集测试,能够验证不同参数值对应预测的网页链接样本是否能有效地访问网络资源,为下一步全面生成预测的网页链接资源做参考。
3、本发明的方法中,所述网页资源的总体预测,根据抽样预测样本的有效性分析,可以剔除大量无效的预测结果,降低预测的盲目性,提高准确率。
附图说明
图1为本发明所述的一种基于网页链接参数分析的信息预测采集方法的流程图;
图2为图1所述方法的网页链接字符串的基本形式图;
图3为图1所述方法的已经采集网页链接的统计信息结构示意图;
图4为图1所述方法的每个网站中不同路径的参数值存储的示意图;
图5为图1所述方法的对每个网页所包含外链接进行聚类的示意图;
图6为图1所述方法的根据网页外链接分布特征进行分类的示意图;
图7为图1所述方法的网页链接预测的示意图;
图8为图1所述方法的抽样预测和总体预测的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1,一种基于网页链接参数分析的信息预测采集方法,包括以下顺序的步骤:
(1)计算网页链接的参数特征统计信息:通过对已采集的网页链接库进行遍历,遍历过程中提取网页链接的参数特征,并记录每对参数值对中已出现的最小值、最大值;
所述的网页链接参数的统计信息包括每个网页链接的参数部分的取值信息,其中参数部分由多组参数值对组成,将纯数值的部分转化为一个取值范围,为预测类似的网页链接提供依据;
如图2所示,URL一般包括协议和路径两个部分,<host>表示站点主机名(域名或IP地址),<port>表示端口号,<path>表示页面路径,<searchpart>表示CGI接口GET方法的参数表达式;对一个站点来说,能够表示站点结构的只有<path>部分,页面的路径和Web站点的文件系统是对应的,也是一种分层的树形结构,每层之间通过“/”分开;
如图3所示,已采集URL的统计信息结构显示了遍历已采集URL库后得到的统计结果,每个网站都可以建立一棵对应网站的结构树,树的叶子节点保存着该网站某个路径下的统计信息;
如图4所示,该图显示的是每个网站结构树示意图,树结构的叶端保存的是从链接的<searchpart>部分提取出来的参数值对信息,可以由多对name=value结构形式组成,value部分保存着迄今为止发现的最小值和最大值;
(2)计算网页所包含外部链接的分布信息,为网页分类提供特征并作为识别的依据:抽取每个网页中的外链接,对它们进行聚类,得到该网页上所包含的链接资源分布特征;
如图5所示,网页解析模块可以从网页文本信息中提取出众多指向外部网站的链接,每个网页上所包含的外链接大多数在形式上是相似的,把站点和路径组成的部分定义为前缀,聚类模块可以把前缀相同的链接聚合为一个类别,并计算该类别的链接数目;
(3)根据网页的外部链接分布特征对网页进行分类;
所述的网页的外部链接分布特征由聚类产生,通过前缀相同数目的统计、编辑距离在一定范围内,把每个网页的所有外链接聚集为相似形式的多个类别,并根据每个类别数目的大小进行排序得到分布特征;
如图6,所述的网页分类是用于识别网页链接所对应的类别,为导航类网页链接、列表页网页链接、内容页网页链接中的一种;其中
导航页:大量外链接,聚类后,特点是类别多,数目大的类别比较少,分布平均;
列表页:外链接较多,聚类后,特点是前几个大类别的数量占总数的比重很大;
内容页:外链接相对较少,文字较多,可以从列表页的大类别计算得出;
(4)利用网页链接的分类结果和参数统计信息进行网页资源的抽样预测,产生一个测试所预测网页资源的小样本;
所述的网页资源的抽样预测,是在所有可以预测的网页资源集合中,在每个网站每个路径下都随机抽取一定比例的网页链接;
如图7所示,根据URL统计信息和URL聚类、分类得出来的类别信息,对有扩展价值的URL形式进行预测扩展;在该步骤中,每一个由<host>:<port>和<path>组成的前缀,都与一个参数值对(name=value)构成一个新的URL,例如,倘若该前缀可能存在三个不同的参数值对形式,则分别构造这三种URL,以此类推;在URL的参数中,决定一个网页的关键参数通常只有一个,与数据库中主键的作用类似,在接下来的步骤中,可以通过抽样测试来筛选出其中有效的参数值对,剔除由无效的参数值对所构造的URL;
如图8所示,为了避免盲目预测产生过多无效的URL资源,通过先抽样预测,并进行采集测试,可以统计出每个网站每个路径下的采集成功率,可以识别出预测的URL是否有效;根据抽样预测测试的结果,再进行总体预测URL集合,抽样产生的URL数目远远小于直接总体预测产生的URL数目,以这种方式用比较小的代价来提高预测的准确率;
(5)对抽样得到的预测样本进行采集测试,筛选出采集成功率达到自定义阈值的网页链接集合,舍弃不符合条件的部分网页链接;
(6)网页资源的总体预测:利用抽样测试的结果和网页链接的参数特征统计信息,用于预测大量有效的网页链接集合。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于网页链接参数分析的信息预测采集方法,其特征在于,包括以下顺序的步骤:
(1)计算网页链接的参数特征统计信息;
(2)计算网页所包含外部链接的分布信息,为网页分类提供特征并作为识别的依据;
(3)根据网页的外部链接分布特征对网页进行分类;
(4)利用网页链接的分类结果和参数统计信息进行网页资源的抽样预测,产生一个测试所预测网页资源的小样本;
(5)对抽样得到的预测样本进行采集测试,筛选出采集成功率达到自定义阈值的网页链接集合,舍弃不符合条件的部分网页链接;
(6)网页资源的总体预测:利用抽样测试的结果和网页链接的参数特征统计信息,用于预测大量有效的网页链接集合。
2.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,所述的步骤(1),具体如下:通过对已采集的网页链接库进行遍历,遍历过程中提取网页链接的参数特征,并记录每对参数值对中已出现的最小值、最大值。
3.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,步骤(1)中,所述的网页链接参数的统计信息包括每个网页链接的参数部分的取值信息,其中参数部分由多组参数值对组成,将纯数值的部分转化为一个取值范围,为预测类似的网页链接提供依据。
4.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,所述的步骤(2),具体如下:抽取每个网页中的外链接,对它们进行聚类,得到该网页上所包含的链接资源分布特征。
5.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,步骤(3)中,所述的网页的外部链接分布特征由聚类产生,通过前缀相同数目的统计、编辑距离在一定范围内,把每个网页的所有外链接聚集为形式相似的多个类别,并根据每个类别数目的大小进行排序得到分布特征。
6.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,步骤(3)中,所述的网页分类是用于识别网页链接所对应的类别,为导航类网页链接、列表页网页链接、内容页网页链接中的一种。
7.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法,其特征在于,步骤(4)中,所述的网页资源的抽样预测,是在所有可以预测的网页资源集合中,在每个网站每个路径下都随机抽取一定比例的网页链接。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410290459.XA CN104090931A (zh) | 2014-06-25 | 2014-06-25 | 一种基于网页链接参数分析的信息预测采集方法 |
US15/306,777 US20170053031A1 (en) | 2014-06-25 | 2014-12-04 | Information forecast and acquisition method based on webpage link parameter analysis |
PCT/CN2014/093070 WO2015196740A1 (zh) | 2014-06-25 | 2014-12-04 | 一种基于网页链接参数分析的信息预测采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410290459.XA CN104090931A (zh) | 2014-06-25 | 2014-06-25 | 一种基于网页链接参数分析的信息预测采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104090931A true CN104090931A (zh) | 2014-10-08 |
Family
ID=51638647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410290459.XA Pending CN104090931A (zh) | 2014-06-25 | 2014-06-25 | 一种基于网页链接参数分析的信息预测采集方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170053031A1 (zh) |
CN (1) | CN104090931A (zh) |
WO (1) | WO2015196740A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408156A (zh) * | 2014-12-03 | 2015-03-11 | 北京国双科技有限公司 | 网站页面在搜索引擎中收录数量的检测方法和装置 |
CN105163181A (zh) * | 2015-08-05 | 2015-12-16 | 中国科学院声学研究所 | 一种在线视频节目分类方法及其装置 |
WO2015196740A1 (zh) * | 2014-06-25 | 2015-12-30 | 华南理工大学 | 一种基于网页链接参数分析的信息预测采集方法 |
CN106570053A (zh) * | 2016-09-22 | 2017-04-19 | 山东浪潮云服务信息科技有限公司 | 一种网络数据采集验证方法 |
CN107943838A (zh) * | 2017-10-30 | 2018-04-20 | 北京大数元科技发展有限公司 | 一种自动获取xpath生成爬虫脚本的方法及系统 |
CN108574604A (zh) * | 2017-03-07 | 2018-09-25 | 北京京东尚科信息技术有限公司 | 测试方法和装置 |
CN109583211A (zh) * | 2018-10-11 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 网站聚类及漏洞扫描方法、装置、电子设备及存储介质 |
CN114417200A (zh) * | 2022-01-04 | 2022-04-29 | 马上消费金融股份有限公司 | 网络数据的采集方法、装置及电子设备 |
CN115032493A (zh) * | 2022-07-15 | 2022-09-09 | 扬州晶新微电子有限公司 | 一种基于管芯参数显示的晶圆测试方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106209488B (zh) * | 2015-04-28 | 2021-01-29 | 北京瀚思安信科技有限公司 | 用于检测网站攻击的方法和设备 |
CN110874680A (zh) * | 2018-09-03 | 2020-03-10 | 普天信息技术有限公司 | 一种企业信息数据的采集与处理的方法和装置 |
US11849160B2 (en) * | 2021-06-22 | 2023-12-19 | Q Factor Holdings LLC | Image analysis system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629282A (zh) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | 一种网址分类方法、装置及系统 |
CN103870486A (zh) * | 2012-12-13 | 2014-06-18 | 深圳市世纪光速信息技术有限公司 | 确定网页类型的方法和装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020019837A1 (en) * | 2000-08-11 | 2002-02-14 | Balnaves James A. | Method for annotating statistics onto hypertext documents |
CN100461184C (zh) * | 2007-07-10 | 2009-02-11 | 北京大学 | 网络搜索中的基于链接层次分类的主题爬取方法 |
US7974970B2 (en) * | 2008-10-09 | 2011-07-05 | Yahoo! Inc. | Detection of undesirable web pages |
JP2010123000A (ja) * | 2008-11-20 | 2010-06-03 | Nippon Telegr & Teleph Corp <Ntt> | Webページグループ抽出方法及び装置及びプログラム |
US8069167B2 (en) * | 2009-03-27 | 2011-11-29 | Microsoft Corp. | Calculating web page importance |
EP2537106A4 (en) * | 2009-12-18 | 2013-10-02 | Morningside Analytics Llc | SYSTEM AND METHOD FOR ATTENTION GROUPING AND ANALYTICAL PROCEDURES AND VIEWS RELATING THERETO |
US8700543B2 (en) * | 2011-02-12 | 2014-04-15 | Red Contexto Ltd. | Web page analysis system for computerized derivation of webpage audience characteristics |
CN103309862B (zh) * | 2012-03-07 | 2017-05-17 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
US9122992B2 (en) * | 2012-12-12 | 2015-09-01 | Lenovo (Singapore) Pte. Ltd. | Predicting web page |
US8972376B1 (en) * | 2013-01-02 | 2015-03-03 | Palo Alto Networks, Inc. | Optimized web domains classification based on progressive crawling with clustering |
CN104090931A (zh) * | 2014-06-25 | 2014-10-08 | 华南理工大学 | 一种基于网页链接参数分析的信息预测采集方法 |
-
2014
- 2014-06-25 CN CN201410290459.XA patent/CN104090931A/zh active Pending
- 2014-12-04 WO PCT/CN2014/093070 patent/WO2015196740A1/zh active Application Filing
- 2014-12-04 US US15/306,777 patent/US20170053031A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629282A (zh) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | 一种网址分类方法、装置及系统 |
CN103870486A (zh) * | 2012-12-13 | 2014-06-18 | 深圳市世纪光速信息技术有限公司 | 确定网页类型的方法和装置 |
Non-Patent Citations (2)
Title |
---|
崔安欣 等: "基于URL特征的动态页面聚类", 《中文信息处理国际会议》 * |
陈佳: "动态自适应的资源采集系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015196740A1 (zh) * | 2014-06-25 | 2015-12-30 | 华南理工大学 | 一种基于网页链接参数分析的信息预测采集方法 |
CN104408156B (zh) * | 2014-12-03 | 2017-12-22 | 北京国双科技有限公司 | 网站页面在搜索引擎中收录数量的检测方法和装置 |
CN104408156A (zh) * | 2014-12-03 | 2015-03-11 | 北京国双科技有限公司 | 网站页面在搜索引擎中收录数量的检测方法和装置 |
CN105163181A (zh) * | 2015-08-05 | 2015-12-16 | 中国科学院声学研究所 | 一种在线视频节目分类方法及其装置 |
CN105163181B (zh) * | 2015-08-05 | 2018-04-17 | 中国科学院声学研究所 | 一种在线视频节目分类方法及其装置 |
CN106570053A (zh) * | 2016-09-22 | 2017-04-19 | 山东浪潮云服务信息科技有限公司 | 一种网络数据采集验证方法 |
CN108574604A (zh) * | 2017-03-07 | 2018-09-25 | 北京京东尚科信息技术有限公司 | 测试方法和装置 |
CN107943838A (zh) * | 2017-10-30 | 2018-04-20 | 北京大数元科技发展有限公司 | 一种自动获取xpath生成爬虫脚本的方法及系统 |
CN107943838B (zh) * | 2017-10-30 | 2021-09-07 | 北京大数元科技发展有限公司 | 一种自动获取xpath生成爬虫脚本的方法及系统 |
CN109583211A (zh) * | 2018-10-11 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 网站聚类及漏洞扫描方法、装置、电子设备及存储介质 |
CN109583211B (zh) * | 2018-10-11 | 2023-03-07 | 创新先进技术有限公司 | 网站聚类及漏洞扫描方法、装置、电子设备及存储介质 |
CN114417200A (zh) * | 2022-01-04 | 2022-04-29 | 马上消费金融股份有限公司 | 网络数据的采集方法、装置及电子设备 |
CN115032493A (zh) * | 2022-07-15 | 2022-09-09 | 扬州晶新微电子有限公司 | 一种基于管芯参数显示的晶圆测试方法及系统 |
CN115032493B (zh) * | 2022-07-15 | 2023-10-13 | 扬州晶新微电子有限公司 | 一种基于管芯参数显示的晶圆测试方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2015196740A1 (zh) | 2015-12-30 |
US20170053031A1 (en) | 2017-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104090931A (zh) | 一种基于网页链接参数分析的信息预测采集方法 | |
CN103458042B (zh) | 一种微博广告用户检测方法 | |
CN102035698B (zh) | 基于决策树分类算法的http隧道检测方法 | |
CN105577679B (zh) | 一种基于特征选择与密度峰值聚类的异常流量检测方法 | |
CN106156127B (zh) | 选择数据内容向终端推送的方法及装置 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN103136358B (zh) | 一种自动抽取论坛数据的方法 | |
CN103530429B (zh) | 一种网页正文抽取的方法 | |
CN102122291A (zh) | 一种基于树形日志模式分析的博客好友推荐方法 | |
CN103268350A (zh) | 一种互联网舆情信息监测系统及监测方法 | |
CN104965905A (zh) | 一种网页分类的方法和装置 | |
JP2014502753A (ja) | ウェブページ情報の検出方法及びシステム | |
Kim et al. | Event diffusion patterns in social media | |
CN104750704A (zh) | 一种网页url地址分类识别方法及装置 | |
CN105512143A (zh) | 一种网页分类方法及装置 | |
CN104598536B (zh) | 一种分布式网络信息结构化处理方法 | |
CN105117436A (zh) | 网站频道自动挖掘方法 | |
CN109088903A (zh) | 一种基于流式的网络异常流量检测方法 | |
CN104216889B (zh) | 基于云服务的数据传播性分析预测方法及系统 | |
CN105808722A (zh) | 一种信息判别方法和系统 | |
CN103870495A (zh) | 用于从网站中提取信息的方法和装置 | |
CN104156458B (zh) | 一种信息的提取方法及装置 | |
CN103036848A (zh) | 协议的逆向工程方法及系统 | |
CN105589935A (zh) | 社交群组识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141008 |