CN101038596A - 一种网站分类方法及系统 - Google Patents

一种网站分类方法及系统 Download PDF

Info

Publication number
CN101038596A
CN101038596A CNA2007101030288A CN200710103028A CN101038596A CN 101038596 A CN101038596 A CN 101038596A CN A2007101030288 A CNA2007101030288 A CN A2007101030288A CN 200710103028 A CN200710103028 A CN 200710103028A CN 101038596 A CN101038596 A CN 101038596A
Authority
CN
China
Prior art keywords
website
search
speech
proper vector
search word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101030288A
Other languages
English (en)
Inventor
张阔
张智敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CNA2007101030288A priority Critical patent/CN101038596A/zh
Publication of CN101038596A publication Critical patent/CN101038596A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网站分类方法及系统,解决如何更准确、更快速地确定网站类别,实现精确分类的问题。所述方法包括:对每个网站建立特征向量,所述特征向量的每一维是不同的用户搜索词,每一维的值是相应搜索词的出现次数;根据所述特征向量集合,对网站进行分类。由于所述搜索词的出现次数是根据用户的点击次数统计,代表了用户对被点击网站与所述搜索词之间密切联系的认可,因此,所述搜索词相比网页中的普通词汇,更具代表性,更能帮助进行网站的分类,提高了网站分类的精度。而且,生成的特征向量非常短,在分类过程中可以有效提高分类效率。

Description

一种网站分类方法及系统
技术领域
本发明涉及信息分类技术,特别是涉及一种网站分类方法及系统。
背景技术
在提供搜索引擎服务的网站中,需要对其他多个网站进行分类,以便提供更加完善的服务。例如,可以对网站进行色情分类,分为黄色网站与正常网站;若某个网站被划分到黄色网站类别,就可以对所述网站采取进一步的措施。或者进行内容分类,分为军事网站、财经网站、新闻网站等等;所述网站的内容分类可以应用到基于类别的搜索引擎服务中。此外,在网站导航服务中,也需要对多个网站进行分类,将各个网站划分到最合适的类别中,为用户查询提供便利。
对于如何确定一个网站的类别,现有解决方案为:以网站内页面中出现的词元作为属性,通过机器学习或者基于规则的方式对网站进行分类。具体实现方法如下:
第一步,对一个需要确定类别的目标网站,收集所有得到的页面,将页面中的有效正文文本合并到同一个文档中,代表所述网站;
第二步,对所述文档进行分词等预处理,并根据分词结果以一个词元作为一个属性,基于传统的TF/IDF(term frequency/inverse document frequency,单文本词汇频率/逆文本频率)模型生成一个代表所述网站的特征向量;其中,向量的每一维是所述属性词,每一维的值是属性词出现的次数。
第三步,利用机器学习的方法或基于规则的方法,对每个网站向量进行分类处理,得到一个网站的类别。
上述实现方案能够将一个网站归到所属类别中,但存在以下缺点:
第一,网站向量中的属性词在对网站分类过程中的重要性,由在网站中出现的次数决定。因此,很多出现次数很多但是对于网站分类没有用处的词,会对分类的精度造成损害。例如,某网站频繁出现“飞机”一词,就有可能将该网站分到军事类别中,但所述网站应该属于新闻类,因此造成分类错误的问题。
第二,网站向量中包含所有出现的属性词,由于每个网站中出现过的词非常多,因此相对于每个网站的向量非常大。而且,向量中存在大量噪音词,一方面影响分类的准确性,一方面还影响分类的速度。其中,所述噪音词是指与网站内容无关,并影响网站分类的词汇。
由于上述原因,现有解决方案在分类的准确性和处理速度上还需有待提高。
发明内容
本发明所要解决的技术问题是提供一种网站分类方法及系统,以解决如何更准确、更快速地确定网站类别,实现精确分类的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:
一种网站分类方法,包括:
对每个网站建立特征向量,所述特征向量的每一维是不同的用户搜索词,每一维的值是相应搜索词的出现次数;
根据所述特征向量集合,对网站进行分类。
所述分类方法还包括:获取用户搜索词,以及对应每个搜索词的被点击页面的URL;根据所述URL,统计同一个网站中不同搜索词的出现次数。其中,获取时间段内的用户搜索词及相应的URL。
所述分类方法还包括:对每个网站,按照搜索词的出现次数进行搜索词排序,将排名在预定范围内的搜索词合并,并用于建立特征向量。
其中,根据所述特征向量集合,使用机器学习或基于规则设定的方法进行网站分类。
一种网站分类系统,包括:
向量生成单元,用于对每个网站建立特征向量,所述特征向量的每一维是不同的用户搜索词,每一维的值是相应搜索词的出现次数;
分类单元,用于根据所述特征向量集合,对网站进行分类。
所述分类系统还包括:日志收集单元,用于获取用户搜索词,以及对应每个搜索词的被点击页面的URL;统计单元,用于根据所述URL,统计同一个网站中不同搜索词的出现次数。其中,所述日志收集单元获取时间段内的用户搜索词及相应的URL。
所述分类系统还包括:排序合并单元,用于对每个网站,按照搜索词的出现次数进行搜索词排序,将排名在预定范围内的搜索词合并,为向量生成单元建立特征向量提供数据。
其中,所述分类单元使用机器学习或基于规则设定的方法进行网站分类。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明实施例采用的网站分类方法,通过分析搜索引擎日志信息,将用户在搜索引擎中输入的搜索词作为网站向量的属性词,将每个搜索词出现的次数作为向量值,来代表一个网站,然后根据向量进行分类处理。
一方面,用于分类的代表网站的向量词来源于用户的搜索词,并且搜索词出现次数以用户点击数统计,由于用户点击了该网站的页面,代表用户对该网站与所述搜索词之间密切联系的认可。因此,所述搜索词相比网页中的普通词汇,更具代表性,更能帮助进行网站的分类。
另一方面,现有解决方案将网页中所有的分词结果都作为向量属性词,而本发明实施例选取排名靠前的搜索词,因此用于分类的代表网站的向量相比非常短,在分类过程中可以有效提高分类效率。
综上,本发明实施例提供的方法能够准确识别网站类别,提高分类的精度,并能提高分类速度。
附图说明
图1是本发明实施例所述网站分类方法的步骤流程图;
图2是本发明实施例中同一个网站的日志统计结果示意图;
图3是本发明实施例所述词表文档示意图;
图4是本发明实施例所述一种网站分类系统结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例通过对搜索引擎的日志信息进行挖掘,提取出用户从搜索引擎进入一个网站的频繁查询词,并基于所述频繁查询词,通过自动化的过程完成对网站的分类。
参照图1,是本发明实施例所述网站分类方法的步骤流程图。
步骤101,获取用户查询词。所述查询词是用户在搜索引擎输入框中输入的文本信息,即前述的搜索词。可以通过多种途径获得用户查询词,但较常用、较简便的一种方法是通过分析搜索引擎日志信息获取。
在搜索引擎日志信息中,记录了用户的点击日志。所述用户点击日志是指:当用户输入一个查询词,点击搜索按键得到搜索结果列表后,用户点击每一条选中的搜索结果页面时,搜索引擎日志都会记录一条用户点击日志。其中,每条用户点击日志的格式为{搜索结果页面的URL,查询词},用l={p,q}表示,l为用户点击日志,p为搜索结果页面的URL,q为用户查询词。
所述URL称为统一资源定位符,用来指出网页所在位置及存取方式,因此也可以用URI(统一资源标识符)或其他方式标识网页地址。
收集所述用户点击日志信息,即可获得用户输入的查询词,以及在所述查询词下的被点击页面网址。在实际应用中,通常选取一个时间段内的用户点击日志来进行处理,得到某一个时间段所有用户的点击日志集合L。例如,用户输入查询词q为“专利”,在搜索结果页中用户点击了一条页面结果p为http://www.xxx.org/a.html的网页,则在日志集合L中添加一条用户查询点击日志记录l={p,q}={http://www.xxx.org/a.html,专利}。
步骤102,统计网站的查询词及相应的出现次数。由于每个页面属于唯一一个网站,而每个网站定义为具有相同域名的网页集合,所以根据搜索结果页面的URL,可以将URL信息中域名相同的网页归为同一个网站。然后,对每个网站,统计日志信息中出现的查询词,并统计每个查询词出现的次数。
例如,对每个网站s,找到一个日志集合Ls={1|1的页面URL属于网站s}。统计每个查询词q在日志集合Ls中出现的日志记录条数,假如共有三条记录{http://www.xxx.org/a.html,专利}、{http://www.xxx.org/b.html,专利}与{http://www.xxx.org/c.html,保护},则统计结果为:对于网站“http://www.xxx.org”的“专利”查询词的统计结果为2,“保护”查询词的统计结果为1,如图2所示。
步骤103,将同一个网站的查询词合并,形成一个查询词集合,代表相应网站。本发明优选的,在合并前先对查询词进行排序处理,根据上述每个查询词的出现次数,按照从大到小的顺序排列查询词。排序的主要目的是可以截取出排名靠前的查询词用于分类,因为点击次数多的查询词比用户很少点击的查询词,更能准确反映网站内容,代表这个网站。例如一个查询词有三次查询点击记录,另一个查询词只有一次点击记录,则第一个词更为重要。
针对上例,对于每个网站s,按查询词出现次数,从大到小对查询词进行排序,并合并排名前200的查询词,生成一个代表s网站的词表文档ds。参照图3,是所有网站的词表文档示意图。其中每个网站的查询词个数200,是根据试验结果分析得出,如果查询词太多,容易产生噪声词;如果太少,又不能准确地反映网站内容。
步骤104,根据所述查询词集合生成特征向量。对于每个网站的词表文档ds,生成一个特征向量vs,向量中每一维代表一个查询词,而每一维的值为所述查询词的统计次数。
生成向量的过程是:先统计在所有词表文档中出现过的所有查询词,并为每个词分配向量的一维;然后对于每个文档(即每个网站)的向量,如果包含其中一个查询词,就在这个查询词对应的维度设置一个值,所述向量值即为统计出来的出现次数。
每个网站向量中查询词的数量多少,直接影响分类的准确性和速度,但采用上述方法生成的向量,仅包含重要的查询词,因此向量变短,可以有效提高后续的分类效率。
步骤105,利用所述网站向量进行网站分类处理。分类方法有多种,可以使用机器学习或者人为设定规则等方法,确定网站的类别,并将所述网站归类到合适的类别中。若使用机器学习方法,则需要手工标注一系列网站的类别作为训练数据,然后利用某种机器学习方法,如支持向量机、决策树、简单贝叶斯等,进行对网站的分类操作。若使用基于规则的方法,则需要人工定义一些规则对网站进行分类,例如,向量中同时包含“战斗机”和“坦克”查询字的网站为军事类网站。
一种分类效果较好的方法是使用 Bayes(简单贝叶斯)分类法,所述分类法计算出每个维度不同取值下对于不同分类类别的概率,然后利用所有维度的取值计算出一个整体的属于某一个类别的概率,然后将概率最高的类别作为分类类别。
通过上述五个步骤的描述,可以将一个网站准确地划分到合适的类别中。因为每个网站向量中用于分类的查询词,其相应的出现次数代表用户对该网站与所述查询词之间密切联系的认可,所以将用户在搜索引擎输入的查询词作为特征向量,能够更准确地代表这个网站。
上述过程中,步骤101和102是准备步骤,是从搜索引擎日志信息中获取用户点击日志,当然,也可以通过其他途径来收集生成网站向量所需的用户查询词和相应的出现次数。
针对上述网站分类方法实施例,本发明另一实施例还提供了一种实现所述方法的系统。参照图4,是所述网站分类系统结构图,包括日志收集单元401、统计单元402、排序合并单元403、向量生成单元404和分类单元405。
日志收集单元401用于收集用户点击日志,为向量生成单元404提供向量生成的数据基础。所述日志收集单元401通过分析搜索引擎日志信息,得到某一个时间段内所有用户的点击日志集合,其中,每条用户点击日志的格式为{搜索结果页面的URL,查询词}。
统计单元402以所述日志收集单元401的收集结果作为数据输入,用于对所述点击日志集合进行统计处理。根据搜索结果页面的URL,得到属于同一个网站的所有点击日志信息;然后对每个网站,分别统计日志信息中出现查询词,并统计每个查询词的出现次数,即用户输入查询词后点击搜索结果页面的次数。
排序合并单元403用于对统计单元402的统计结果进行排序和合并处理。为得到能够准确代表一个网站内容的查询词,避免噪音词或对分类没有用处的词的出现,先对每个网站所有出现的查询词,按照相应统计次数的大小排序;然后将出现次数多的查询词合并,形成包含一定数量(如前200个)的查询词集合。
向量生成单元404用于根据所述查询词集合生成对应每个网站的特征向量,具体生成过程如前所述,在此不再详述。其中,向量的每一维度是一个查询词,每个维度的值是相应查询词的出现次数。所述向量生成单元404生成的向量包含的查询词数量较少,因此向量较短,提高了分类过程中的数据处理效率。
分类单元405用于根据所述向量生成单元404中各个网站的特征向量,采用机器学习或者人为设定规则等方法,完成网站分类。分类单元405可以采用多种分类方法,具体说明如前所述,但分类基于的网站向量需要包含用户查询词以及相应的出现次数。
上述日志收集单元401和统计单元402的数据处理,是为后续处理单元做准备,为向量生成单元404提供所需的用户查询词和相应的出现次数。各个单元的处理流程是:日志收集单元401收集到用户点击日志后传输给统计单元402,进行对应每个网站的查询词统计和每个查询词的点击次数统计,然后由排序合并单元403对查询词按照所述统计次数大小进行排序,并合并排名靠前的查询词,向量生成单元404根据合并后的查询词集合生成特征向量,为分类单元405提供分类处理的数据基础。所述系统可以准确地识别网站类别,实现网站地快速、精确分类。
图4所示系统中未详述的部分可以参见图1所示方法的相关部分,为了篇幅考虑,在此不再详述。
以上对本发明所提供的一种网站分类方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1、一种网站分类方法,其特征在于,包括:
对每个网站建立特征向量,所述特征向量的每一维是不同的用户搜索词,每一维的值是相应搜索词的出现次数;
根据所述特征向量集合,对网站进行分类。
2、根据权利要求1所述的方法,其特征在于,还包括:
获取用户搜索词,以及对应每个搜索词的被点击页面的URL;
根据所述URL,统计同一个网站中不同搜索词的出现次数。
3、根据权利要求2所述的方法,其特征在于,还包括:
对每个网站,按照搜索词的出现次数进行搜索词排序,将排名在预定范围内的搜索词合并,并用于建立特征向量。
4、根据权利要求2所述的方法,其特征在于:获取时间段内的用户搜索词及相应的URL。
5、根据权利要求1所述的方法,其特征在于:根据所述特征向量集合,使用机器学习或基于规则设定的方法进行网站分类。
6、一种网站分类系统,其特征在于,包括:
向量生成单元,用于对每个网站建立特征向量,所述特征向量的每一维是不同的用户搜索词,每一维的值是相应搜索词的出现次数;
分类单元,用于根据所述特征向量集合,对网站进行分类。
7、根据权利要求6所述的系统,其特征在于,还包括:
日志收集单元,用于获取用户搜索词,以及对应每个搜索词的被点击页面的URL;
统计单元,用于根据所述URL,统计同一个网站中不同搜索词的出现次数。
8、根据权利要求7所述的系统,其特征在于,还包括:排序合并单元,用于对每个网站,按照搜索词的出现次数进行搜索词排序,将排名在预定范围内的搜索词合并,为向量生成单元建立特征向量提供数据。
9、根据权利要求7所述的系统,其特征在于:所述日志收集单元获取时间段内的用户搜索词及相应的URL。
10、根据权利要求6所述的系统,其特征在于:所述分类单元使用机器学习或基于规则设定的方法进行网站分类。
CNA2007101030288A 2007-04-29 2007-04-29 一种网站分类方法及系统 Pending CN101038596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101030288A CN101038596A (zh) 2007-04-29 2007-04-29 一种网站分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101030288A CN101038596A (zh) 2007-04-29 2007-04-29 一种网站分类方法及系统

Publications (1)

Publication Number Publication Date
CN101038596A true CN101038596A (zh) 2007-09-19

Family

ID=38889495

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101030288A Pending CN101038596A (zh) 2007-04-29 2007-04-29 一种网站分类方法及系统

Country Status (1)

Country Link
CN (1) CN101038596A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004560A (zh) * 2010-12-01 2011-04-06 哈尔滨工业大学 语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN101211368B (zh) * 2007-12-25 2011-08-03 北京搜狗科技发展有限公司 一种对查询词分类的方法、装置及搜索引擎系统
CN101383730B (zh) * 2008-10-30 2012-01-25 北京搜狗科技发展有限公司 确定权威网站的方法及装置
CN102737038A (zh) * 2011-04-07 2012-10-17 阿里巴巴集团控股有限公司 关联度确定方法及装置、信息提供方法及装置
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN103123653A (zh) * 2013-03-15 2013-05-29 山东浪潮齐鲁软件产业股份有限公司 基于贝叶斯分类学习的搜索引擎检索排序方法
CN103559313A (zh) * 2013-11-20 2014-02-05 北京奇虎科技有限公司 搜索方法及装置
CN103678400A (zh) * 2012-09-21 2014-03-26 腾讯科技(深圳)有限公司 基于群体搜索行为的网页分类方法及装置
CN103678422A (zh) * 2012-09-25 2014-03-26 北京亿赞普网络技术有限公司 网页分类方法和装置、网页分类器的训练方法和装置
CN104765835A (zh) * 2015-04-14 2015-07-08 无锡天脉聚源传媒科技有限公司 一种搜索词的搜索方法及装置
CN105162822A (zh) * 2015-06-30 2015-12-16 浪潮(北京)电子信息产业有限公司 一种网站日志数据处理方法及装置
CN105335449A (zh) * 2014-08-15 2016-02-17 北京奇虎科技有限公司 基于搜索引擎数据库的样本自动挖掘方法及装置
CN106649384A (zh) * 2015-11-03 2017-05-10 中国电信股份有限公司 对url进行分类的方法和装置
CN109257369A (zh) * 2018-10-22 2019-01-22 杭州安恒信息技术股份有限公司 一种基于机器学习的扫描ip分类方法及装置
CN110020206A (zh) * 2019-04-12 2019-07-16 北京搜狗科技发展有限公司 一种搜索结果排序方法及装置
CN110633446A (zh) * 2019-11-25 2019-12-31 湖南蚁坊软件股份有限公司 网页栏目识别模型训练方法、使用方法、装置和存储介质
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211368B (zh) * 2007-12-25 2011-08-03 北京搜狗科技发展有限公司 一种对查询词分类的方法、装置及搜索引擎系统
CN101383730B (zh) * 2008-10-30 2012-01-25 北京搜狗科技发展有限公司 确定权威网站的方法及装置
CN102004560A (zh) * 2010-12-01 2011-04-06 哈尔滨工业大学 语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统
CN102004560B (zh) * 2010-12-01 2013-07-24 哈尔滨工业大学 语句级汉字输入方法中的用户词识别方法与机器学习系统
CN102033955B (zh) * 2010-12-24 2012-12-05 常华 扩展用户搜索结果的方法及服务器
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102737038A (zh) * 2011-04-07 2012-10-17 阿里巴巴集团控股有限公司 关联度确定方法及装置、信息提供方法及装置
CN102737038B (zh) * 2011-04-07 2015-09-23 阿里巴巴集团控股有限公司 关联度确定方法及装置、信息提供方法及装置
CN103020067B (zh) * 2011-09-21 2016-07-13 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN103678400A (zh) * 2012-09-21 2014-03-26 腾讯科技(深圳)有限公司 基于群体搜索行为的网页分类方法及装置
CN103678400B (zh) * 2012-09-21 2017-12-01 腾讯科技(深圳)有限公司 基于群体搜索行为的网页分类方法及装置
CN103678422A (zh) * 2012-09-25 2014-03-26 北京亿赞普网络技术有限公司 网页分类方法和装置、网页分类器的训练方法和装置
CN103123653A (zh) * 2013-03-15 2013-05-29 山东浪潮齐鲁软件产业股份有限公司 基于贝叶斯分类学习的搜索引擎检索排序方法
CN103559313A (zh) * 2013-11-20 2014-02-05 北京奇虎科技有限公司 搜索方法及装置
CN103559313B (zh) * 2013-11-20 2018-02-23 北京奇虎科技有限公司 搜索方法及装置
CN105335449B (zh) * 2014-08-15 2019-03-01 北京奇虎科技有限公司 基于搜索引擎数据库的样本自动挖掘方法及装置
CN105335449A (zh) * 2014-08-15 2016-02-17 北京奇虎科技有限公司 基于搜索引擎数据库的样本自动挖掘方法及装置
CN104765835A (zh) * 2015-04-14 2015-07-08 无锡天脉聚源传媒科技有限公司 一种搜索词的搜索方法及装置
CN105162822A (zh) * 2015-06-30 2015-12-16 浪潮(北京)电子信息产业有限公司 一种网站日志数据处理方法及装置
CN106649384A (zh) * 2015-11-03 2017-05-10 中国电信股份有限公司 对url进行分类的方法和装置
CN106649384B (zh) * 2015-11-03 2019-07-09 中国电信股份有限公司 对url进行分类的方法和装置
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN110889050B (zh) * 2018-09-07 2024-07-30 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN109257369A (zh) * 2018-10-22 2019-01-22 杭州安恒信息技术股份有限公司 一种基于机器学习的扫描ip分类方法及装置
CN110020206A (zh) * 2019-04-12 2019-07-16 北京搜狗科技发展有限公司 一种搜索结果排序方法及装置
CN110633446A (zh) * 2019-11-25 2019-12-31 湖南蚁坊软件股份有限公司 网页栏目识别模型训练方法、使用方法、装置和存储介质
CN110633446B (zh) * 2019-11-25 2020-03-13 湖南蚁坊软件股份有限公司 网页栏目识别模型训练方法、使用方法、装置和存储介质

Similar Documents

Publication Publication Date Title
CN101038596A (zh) 一种网站分类方法及系统
CN103164427B (zh) 新闻聚合方法及装置
Chakrabarti et al. Page-level template detection via isotonic smoothing
CN102567494B (zh) 网站分类方法及装置
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN101814083A (zh) 网页自动分类方法和系统
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN101079056A (zh) 一种搜索方法和系统
US20070294252A1 (en) Identifying a web page as belonging to a blog
WO2008134172A1 (en) Web spam page classification using query-dependent data
CN101963965B (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN110543595B (zh) 一种站内搜索系统及方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN101079062A (zh) 一种网页重要性评价方法及系统
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN101046820A (zh) 在web爬取过程期间给网站排优先级的系统和方法
CN1858733A (zh) 信息检索系统和检索方法
CN1609859A (zh) 搜索结果聚类的方法
CN105512143A (zh) 一种网页分类方法及装置
CN1791022A (zh) 一种日志分析方法和系统
CN104572720B (zh) 一种网页信息排重的方法、装置及计算机可读存储介质
CN102117339A (zh) 针对不安全网页文本的过滤监管方法
CN103246644A (zh) 一种网络舆情信息处理方法和装置
CN101630315B (zh) 一种快速检索方法及系统
Mehta et al. DOM tree based approach for web content extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20070919