CN105574047A - 一种基于网站主页特征分析的中文网站分类方法和系统 - Google Patents

一种基于网站主页特征分析的中文网站分类方法和系统 Download PDF

Info

Publication number
CN105574047A
CN105574047A CN201410555450.7A CN201410555450A CN105574047A CN 105574047 A CN105574047 A CN 105574047A CN 201410555450 A CN201410555450 A CN 201410555450A CN 105574047 A CN105574047 A CN 105574047A
Authority
CN
China
Prior art keywords
website
crawled
module
content
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410555450.7A
Other languages
English (en)
Inventor
唐新民
蔡毅
蔡智威
沈智杰
景晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SURFILTER NETWORK TECHNOLOGY Co Ltd
South China University of Technology SCUT
Original Assignee
SURFILTER NETWORK TECHNOLOGY Co Ltd
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SURFILTER NETWORK TECHNOLOGY Co Ltd, South China University of Technology SCUT filed Critical SURFILTER NETWORK TECHNOLOGY Co Ltd
Priority to CN201410555450.7A priority Critical patent/CN105574047A/zh
Priority to PCT/CN2014/094220 priority patent/WO2016058267A1/zh
Priority to US15/325,083 priority patent/US20170185680A1/en
Publication of CN105574047A publication Critical patent/CN105574047A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/561Adding application-functional data or data for application control, e.g. adding metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于网站主页特征分析的中文网站分类方法和系统,具体包括以下步骤:S1.爬取网站内容;S2.标记网站类别;S3.提取网站信息;S4.计算权重并以特征向量的形式表示;S5.通过特征向量的对比对网站进行分类。使用所述的基于网站主页特征分析的中文网站分类方法和系统可以实现只提取网站的标题和元信息来最大程度减少噪音的干扰;通过预处理和特征向量表示将网站的特征准确地用向量表示出来,从而提高分类准确率;因为只要处理网站的标题和元信息,要处理的数据量小,处理速度快。

Description

一种基于网站主页特征分析的中文网站分类方法和系统
技术领域
本发明涉及互联网技术,更具体地说,涉及一种基于网站主页特征分析的中文网站分类方法和系统。
背景技术
随着互联网的相关技术的成熟与发展,网络信息成爆炸性增长,一方面这满足了用户对信息的需求,另一方面也导致了信息的整理和政府部门对网络的监管难度加大。网站分类技术是解决这些问题的核心技术。
现有技术中网站分类方法主要是采用对网站中的首页和子级页面的正文进行文本分类的方式来实现,其主要实现过程为:首先从网页中提取正文,然后对网页的正文进行文本分类处理,得到的分类类别即为该网页的分类类别。但是这些方法容易受到网站中一些噪音的干扰,对一些质量较差的网站难以达到令人满意的效果。
发明内容
本发明要解决的技术问题在于,克服现有技术的上述缺陷,提供一种基于网站主页特征分析的中文网站分类方法和系统,可以降低分类过程中噪音的干扰,提高分类的准确率,加快处理速度。
本发明解决其技术问题所采用的技术方案是:提供一种基于网站主页特征分析的中文网站分类方法,包括以下步骤:
S1、爬取一个至多个网站并提取所述网站的内容;
S2、选取预设数量的所述被爬取的网站进行人工分类并标记网站类别;
S3、对所有的所述被爬取的网站的首页进行解析以提取其中的标题和元信息;所述的元信息包括关键词和描述;
S4、将所述标题和元信息进行预处理,计算出其权重,并根据以特征向量的形式表示所述标题和元信息;
S5、根据所有的所述特征向量与所述进行人工分类并标记网站的特征向量进行对比从而将所述网站进行分类。
优选地,所述的步骤S1包括:
S11、选取多个网站,并将所选取的网站按顺序放入待爬取队列中;
S12、按照所述顺序依次爬取被选取网站的内容;
S13、将被爬取的网站中的全部链接提取出来,把其中未爬取的网站放入待爬取的网站的队列中;
S14、判断被爬取的网站的数量是否达到预设值或者待爬取的网站的列队是否为空,若被爬取的网站的数量没有达到预设值或待爬取的网站的列队不为空,则转至步骤S12;若被爬取的网站的数量达到预设值或待爬取的网站的列队为空,则转至步骤S2。
优选地,所述的步骤S2包括:
S21、随机选取一个未标记的网站;
S22、人工标记被选取的网站的类别;
S23、判断被标记网站数量是否达到预设值,若未达到所述预设值则转至步骤S21;若达到所述预设值,则进入步骤S3。
优选地,所述的步骤S3包括:
S31、检测所有的所述被爬取的网站字符的编码格式,对所有的所述被爬取的网站的内容进行解码;
S32、读取所有的所述被爬取的网站的首页的超文本标记语言内容,并解析为文件对象模型;
S33、从所述文件对象模型中提取标题的文本内容以及元数据中的关键字和描述中的文本内容;
S34、将标题的文本内容以及所述元数据中的关键字和所述描述中的文本内容以空格间隔并排列为一整体文本。
优选地,所述的步骤S4包括:
S41、依据所述整体文本得到多个分词;
S42、计算多个所述分词的特征权重;
S43、依据所述特征权重将所述整体文本表示为特征向量。
优选地,步骤S42中采用词的TFIDF值作为特征权重;其中TFIDF值的计算公式为:
TFIDF(w)=TF(w)*IDF(w)
其中TF(w)的值为w的所有被爬取网站的特征权重中的出现次数,
IDF ( w ) = log ( total occur ( w ) )
其中total为所有被爬取网站的特征权重的数量,occur(w)的值为包含有w的被爬取网站的特征权重的数量。
优选地,S43中所述特征向量为(t1:w1,...,ti:wi,...,tn:wn),其中t1,…,ti,…,tn为所述整体文本中得到的所述分词,n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重,i为1到n中的任一整数。
优选地,所述步骤S5采用的是K近邻算法。
本发明还公开了一种基于网站主页特征分析的中文网站分类系统,包括用于爬取一个至多个网站并提取所述网站的内容的网站获取模块,用于人工标记网站类别的标记模块,用于对所述网站的首页进行解析,并提取其中的标题和元信息的信息提取模块,处理模块和用于将所述网站进行分类的分类模块50;
所述网站获取模块爬取一个至多个网站并提取所述网站的内容,并将所述网站的内容发送至所述标记模块和所述信息提取模块;
所述标记模块选取预设数量的所述被爬取的网站进行人工分类并标记网站类别;
所述信息提取模块对所有的所述被爬取的网站的首页进行解析以提取其中的标题和元信息;所述的元信息包括关键词和描述;并将所述标题和元信息发送至所述处理模块;
所述处理模块将所述标题和元信息进行预处理,计算出其权重,并根据以特征向量的形式表示所述标题和元信息;并将所述特征向量发送至所述分类模块;
所述分类模块根据所有的所述特征向量与所述进行人工分类并标记网站的特征向量进行对比从而将所述网站进行分类。
优选地,所述处理模块包括预处理模块和向量表示模块;
所述网站获取模块选取多个网站,并将所选取的网站按顺序放入待爬取队列中;按照所述顺序依次爬取被选取网站的内容;将被爬取的网站中的全部链接提取出来,把其中未爬取的网站放入待爬取的网站的队列中;判断网站数量是否达到预设值或者列队是否为空,若网站数量没有达到预设值或列队不为空,则依次重复提取网站链接和爬取网站,直至网站数量达到预设值或者列表为空;如果网站数量达到预设值或列队为空,则停止爬取;所述网站获取模块将爬取的网站发送至所述标记模块和所述信息提取模块;
所述标记模块接收到所述站获取模块爬取到的网站后,随机选取一个未标记的网站;人工标记被选取的网站的类别;然后所述标记模块判断被标记网站数量是否达到预设值,若未达到所述预设值则依次重复随机选取一个未标记的网站并人工标记被选取的网站的类别直至被标记网站数量达到预设值;如果达到预设值则停止标记;所述标记模块将网站的类别发送至所述分类模块;
所述信息提取模块接收到所述站获取模块爬取到的网站后先检测所有的所述被爬取的网站字符的编码格式,对所有的所述被爬取的网站的内容进行解码;再读取所有的所述被爬取的网站的首页的超文本标记语言内容,并解析为文件对象模型;然后从所述文件对象模型中提取标题的文本内容以及元数据中的关键字和描述中的文本内容;标题的文本内容以及所述元数据中的关键字和所述描述中的文本内容以空格间隔并排列为一整体文本;最后将所述整体文本发送至处理模块;
所述处理模块接受到所述整体文本后依据所述整体文本得到多个分词;并计算多个所述分词的特征权重;再依据所述特征权重将所述整体文本表示为特征向量;并将所述特征向量发送至所述分类模块;
其中,所述预处理模块用于将所述信息提取模块发送的整体文本进行分词;并计算分词的特征权重;所述预处理模块中采用词的TFIDF值作为特征权重;并将所述特征权重发送至向量表示模块;其中TFIDF计算公式为:
TFIDF(w)=TF(w)*IDF(w)
其中TF(w)的值为w的所有被爬取网站的特征权重中的出现次数,
IDF ( w ) = log ( total occur ( w ) )
其中total为所有被爬取网站的特征权重的数量,occur(w)的值为包含有w的被爬取网站的特征权重的数量。
所述向量表示模块将所述预处理模块发送的所述的特征向量表示为如下形式:(t1:w1,...,ti:wi,...,tn:wn),其中t1,…,ti,…,tn为所述整体文本中得到的所述分词,n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重,i为1到n中的任一整数;
所述分类模块在接收到所述标记模块发送的网站的类别和所述处理模块发送的所述特征向量后,通过需要分类的特征向量与人工标记好的网站的特征向量之间的对比对所述被爬取的网站进行分类。
实施本发明具有以下有益效果:只提取网站的标题和元信息来最大程度减少噪音的干扰;通过预处理和特征向量表示将网站的特征准确地用向量表示出来,从而提高分类准确率;因为只要处理网站的标题和元信息,要处理的数据量小,处理速度快。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明基于网站主页特征分析的中文网站分类方法的流程图;
图2是图1中网站获取的流程图;
图3是图1中标记网站类别的流程图;
图4是图1中网站信息提取的流程图;
图5是图1中网站处理的流程图;
图6是图1中网站分类的流程图;
图7是本发明基于网站主页特征分析的中文网站分类系统的方框图。
具体实施方式
本发明针对基于网站主页特征抽取及其权重设置的中文网站噪音多,信息质量良莠不齐的问题,提供了一种基于网站主页特征分析的中文网站分类方法和系统;只提取网站的标题和元信息来最大程度减少噪音的干扰;通过预处理和特征向量表示将网站的特征准确地用向量表示出来,从而提高分类准确率;因为只要处理网站的标题和元信息,要处理的数据量小,处理速度快。
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
如图1所示,图1是本发明基于网站主页特征分析的中文网站分类方法的流程图。图中涉及一种基于网站主页特征分析的中文网站分类方法,具体包括以下步骤:
S1、通过网络爬虫技术,根据网站之间的相互链接关系,以宽度优化搜索的方式从少数网站出发,发现更多的网站,并将网站中的页面保存至本地中,进而从而爬取一个至多个网站,并提取被爬取的网站的内容;对于需要大型搜索引擎而言,可以采用分布式的爬虫服务器爬取所需的网站,对于轻量级的搜索引擎,则可以采用单台爬虫计算机实现爬取所需的网站;
S2、选取预设数量的被爬取的网站进行人工分类并标记网站类别;可以采用随机的方式或者主动学习的方式从所有被爬取网站中选择最具信息量的网站进行标记,从而达到标记较少的网站达到较优的准确率的效果。;
S3、对所有的被爬取的网站的首页进行解析以便程序自动识别标题内的文字内容和元信息中内的内容,并提取其中的标题和元信息;元信息包括关键词和描述;
S4、将标题和元信息进行预处理,即对标题和元信息的文本进行分词和去停词等处理;计算出预处理后文本中各种词的权重,并根据计算出的权重以特征向量的形式表示所述标题和元信息;
S5、通过所有的被爬取的网站形成的特征向量与进行了人工分类并标记网站形成的特征向量进行对比和比较来判断被爬取网站的类型,从而将被爬取的网站进行分类。
如图2所示,本实施例中,图2是图1中网站获取的流程图;网站获取的步骤S1具体包括以下步骤:
S11、从被爬取的网站中随机选取或人工选取一个网站,并将所选网站放入待爬取队列中;也可以从被爬取网站中随机选取或人工选取多个网站,并将所选网站同时放入爬取队列中,并依次排列;
S12、按照爬取队列中的顺序,取出一个网站,爬取这个网站的首页及它里面的二级、三级页面;
S13、将被爬取的网站中的全部页面中包含的全部链接提取出来,把其中未被爬取的网站依次放入待爬取的队列之中;
S14、判断被爬取的网站的数量是否达到预设值或者待爬取的网站的列队是否为空,若被爬取的网站的数量没有达到预设值或待爬取的网站的列队不为空,则转至步骤S12;若被爬取的网站的数量达到预设值或待爬取的网站的列队为空,则转至步骤S2。
如图3所示,本实施例中,图3是图1中标记网站类别的流程图;标记网站类别的步骤S2具体包括以下步骤:
S21、随机从所有的被爬取的网站中选取一个被标记的网站;
S22、打开选择的网站,有人工选择这个网站对应的类别;
S23、判断被标记网站数量是否达到预设值,若未达到所述预设值则转至步骤S21;若达到所述预设值,则进入步骤S3。
如图4所示,本实施例中,图4是图1中网站信息提取的流程图;网站信息提取的步骤S3具体包括以下步骤:
S31、检测所有的所述被爬取的网站字符的编码格式,对所有的所述被爬取的网站的内容进行解码;
S32、读取所有的被爬取的网站的首页的超文本标记语言内容,并解析为文件对象模型;
S33、从所述文件对象模型中提取标题的文本内容以及元数据中的关键字和描述中的文本内容;
S34、将标题的文本内容以及元数据中的关键字和描述中的文本内容以空格间隔并排列为一整体文本。
例如,www.machine.com的首页的超文本标记语言内容的每一个模块都是有不同的标签隔开标记出来的,例如网页标题(title)的内容是:<title>上海市机械工程公司</title>。则程序将自动识别标签<title>至标签</title>以内的文字内容,提取以下文字“上海市机械公司”,并提取出变元数据(meta)包括描述(description)中的“上海市有名的机械公司,上海市机械公司首页”和关键词(keywords)”机械上海”形成,最后以空格连接,得到“上海市机械公司上海市有名的机械公司,上海市机械公司首页机械上海”这样一段文本。
如图5所示,本实施例中,图5是图1中网站处理的流程图;网站信息提取的步骤S4具体包括以下步骤:
S41、依据整体文本得到多个分词,使用分词器将所要分类的整体文本分成易于处理的单个词项,每一个词项作为此算法中处理的最小单元,然后根据中文停词表,把表中这些对文本分类没有意义的词项去掉;
如示例,对步骤S3得到的整体文本进行预处理后得到“上海市机械公司上海市有名的机械公司上海市机械公司首页机械上海”这样一段文本。
S42、计算多个所述分词的特征权重;
S43、依据所述特征权重将所述整体文本表示为特征向量。
本实施例中,采用词的TFIDF(termfrequency-inversedocumentfrequency词频-逆向文件频率)值作为特征权重,但是任何类似的特征权重计算方法都适用于本发明,均在本发明的保护范围之内;
其中TFIDF值的计算公式为:
TFIDF(w)=TF(w)*IDF(w)
其中TF(w)的值为w的所有被爬取网站的特征权重中的出现次数,
IDF ( w ) = log ( total occur ( w ) )
其中total为所有被爬取网站的特征权重的数量,occur(w)的值为包含有w的被爬取网站的特征权重的数量。
如示例,“机械”一词在步骤S3得到的文本中共出现了4次,故TF(w)=4,在所有的10万个网站中出现了8453次;
故IDF(w)=log(100000/8453)=2.4706。所以“机械”一词的权重为TFIDF(机械)=4*2.4706=9.8824。
进一步地,计算出多个分词的特征权重后,即可依据特征权重将整体文本表示为特征向量,特征向量的形式为(t1:w1,...,ti:wi,...,tn:wn),其中t1,…,ti,…,tn为所述整体文本中得到的所述分词,n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重,i为1到n中的任一整数。如示例,按上述步骤算出每一个词的权重后,得到这样一个向量(上海市:1.2384,有名的:0.8763,机械:9.8824,公司:1.5783,首页:0.1657)
如图6所示,本实施例中,图6是图1中网站分类的流程图;网站信息提取的步骤S5采用的是K近邻算法,具体包括以下步骤:
S51、比较需要被分类的特征向量与人工分类并标记的网站的特征向量之间的相似度;
S52、选取相似度最高的K个特征向量;
S53、根据选取的K个特征向量的类别和相似度进行投票;
S54、将类别相同的特征向量的票数进行累加,最终票数最高的类别作为分类最终的类别。
如示例,若取K为3,与“上海机械公司”计算出最相似的3个网站标题为“广东机械公司”,“长沙机械公司”,“上海物流公司”,其中前两个人工标记为机械类,第三个人工标记为物流类,最后投票结果为机械类两票,物流类一票,故最终分类结果为机械类。
最终,根据被爬取网站中提取的整体文本的类别作为网站分类的最终类别。
采用本发明提供的一种基于网站主页特征分析的中文网站分类方法,可以实现只提取网站的标题和元信息来最大程度减少噪音的干扰;通过预处理和特征向量表示将网站的特征准确地用向量表示出来,从而提高分类准确率;因为只要处理网站的标题和元信息,要处理的数据量小,处理速度快。
如图7所示,图7是本发明基于网站主页特征分析的中文网站分类系统的方框图。图中涉及一种基于网站主页特征分析的中文网站分类系统,包括用于爬取一个至多个网站并提取所述网站的内容的网站获取模块(10),用于人工标记网站类别的标记模块(20),用于对所述网站的首页进行解析,并提取其中的标题和元信息的信息提取模块(30),处理模块(40)和用于将所述网站进行分类的分类模块(50);处理模块(40)包括预处理模块(401)和向量表示模块(402);
网站获取模块(10)通过网络爬虫技术根据网站之间的相互链接关系,以宽度优化搜索的方式从少数网站出发,发现更多的网站,并将网站中的页面保存至本地中,进而爬取一个至多个网站并提取所述网站的内容,网站获取模块(10)选取一个或多个网站,并将所选取的网站按顺序放入待爬取队列中;按照所述顺序依次爬取被选取网站的内容;将被爬取的网站中的全部链接提取出来,把其中未爬取的网站放入待爬取的网站的队列中;判断网站数量是否达到预设值或者列队是否为空,若网站数量没有达到预设值或列队不为空,则依次重复提取网站链接和爬取网站,直至网站数量达到预设值或者列表为空;如果网站数量达到预设值或列队为空,则停止爬取;所述网站获取模块(10)将爬取的网站发送至所述标记模块(20)和所述信息提取模块(30);
所述标记模块(20)接收到所述站获取模块(10)爬取到的网站后,随机选取一个未标记的网站;人工标记被选取的网站的类别;然后所述标记模块(20)判断被标记网站数量是否达到预设值,若未达到所述预设值则依次重复随机选取一个未标记的网站并人工标记被选取的网站的类别直至被标记网站数量达到预设值;如果达到预设值则停止标记;所述标记模块(20)将网站的类别发送至所述分类模块(50);
所述信息提取模块(30)接收到所述站获取模块(10)爬取到的网站后先检测所有的所述被爬取的网站字符的编码格式,对所有的所述被爬取的网站的内容进行解码;再读取所有的所述被爬取的网站的首页的超文本标记语言内容,并解析为文件对象模型;然后从所述文件对象模型中提取标题的文本内容以及元数据中的关键字和描述中的文本内容;标题的文本内容以及所述元数据中的关键字和所述描述中的文本内容以空格间隔并排列为一整体文本;最后将所述整体文本发送至处理模块(40);
所述处理模块(40)接受到所述整体文本后依据所述整体文本得到多个分词;并计算多个所述分词的特征权重;再依据所述特征权重将所述整体文本表示为特征向量;并将所述特征向量发送至所述分类模块(50);
其中,所述预处理模块(401)用于将所述信息提取模块(30)发送的整体文本进行分词;并计算分词的特征权重;所述预处理模块(401)中采用词的TFIDF值作为特征权重;并将所述特征权重发送至向量表示模块(402);其中TFIDF计算公式为:
TFIDF(w)=TF(w)*IDF(w)
其中TF(w)的值为w的所有被爬取网站的特征权重中的出现次数,
IDF ( w ) = log ( total occur ( w ) )
其中total为所有被爬取网站的特征权重的数量,occur(w)的值为包含有w的被爬取网站的特征权重的数量。
所述向量表示模块(402)将所述预处理模块(401)发送的所述的特征向量表示为如下形式:(t1:w1,...,ti:wi,...,tn:wn),其中t1,…,ti,…,tn为所述整体文本中得到的所述分词,n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重,i为1到n中的任一整数;
所述分类模块(50)在接收到所述标记模块(20)发送的网站的类别和所述处理模块(40)发送的所述特征向量后,通过需要分类的特征向量与人工标记好的网站的特征向量之间的对比对所述被爬取的网站进行分类。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种基于网站主页特征分析的中文网站分类方法,其特征在于,包括以下步骤:
S1、爬取一个至多个网站并提取所述网站的内容;
S2、选取预设数量的所述被爬取的网站进行人工分类并标记网站类别;
S3、对所有的所述被爬取的网站的首页进行解析以提取其中的标题和元信息;所述的元信息包括关键词和描述;
S4、将所述标题和元信息进行预处理,计算出其权重,并根据所述权重以特征向量的形式表示所述标题和元信息;
S5、根据所有的所述特征向量与所述进行人工分类并标记网站的特征向量进行对比从而将所述网站进行分类。
2.根据权利要求1所述的一种基于网站主页特征分析的中文网站分类方法,其特征在于,所述的步骤S1包括:
S11、从所述被爬取网站中选取一个网站,并将所选取的网站放入待爬取队列中;
S12、按照所述顺序依次爬取被选取网站的内容;
S13、将被爬取的网站中的全部链接提取出来,把其中未爬取的网站放入待爬取的网站的队列中;
S14、判断被爬取的网站的数量是否达到预设值或者待爬取的网站的列队是否为空,若被爬取的网站的数量没有达到预设值或待爬取的网站的列队不为空,则转至步骤S12;若被爬取的网站的数量达到预设值或待爬取的网站的列队为空,则转至步骤S2。
3.根据权利要求1所述的一种基于网站主页特征分析的中文网站分类方法,其特征在于,所述的步骤S2包括:
S21、随机选取一个未标记的网站;
S22、人工标记被选取的网站的类别;
S23、判断被标记网站数量是否达到预设值,若未达到所述预设值则转至步骤S21;若达到所述预设值,则进入步骤S3。
4.根据权利要求1所述的一种基于网站主页特征分析的中文网站分类方法,其特征在于,所述的步骤S3包括:
S31、检测所有的所述被爬取的网站字符的编码格式,对所有的所述被爬取的网站的内容进行解码;
S32、读取所有的所述被爬取的网站的首页的超文本标记语言内容,并解析为文件对象模型;
S33、从所述文件对象模型中提取标题的文本内容以及元数据中的关键字和描述中的文本内容;
S34、将标题的文本内容以及所述元数据中的关键字和所述描述中的文本内容以空格间隔并排列为一整体文本。
5.根据权利要求4所述的一种基于网站主页特征分析的中文网站分类方法,其特征在于,所述的步骤S4包括:
S41、依据所述整体文本得到多个分词;
S42、计算多个所述分词的特征权重;
S43、依据所述特征权重将所述整体文本表示为特征向量。
6.根据权利要求5所述的一种基于网站主页特征分析的中文网站分类方法,其特征在于,步骤S42中采用词的TFIDF值作为特征权重;其中TFIDF值的计算公式为:
TFIDF(w)=TF(w)*IDF(w)
其中TF(w)的值为w的所有被爬取网站的特征权重中的出现次数,
IDF ( w ) = log ( total occur ( w ) )
其中total为所有被爬取网站的特征权重的数量,occur(w)的值为包含有w的被爬取网站的特征权重的数量。
7.根据权利要求6所述的一种基于网站主页特征分析的中文网站分类方法,其特征在于,S43中所述特征向量为(t1:w1,...,ti:wi,...,tn:wn),其中t1,…,ti,…,tn为所述整体文本中得到的所述分词,n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重,i为1到n中的任一整数。
8.根据权利要求5所述的一种基于网站主页特征分析的中文网站分类方法,其特征在于,所述步骤S5采用的是K近邻算法。
9.一种基于网站主页特征分析的中文网站分类系统,其特征在于,包括用于爬取一个至多个网站并提取所述网站的内容的网站获取模块(10),用于人工标记网站类别的标记模块(20),用于对所述网站的首页进行解析,并提取其中的标题和元信息的信息提取模块(30),处理模块(40)和用于将所述网站进行分类的分类模块(50);
所述网站获取模块(10)爬取一个至多个网站并提取所述网站的内容,并将所述网站的内容发送至所述标记模块(20)和所述信息提取模块(30);
所述标记模块(20)选取预设数量的所述被爬取的网站进行人工分类并标记网站类别;
所述信息提取模块(30)对所有的所述被爬取的网站的首页进行解析以提取其中的标题和元信息;所述的元信息包括关键词和描述;并将所述标题和元信息发送至所述处理模块(40);
所述处理模块(40)将所述标题和元信息进行预处理,计算出其权重,并根据以特征向量的形式表示所述标题和元信息;并将所述特征向量发送至所述分类模块(50);
所述分类模块(50)根据所有的所述特征向量与所述进行人工分类并标记网站的特征向量进行对比从而将所述网站进行分类。
10.根据权利要求9所述的一种基于网站主页特征分析的中文网站分类系统,其特征在于,
所述网站获取模块(10)选取一个或多个网站,并将所选取的网站按顺序放入待爬取队列中;按照所述顺序依次爬取被选取网站的内容;将被爬取的网站中的全部链接提取出来,把其中未爬取的网站放入待爬取的网站的队列中;判断网站数量是否达到预设值或者列队是否为空,若网站数量没有达到预设值或列队不为空,则依次重复提取网站链接和爬取网站,直至网站数量达到预设值或者列表为空;如果网站数量达到预设值或列队为空,则停止爬取;所述网站获取模块(10)将爬取的网站发送至所述标记模块(20)和所述信息提取模块(30);
所述标记模块(20)接收到所述站获取模块(10)爬取到的网站后,随机选取一个未标记的网站;人工标记被选取的网站的类别;然后所述标记模块(20)判断被标记网站数量是否达到预设值,若未达到所述预设值则依次重复随机选取一个未标记的网站并人工标记被选取的网站的类别直至被标记网站数量达到预设值;如果达到预设值则停止标记;所述标记模块(20)将网站的类别发送至所述分类模块(50);
所述信息提取模块(30)接收到所述站获取模块(10)爬取到的网站后先检测所有的所述被爬取的网站字符的编码格式,对所有的所述被爬取的网站的内容进行解码;再读取所有的所述被爬取的网站的首页的超文本标记语言内容,并解析为文件对象模型;然后从所述文件对象模型中提取标题的文本内容以及元数据中的关键字和描述中的文本内容;标题的文本内容以及所述元数据中的关键字和所述描述中的文本内容以空格间隔并排列为一整体文本;最后将所述整体文本发送至处理模块(40);
所述处理模块(40)接受到所述整体文本后依据所述整体文本得到多个分词;并计算多个所述分词的特征权重;再依据所述特征权重将所述整体文本表示为特征向量;并将所述特征向量发送至所述分类模块(50);
其中,所述预处理模块(401)用于将所述信息提取模块(30)发送的整体文本进行分词;并计算分词的特征权重;所述预处理模块(401)中采用词的TFIDF值作为特征权重;并将所述特征权重发送至向量表示模块(402);其中TFIDF计算公式为:
TFIDF(w)=TF(w)*IDF(w)
其中TF(w)的值为w的所有被爬取网站的特征权重中的出现次数,
IDF ( w ) = log ( total occur ( w ) )
其中total为所有被爬取网站的特征权重的数量,occur(w)的值为包含有w的被爬取网站的特征权重的数量。
所述向量表示模块(402)将所述预处理模块(401)发送的所述的特征向量表示为如下形式:(t1:w1,...,ti:wi,...,tn:wn),其中t1,…,ti,…,tn为所述整体文本中得到的所述分词,n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重,i为1到n中的任一整数;
所述分类模块(50)在接收到所述标记模块(20)发送的网站的类别和所述处理模块(40)发送的所述特征向量后,通过需要分类的特征向量与人工标记好的网站的特征向量之间的对比对所述被爬取的网站进行分类。
CN201410555450.7A 2014-10-17 2014-10-17 一种基于网站主页特征分析的中文网站分类方法和系统 Pending CN105574047A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410555450.7A CN105574047A (zh) 2014-10-17 2014-10-17 一种基于网站主页特征分析的中文网站分类方法和系统
PCT/CN2014/094220 WO2016058267A1 (zh) 2014-10-17 2014-12-18 一种基于网站主页特征分析的中文网站分类方法和系统
US15/325,083 US20170185680A1 (en) 2014-10-17 2014-12-18 Chinese website classification method and system based on characteristic analysis of website homepage

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410555450.7A CN105574047A (zh) 2014-10-17 2014-10-17 一种基于网站主页特征分析的中文网站分类方法和系统

Publications (1)

Publication Number Publication Date
CN105574047A true CN105574047A (zh) 2016-05-11

Family

ID=55746020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410555450.7A Pending CN105574047A (zh) 2014-10-17 2014-10-17 一种基于网站主页特征分析的中文网站分类方法和系统

Country Status (3)

Country Link
US (1) US20170185680A1 (zh)
CN (1) CN105574047A (zh)
WO (1) WO2016058267A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055571A (zh) * 2016-05-19 2016-10-26 乐视控股(北京)有限公司 网站识别方法及系统
CN106874340A (zh) * 2016-12-22 2017-06-20 新华三技术有限公司 一种网页地址分类方法及装置
CN108133752A (zh) * 2017-12-21 2018-06-08 新博卓畅技术(北京)有限公司 一种基于tfidf的医学症状关键词提取优化及回收方法和系统
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN109905385A (zh) * 2019-02-19 2019-06-18 中国银行股份有限公司 一种webshell检测方法、装置及系统
CN110932961A (zh) * 2019-11-20 2020-03-27 杭州安恒信息技术股份有限公司 一种互联网邮箱系统的识别方法
CN111401450A (zh) * 2020-03-16 2020-07-10 中科天玑数据科技股份有限公司 一种交易场所分类方法和装置
CN111401448A (zh) * 2020-03-16 2020-07-10 中科天玑数据科技股份有限公司 一种交易平台分类方法和装置
CN111414336A (zh) * 2020-03-20 2020-07-14 北京师范大学 一种知识点导向的教育资源采集与分类的方法和系统
CN111444961A (zh) * 2020-03-26 2020-07-24 国家计算机网络与信息安全管理中心黑龙江分中心 一种通过聚类算法判定互联网网站归属的方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852337B1 (en) 2015-09-30 2017-12-26 Open Text Corporation Method and system for assessing similarity of documents
CN108319672B (zh) * 2018-01-25 2023-04-18 南京邮电大学 基于云计算的移动终端不良信息过滤方法及系统
US10936677B2 (en) 2018-11-28 2021-03-02 Paypal, Inc. System and method for efficient multi stage statistical website indexing
CN110232183B (zh) * 2018-12-07 2022-05-27 腾讯科技(深圳)有限公司 关键词提取模型训练方法、关键词提取方法、装置及存储介质
CN110427628A (zh) * 2019-08-02 2019-11-08 杭州安恒信息技术股份有限公司 基于神经网络算法的web资产分类检测方法及装置
US11366862B2 (en) * 2019-11-08 2022-06-21 Gap Intelligence, Inc. Automated web page accessing
CN111814423B (zh) * 2020-09-08 2020-12-22 北京安帝科技有限公司 一种日志的格式化方法、装置和存储介质
US20220277050A1 (en) * 2021-03-01 2022-09-01 Microsoft Technology Licensing, Llc Identifying search terms by reverse engineering a search index
CN113761318A (zh) * 2021-04-30 2021-12-07 中科天玑数据科技股份有限公司 一种网页风险发现的方法
CN117579386B (zh) * 2024-01-16 2024-04-12 麒麟软件有限公司 网络流量安全管控方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187517A (ja) * 2008-01-09 2009-08-20 Ricoh Co Ltd データ分類処理装置及び方法
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103714140A (zh) * 2013-12-23 2014-04-09 北京锐安科技有限公司 一种基于主题网络爬虫的搜索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944109B (zh) * 2010-09-06 2012-06-27 华南理工大学 一种基于页面分块的图片摘要提取系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187517A (ja) * 2008-01-09 2009-08-20 Ricoh Co Ltd データ分類処理装置及び方法
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103714140A (zh) * 2013-12-23 2014-04-09 北京锐安科技有限公司 一种基于主题网络爬虫的搜索方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055571A (zh) * 2016-05-19 2016-10-26 乐视控股(北京)有限公司 网站识别方法及系统
CN106874340A (zh) * 2016-12-22 2017-06-20 新华三技术有限公司 一种网页地址分类方法及装置
CN106874340B (zh) * 2016-12-22 2020-12-18 新华三技术有限公司 一种网页地址分类方法及装置
CN108133752A (zh) * 2017-12-21 2018-06-08 新博卓畅技术(北京)有限公司 一种基于tfidf的医学症状关键词提取优化及回收方法和系统
CN108256104B (zh) * 2018-02-05 2020-05-26 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN109905385A (zh) * 2019-02-19 2019-06-18 中国银行股份有限公司 一种webshell检测方法、装置及系统
CN109905385B (zh) * 2019-02-19 2021-08-20 中国银行股份有限公司 一种webshell检测方法、装置及系统
CN110932961A (zh) * 2019-11-20 2020-03-27 杭州安恒信息技术股份有限公司 一种互联网邮箱系统的识别方法
CN111401450A (zh) * 2020-03-16 2020-07-10 中科天玑数据科技股份有限公司 一种交易场所分类方法和装置
CN111401448A (zh) * 2020-03-16 2020-07-10 中科天玑数据科技股份有限公司 一种交易平台分类方法和装置
CN111401448B (zh) * 2020-03-16 2024-05-24 中科天玑数据科技股份有限公司 一种交易平台分类方法和装置
CN111414336A (zh) * 2020-03-20 2020-07-14 北京师范大学 一种知识点导向的教育资源采集与分类的方法和系统
CN111444961A (zh) * 2020-03-26 2020-07-24 国家计算机网络与信息安全管理中心黑龙江分中心 一种通过聚类算法判定互联网网站归属的方法
CN111444961B (zh) * 2020-03-26 2023-08-18 国家计算机网络与信息安全管理中心黑龙江分中心 一种通过聚类算法判定互联网网站归属的方法

Also Published As

Publication number Publication date
US20170185680A1 (en) 2017-06-29
WO2016058267A1 (zh) 2016-04-21

Similar Documents

Publication Publication Date Title
CN105574047A (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN106201465B (zh) 面向开源社区的软件项目个性化推荐方法
CN102708096B (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN105243087B (zh) It资讯聚合阅读个性化推荐方法
TWI437452B (zh) 使用查詢相關性資料的垃圾網頁分類
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN101609450A (zh) 基于训练集的网页分类方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN105512285B (zh) 基于机器学习的自适应网络爬虫方法
CN103049542A (zh) 一种面向领域的网络信息搜索方法
CN104239485A (zh) 一种基于统计机器学习的互联网暗链检测方法
CN105593851A (zh) 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置
CN103226578A (zh) 面向医学领域的网站识别和网页细分类的方法
CN103207913A (zh) 商品细粒度语义关系的获取方法和系统
CN101350011A (zh) 一种基于小样本集的搜索引擎作弊检测方法
CN105183784A (zh) 一种基于内容的垃圾网页检测方法及其检测装置
CN102289514B (zh) 社会标签自动标注的方法以及社会标签自动标注器
CN110555154B (zh) 一种面向主题的信息检索方法
CN111160019A (zh) 一种舆情监测的方法、装置及系统
CN101350019B (zh) 基于预定义槽间向量模型的网页信息抽取方法
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
CN113312476A (zh) 一种文本自动打标签方法及其装置和终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160511