CN103744981A - 一种基于网站内容用于网站自动分类分析的系统 - Google Patents

一种基于网站内容用于网站自动分类分析的系统 Download PDF

Info

Publication number
CN103744981A
CN103744981A CN201410017015.9A CN201410017015A CN103744981A CN 103744981 A CN103744981 A CN 103744981A CN 201410017015 A CN201410017015 A CN 201410017015A CN 103744981 A CN103744981 A CN 103744981A
Authority
CN
China
Prior art keywords
website
feature
module
word
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410017015.9A
Other languages
English (en)
Other versions
CN103744981B (zh
Inventor
耿伟
吴蒙
乔波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Hui Jidite Network Technology Co Ltd
Original Assignee
Nanjing Hui Jidite Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hui Jidite Network Technology Co Ltd filed Critical Nanjing Hui Jidite Network Technology Co Ltd
Priority to CN201410017015.9A priority Critical patent/CN103744981B/zh
Publication of CN103744981A publication Critical patent/CN103744981A/zh
Application granted granted Critical
Publication of CN103744981B publication Critical patent/CN103744981B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于网站内容用于网站自动分类分析的系统,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;特征训练提取模块通过计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类别。有效的解决目前网络信息杂乱的现象,方便用户准确地查找定位所需的信息。

Description

一种基于网站内容用于网站自动分类分析的系统
技术领域
本发明属于数据挖掘及机器学习领域,涉及一种基于网站内容用于网站自动分类分析的系统。
背景技术
20世纪90年代以来,互联网以惊人的速度发展了起来,容纳了海量的各种类型的原始信息,包括网页、文本、图像、多媒体等,如何在浩瀚如烟的海量信息中掌握有效的信息始终是信息处理的主要目标之一。网站分类可有效的改善Web信息的查准率,以雅虎、搜狐等为代表的分类目录式搜索引擎采用的是人工分类方法,这种方法效率低、更新速度慢、维护成本高,很难实现对互联网上动态变化的海量网站进行有效的跟踪和管理。
发明内容
发明目的:本发明的目的是针对现有技术的不足而提供一种基于网站内容用于网站自动分类分析的系统,有效的解决目前网络信息杂乱的现象,方便用户准确地定位所需的信息,不仅可以将网络文本按照类别信息分别建立相应的管理数据库,提高中文搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。
技术方案:为了实现发明目的,本发明公开了一种基于网站内容用于网站自动分类分析的系统,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;抓取模块用于对网站关键资源相关内容的抓取;网页文本内容解析模块用于对网页不同标签进行分块并且对各个标签块的内容进行分析及去噪处理得到分块网页文本集;分词模块用于对不同分块网页文本集进行分词处理,并计算得到候选特征词及其出现频率和词性;特征训练提取模块用于计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类别。
作为优选,为了适应各种标签标记对页面主题产生的作用不同,所述网页文本内容解析模块将网页不同标签分为标题块、元数据描述块、超链接块、H块及P块。
作为优选,为了更好地实现发明目的,所述分词模块的分词处理包括设置停用词过滤、设置分词权值、词语字典管理、中文词性输出、中文未登录词识别及繁体中文分词。
作为优选,为了考虑到网站分类中某一类别内,若某一个特征词分布越均匀,则该词越能代表该类,特征词应该赋予较高的权重,所述特征训练提取模块中计算候选特征词重要度的方法为:
E ( t , i ) = - Σ s = 1 n F ( i ) F ( C s ) log ( F ( i ) F ( C s ) )
其中,Cs为标记块集合,F(i)表示特征词t在标记块i中出现的次数,F(Cs)表示特征词t在所有标记块中出现的总次数,n表示标记块的个数。
作为优选,为了考虑到一个高质量的特征关键词不仅需要在所属网站类别频繁出现,还要在其他类别网站很少出现,所述特征训练提取模块中计算候选特征词区分度的方法为:
IG ( C , t i ) = E ( C ) - E ( C | t i ) = - Σ i = 1 m p ( C i ) × log ( p ( C i ) ) + Σ i = 1 m p ( C i | t )
其中,C为网站类别集合,p(Ci)表示网站类别Ci的概率,p(Ci|t)表示特征词t在类别Ci中出现的概率,m表示网站类别的个数。
作为优选,为了使得权值的计算能更加客观地反应特征词在网页中的权重,所述特征训练提取模块中计算候选特征词权值的方法为:
w(t,i)=TF(t,i)×E(t,i)×IG(C,ti)
其中,w(t,i)表示特征词t在网页i中的权值,TF(t,i)表示特征词在网页i中的频数,E(t,i)表示网页内的重要度值,IG(C,ti)表示特征词的区分度值。
作为优选,为了进一步实现发明目的,所述网页分类模块计算特征空间向量与待分类站点的特征空间向量相似度的方法包括以下步骤:
(2.1)计算待分类站点关键词权值:
定义一个标记集合S
S={TITLE,Meta KEYWORDS,Meta DESCRIPTION,A1,A2,H1,H2,H3,B,I,U}
其中,A1为一级出链,A2为二级出链,设对应的权值集合为
Wα={Wα|α∈S}
其中Wα标记α对应的权重,并且满足
WTITLE>WMeta KEYWORDS>WMeta DESCRIPTION>...>WU
则对于关键词ti其在网页文本i中的权重可以定义为
W ( t , i ) = Σ α ∈ S ( W α × F i α ) × log ( N / DF i ) Σ j = 1 k ( Σ α ∈ S ( W α × F j α ) × log ( N / DF j ) ) 2
其中,W(t,i)表示关键词t在网页文本i中的权重,Fi表示关键词在网页文本i中出现的次数,N为训练集合中的网页文本总数,DFi表示训练集中出现关键词t的网页文本数,k为给定文本的词条总数;
(2.2)计算特征空间向量与待分类站点的特征空间向量相似度:
特征空间向量与待分类站点的特征空间向量相似度为:
Sim ( D ( w 1 ) , D ( w 2 ) ) = Σ k = 1 n w 1 k × w 2 k ( Σ k = 1 n w 1 k 2 ) ( Σ k = 1 n w 2 k 2 )
其中,w1k、w2k分别表示种子网站D1和待分类网站D2第k个特征项的权值,1<=k<=n。
作为优选,为了进一步验证网页分类的结果,所述系统还包括训练分类效果评估模块;训练分类效果评估模块包括准确率评估模块和查全率评估模块,准确率评估模块的评估值为分类正确网站数与实际分类网站数比值,查全率评估模块的评估值为分类正确网站数与应有网站数的比值。
有益效果:本发明与现有技术相比,有以下几个优点:
1.使用关键资源表示一个与某一主题最相关的网页或文档,采用网站主页优先原则获取网站关键资源,并设定链接数的阈值,如果超过阈值则使用主页作为网站特征关键资源进行特征训练,否则,对主页的下一级链接页面进行分析。
2.使用关键词组对基准种子网站进行语义表达,基于标签分块的特征训练提取算法,通过删除特征项空间的信息量小、重要度低的特征词实现特征空间降维,选择具有区分能力的特征词,依据特征词的重要度和区分度的综合计算结果进行归一化处理,建立种子网站类别特征向量模板。
3.对每个网站使用特征关键词组语义表达,再对特征关键词组建立特征向量,分类器根据种子网站特征向量模板和待分类特征向量集合,计算网站内容相似度进行度量,实现对网站进行分类。
4.系统根据特征训练、分类器分类结果评估信息,按从差到好的优先级顺序,持续完善、优化类别特征向量模板。
附图说明
图1为本发明特征关键词组提取流程图;
图2为本发明基于特征关键词向量空间模型分类算法流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,对行业基准网站进行链接数判断,若大于一定阀值则抓取主页数据,否则抓取下一级链接数据;对抓取到的数据进行预处理并且对其网页文本内容进行解析,接着判断容器有效节点,若不是则判定其为噪声进行删除,否则对节点块分词进行处理;计算特征词类别重要度,以及通过网站类别特征词库计算得到特征词类别区分度,结合重要度和区分度得到特征关键词权重集合;进一步得到网站类别特征关键词集合从而建立网站类别模板向量。
如图2所示,本系统包括两大部分,一部分是特征提取模块,另一部分是网站分类模块;特征提取模块将行业基准网站按照如图1的流程对其特征关键词进行提取后,与网站分类模块中的网站类型特征词库进行数据互换,然后通过提取的特征关键词得到网站类别模板向量,将网站类别模板向量与网站分类模块中已经建立的特征向量通过分类器的比较得到分类结果。网站分类模块中首先对目标网页进行收集并对其文本内容进行解析,再判断其是否为有效节点,若不是则删除无效节点,否则与网站类型特征词库中的特征词进行匹配,然后建立特征向量,通过分类器的判断,得到分类结果,对分类结果进行评估,若评估值大于给定阀值则将分类结果写入网站类别知识库中。
下面结合实施例对本发明作更进一步的说明。
首先建立网站类别体系,网站类别体系包括6个大类,60个小类,6个大类为网络科技、教育文化、休闲娱乐、生活服务、行业企业及综合其他;网络科技分为电脑硬件、资源下载、搜索引擎、技术编程、域名主机、网络营销、网络安全、网上商城、网络通信及IT资讯,教育文化分为教育考试、技能培训、出国留学、天文历史、音像制品、高等院校及报刊图书,休闲娱乐分为音乐网站、游戏网站、旅游交通、娱乐时尚、图片摄影、视频电影、小说网站、动漫网站及星座运势,生活服务分为餐饮美食、聊天交友、求职招聘、房产中介、汽车资讯、银行保险、家居建材、影楼婚嫁、卫生健康、母婴网站、驾校学车、宠物玩具及投资理财,行业企业分为食品饮料、招商加盟、家电数码、纺织皮革、汽摩配件、机械五金、电子安防、农林牧渔、服装鞋帽、能源化工、冶金矿产及物流运输,综合其他分为门户网站、网址导航、论坛综合、政府组织、博客网站、社交网站、国防军事及体育综合。
接着对种子基准网站特征训练提取,主要对网页文本构造特征空间,并对特征空间中的特征关键词进行评估,选择重要度大且区分能力强的特征词来语义表达种子基准站点,种子网站输入数据如表1所示,经过抓取模块、网页文本内容解析模块、分词模块及特征训练提取模块处理后得到输出数据如表2所示。
表1
种子网站地址 站点类别
http://www.guzhang100.com 电脑硬件
http://www.enet.com.cn 电脑硬件
http://www.onlinedown.net 资源下载
http://www.skycn.com 资源下载
http://www.so.com 搜索引擎
http://www.51cto.com 技术编程
http://www.oschina.net 技术编程
http://www.dangdang.com 网上商城
http://www.51buy.com 网上商城
http://www.jd.com 网上商城
http://www.51test.net 教育考试
http://www.canet.com.cn 技能培训
http://www.gs5000.com 天文历史
http://www.9ku.com 音乐网站
表2
Figure BDA0000456697470000061
Figure BDA0000456697470000071
然后网页分类模块根据给定的特征关键词组及权值信息形成特征空间向量,特征空间向量包括关键词向量和权重向量两部分,计算特征空间向量与待分类站点的特征空间向量的相似度来确定站点所属的类别,待分类网站网址如表3所示,使用的特征关键词组、所属类别和相似度,分类结果信息自动写入数据库,其数据项如表4所示。
表3
待分类网站
http://www.qq.com
http://www.jd.com
http://www.so.com
http://www.douban.com
http://www.tudou.com
http://www.rayli.com.cn
http://www.renren.com
http://www.2345.com
http://www.enet.com.cn
http://www.aizhan.com
http://www.dianping.com
表4
Figure BDA0000456697470000072
Figure BDA0000456697470000081
最后通过训练分类效果评估模块对特征训练提取、分类器分类结果进行评估,对特征训练提取差的种子站点,主要采用以下方法优化:对于特征不太好的种子站点,采取分析分类结果信息,计算特征词和类别的关联关系,重新对特征向量赋予权重的方式;对于特征较差的种子站点,采取自动删除的方式,使用分类相似度高的站点作为种子站点。
本系统使用关键资源表示一个与某一主题最相关的网页或文档,采用网站主页优先原则获取网站关键资源,并设定链接数的阈值,如果超过阈值则使用主页作为网站特征关键资源进行特征训练,否则,对主页的下一级链接页面进行分析;使用关键词组对基准种子网站进行语义表达,基于标签分块的特征训练提取算法,通过删除特征项空间的信息量小、重要度低的特征词实现特征空间降维,选择具有区分能力的特征词,依据特征词的重要度和区分度的综合计算结果进行归一化处理,建立种子网站类别特征向量模板;对每个网站使用特征关键词组语义表达,再对特征关键词组建立特征向量,分类器根据种子网站特征向量模板和待分类特征向量集合,计算网站内容相似度进行度量,实现对网站进行分类;系统根据特征训练、分类器分类结果评估信息,按从差到好的优先级顺序,持续完善、优化类别特征向量模板。

Claims (8)

1.一种基于网站内容用于网站自动分类分析的系统,其特征在于,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;
抓取模块用于对网站关键资源相关内容的抓取;网页文本内容解析模块用于对网页不同标签进行分块并且对各个标签块的内容进行分析及去噪处理得到分块网页文本集;分词模块用于对不同分块网页文本集进行分词处理,并计算得到候选特征词及其出现频率和词性;特征训练提取模块用于计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类别。
2.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述网页文本内容解析模块将网页不同标签分为标题块、元数据描述块、超链接块、H块及P块。
3.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述分词模块的分词处理包括设置停用词过滤、设置分词权值、词语字典管理、中文词性输出、中文未登录词识别及繁体中文分词。
4.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述特征训练提取模块中计算候选特征词重要度的方法为:
E ( t , i ) = - &Sigma; s = 1 n F ( i ) F ( C s ) log ( F ( i ) F ( C s ) )
其中,Cs为标记块集合,F(i)表示特征词t在标记块i中出现的次数,F(Cs)表示特征词t在所有标记块中出现的总次数,n表示标记块的个数。
5.如权利要求4所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述特征训练提取模块中计算候选特征词区分度的方法为:
IG ( C , t i ) = E ( C ) - E ( C | t i ) = - &Sigma; i = 1 m p ( C i ) &times; log ( p ( C i ) ) + &Sigma; i = 1 m p ( C i | t )
其中,C为网站类别集合,(Ci)表示网站类别Ci的概率,p(Ci|t)表示特征词t在类别Ci中出现的概率,m表示网站类别的个数。
6.如权利要求5所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述特征训练提取模块中计算候选特征词权值的方法为:
w(t,i)=TF(t,i)×E(t,i)×IG(C,ti)
其中,w(t,i)表示特征词t在网页i中的权值,TF(t,i)表示特征词在网页i中的频数,E(t,i)表示网页内的重要度值,IG(C,ti)表示特征词的区分度值。
7.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述网页分类模块计算特征空间向量与待分类站点的特征空间向量相似度的方法包括以下步骤:
(2.1)计算待分类站点关键词权值:
定义一个标记集合S
S={TITLE,Meta KEYWORDS,Meta DESCRIPTION,,A1,A2,H1,H2,H3,B,I,U}
其中,A1为一级出链,A2为二级出链,设对应的权值集合为
Wα={Wα|α∈S}
其中Wα标记α对应的权重,并且满足
WTITLE>WMeta KEYWORDS>WMeta DESCRIPTION>...>WU
则对于关键词ti其在网页文本i中的权重可以定义为
W ( t , i ) = &Sigma; &alpha; &Element; S ( W &alpha; &times; F i &alpha; ) &times; log ( N / DF i ) &Sigma; j = 1 k ( &Sigma; &alpha; &Element; S ( W &alpha; &times; F j &alpha; ) &times; log ( N / DF j ) ) 2
其中,W(t,i)表示关键词t在网页文本i中的权重,Fi表示关键词在网页文本i中出现的次数,N为训练集合中的网页文本总数,DFi表示训练集中出现关键词t的网页文本数,k为给定文本的词条总数;
(2.2)计算特征空间向量与待分类站点的特征空间向量相似度:
特征空间向量与待分类站点的特征空间向量相似度为:
Sim ( D ( w 1 ) , D ( w 2 ) ) = &Sigma; k = 1 n w 1 k &times; w 2 k ( &Sigma; k = 1 n w 1 k 2 ) ( &Sigma; k = 1 n w 2 k 2 )
其中,w1k、w2k分别表示种子网站D1和待分类网站D2第k个特征项的权值,1<=k<=n。
8.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述系统还包括训练分类效果评估模块;训练分类效果评估模块包括准确率评估模块和查全率评估模块,准确率评估模块的评估值为分类正确网站数与实际分类网站数比值,查全率评估模块的评估值为分类正确网站数与应有网站数的比值。
CN201410017015.9A 2014-01-14 2014-01-14 一种基于网站内容用于网站自动分类分析的系统 Expired - Fee Related CN103744981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410017015.9A CN103744981B (zh) 2014-01-14 2014-01-14 一种基于网站内容用于网站自动分类分析的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410017015.9A CN103744981B (zh) 2014-01-14 2014-01-14 一种基于网站内容用于网站自动分类分析的系统

Publications (2)

Publication Number Publication Date
CN103744981A true CN103744981A (zh) 2014-04-23
CN103744981B CN103744981B (zh) 2017-02-15

Family

ID=50501999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410017015.9A Expired - Fee Related CN103744981B (zh) 2014-01-14 2014-01-14 一种基于网站内容用于网站自动分类分析的系统

Country Status (1)

Country Link
CN (1) CN103744981B (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317891A (zh) * 2014-10-23 2015-01-28 华为软件技术有限公司 一种对页面标注标签的方法及装置
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
GB2528030A (en) * 2014-05-15 2016-01-13 Affectv Ltd Internet Domain categorization
CN105447018A (zh) * 2014-08-20 2016-03-30 阿里巴巴集团控股有限公司 验证网页分类模型的方法及装置
CN105446981A (zh) * 2014-06-30 2016-03-30 阿里巴巴集团控股有限公司 站点地图生成方法、访问方法及装置
WO2016045378A1 (zh) * 2014-09-26 2016-03-31 中兴通讯股份有限公司 一种网页分类方法及装置
CN105653651A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种行业网站的发现整理方法及装置
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106168968A (zh) * 2016-06-29 2016-11-30 杭州华三通信技术有限公司 一种网站分类方法及装置
CN106202349A (zh) * 2016-06-29 2016-12-07 杭州华三通信技术有限公司 网页分类字典生成方法及装置
CN106547736A (zh) * 2016-10-31 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN106708901A (zh) * 2015-11-17 2017-05-24 北京国双科技有限公司 网站内搜索词的聚类方法及装置
CN106776645A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN107341183A (zh) * 2017-05-31 2017-11-10 中国科学院信息工程研究所 一种基于暗网网站综合特征的网站分类方法
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法
CN107562814A (zh) * 2017-08-14 2018-01-09 中国农业大学 一种地震应急和灾情信息获取分类方法及系统
CN107729937A (zh) * 2017-10-12 2018-02-23 北京京东尚科信息技术有限公司 用于确定用户兴趣标签的方法及装置
CN107908681A (zh) * 2017-10-30 2018-04-13 苏州大学 一种相似网站查找方法、系统、设备及介质
CN107944001A (zh) * 2017-12-05 2018-04-20 北京金山安全软件有限公司 热点新闻的检测方法、装置及电子设备
CN108021667A (zh) * 2017-12-05 2018-05-11 新华网股份有限公司 一种文本分类方法和装置
CN108090048A (zh) * 2018-01-12 2018-05-29 安徽大学 一种基于多元数据分析的高校评价系统
CN108470022A (zh) * 2018-01-18 2018-08-31 南京邮电大学 一种基于运维管理的智能工单质检方法
CN108959289A (zh) * 2017-05-18 2018-12-07 北京京东尚科信息技术有限公司 网站类别获取方法和装置
CN109062953A (zh) * 2018-06-22 2018-12-21 上海掌门科技有限公司 用于展示好友状态信息的方法与设备
CN109389270A (zh) * 2017-08-09 2019-02-26 菜鸟智能物流控股有限公司 一种物流对象确定方法、装置和机器可读介质
CN110334258A (zh) * 2018-02-28 2019-10-15 江苏融成爱伊文化传播有限公司 一种基于自定义标签的网络文本内容管理办法
CN110457579A (zh) * 2019-07-30 2019-11-15 四川大学 基于模板和分类器协同工作的网页去噪方法及系统
CN111753174A (zh) * 2020-06-23 2020-10-09 北京字节跳动网络技术有限公司 数据处理方法、装置和电子设备
CN111814068A (zh) * 2020-05-19 2020-10-23 中国电子科技集团公司第三十研究所 一种ZeroNet博客及论坛文本抓取及分析方法
CN112579848A (zh) * 2020-12-10 2021-03-30 北京知道创宇信息技术股份有限公司 网站分类方法、装置、计算机设备及存储介质
CN112667943A (zh) * 2020-11-10 2021-04-16 中科金审(北京)科技有限公司 一种非法网站识别和锁定方法
US11023516B2 (en) 2016-09-22 2021-06-01 International Business Machines Corporation Discovering media content using natural language processing and machine learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
US9245012B2 (en) * 2008-03-28 2016-01-26 International Business Machines Corporation Information classification system, information processing apparatus, information classification method and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9245012B2 (en) * 2008-03-28 2016-01-26 International Business Machines Corporation Information classification system, information processing apparatus, information classification method and program
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2528030A (en) * 2014-05-15 2016-01-13 Affectv Ltd Internet Domain categorization
CN105446981A (zh) * 2014-06-30 2016-03-30 阿里巴巴集团控股有限公司 站点地图生成方法、访问方法及装置
CN105446981B (zh) * 2014-06-30 2019-03-29 阿里巴巴集团控股有限公司 站点地图生成方法、访问方法及装置
CN105447018B (zh) * 2014-08-20 2019-06-28 阿里巴巴集团控股有限公司 验证网页分类模型的方法及装置
CN105447018A (zh) * 2014-08-20 2016-03-30 阿里巴巴集团控股有限公司 验证网页分类模型的方法及装置
WO2016045378A1 (zh) * 2014-09-26 2016-03-31 中兴通讯股份有限公司 一种网页分类方法及装置
CN104317891A (zh) * 2014-10-23 2015-01-28 华为软件技术有限公司 一种对页面标注标签的方法及装置
CN104317891B (zh) * 2014-10-23 2017-11-28 华为软件技术有限公司 一种对页面标注标签的方法及装置
CN104486461B (zh) * 2014-12-29 2019-04-19 北京奇安信科技有限公司 域名分类方法和装置、域名识别方法和系统
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
CN106708901A (zh) * 2015-11-17 2017-05-24 北京国双科技有限公司 网站内搜索词的聚类方法及装置
CN106776645B (zh) * 2015-11-24 2020-08-21 北京国双科技有限公司 数据处理方法及装置
CN106776645A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN105653651A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种行业网站的发现整理方法及装置
CN105653651B (zh) * 2015-12-29 2019-04-02 云南电网有限责任公司电力科学研究院 一种行业网站的发现整理方法及装置
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN106202349A (zh) * 2016-06-29 2016-12-07 杭州华三通信技术有限公司 网页分类字典生成方法及装置
CN106202349B (zh) * 2016-06-29 2020-08-21 新华三技术有限公司 网页分类字典生成方法及装置
CN106168968A (zh) * 2016-06-29 2016-11-30 杭州华三通信技术有限公司 一种网站分类方法及装置
CN106168968B (zh) * 2016-06-29 2021-12-24 新华三技术有限公司 一种网站分类方法及装置
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106156372B (zh) * 2016-08-31 2019-07-30 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
US11023516B2 (en) 2016-09-22 2021-06-01 International Business Machines Corporation Discovering media content using natural language processing and machine learning
CN106547736A (zh) * 2016-10-31 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN106547736B (zh) * 2016-10-31 2020-01-10 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN108959289A (zh) * 2017-05-18 2018-12-07 北京京东尚科信息技术有限公司 网站类别获取方法和装置
CN107341183B (zh) * 2017-05-31 2021-06-22 中国科学院信息工程研究所 一种基于暗网网站综合特征的网站分类方法
CN107341183A (zh) * 2017-05-31 2017-11-10 中国科学院信息工程研究所 一种基于暗网网站综合特征的网站分类方法
CN109389270A (zh) * 2017-08-09 2019-02-26 菜鸟智能物流控股有限公司 一种物流对象确定方法、装置和机器可读介质
CN109389270B (zh) * 2017-08-09 2022-11-04 菜鸟智能物流控股有限公司 一种物流对象确定方法、装置和机器可读介质
CN107562814A (zh) * 2017-08-14 2018-01-09 中国农业大学 一种地震应急和灾情信息获取分类方法及系统
CN107506472B (zh) * 2017-09-05 2020-09-08 淮阴工学院 一种学生浏览网页分类方法
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法
CN107729937A (zh) * 2017-10-12 2018-02-23 北京京东尚科信息技术有限公司 用于确定用户兴趣标签的方法及装置
CN107908681A (zh) * 2017-10-30 2018-04-13 苏州大学 一种相似网站查找方法、系统、设备及介质
CN108021667A (zh) * 2017-12-05 2018-05-11 新华网股份有限公司 一种文本分类方法和装置
CN107944001A (zh) * 2017-12-05 2018-04-20 北京金山安全软件有限公司 热点新闻的检测方法、装置及电子设备
CN108090048A (zh) * 2018-01-12 2018-05-29 安徽大学 一种基于多元数据分析的高校评价系统
CN108090048B (zh) * 2018-01-12 2021-05-25 安徽大学 一种基于多元数据分析的高校评价系统
CN108470022A (zh) * 2018-01-18 2018-08-31 南京邮电大学 一种基于运维管理的智能工单质检方法
CN110334258A (zh) * 2018-02-28 2019-10-15 江苏融成爱伊文化传播有限公司 一种基于自定义标签的网络文本内容管理办法
CN109062953A (zh) * 2018-06-22 2018-12-21 上海掌门科技有限公司 用于展示好友状态信息的方法与设备
CN110457579A (zh) * 2019-07-30 2019-11-15 四川大学 基于模板和分类器协同工作的网页去噪方法及系统
CN111814068A (zh) * 2020-05-19 2020-10-23 中国电子科技集团公司第三十研究所 一种ZeroNet博客及论坛文本抓取及分析方法
CN111753174A (zh) * 2020-06-23 2020-10-09 北京字节跳动网络技术有限公司 数据处理方法、装置和电子设备
CN112667943A (zh) * 2020-11-10 2021-04-16 中科金审(北京)科技有限公司 一种非法网站识别和锁定方法
CN112579848A (zh) * 2020-12-10 2021-03-30 北京知道创宇信息技术股份有限公司 网站分类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN103744981B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
Venugopalan et al. Exploring sentiment analysis on twitter data
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
TWI695277B (zh) 自動化網站資料蒐集方法
CN105095187A (zh) 一种搜索意图识别方法及装置
CN104933164A (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN105389329B (zh) 一种基于群体评论的开源软件推荐方法
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类系统
CN105593851A (zh) 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置
CN103577534B (zh) 搜索方法和搜索引擎
KR101734728B1 (ko) 소셜 네트워크 서비스를 이용하여 온라인 협동 학습을 제공하는 방법 및 서버
US9996504B2 (en) System and method for classifying text sentiment classes based on past examples
CN110083696A (zh) 基于元结构技术的全局引文推荐方法、推荐系统
CN108021715B (zh) 基于语义结构特征分析的异构标签融合系统
CN106156372A (zh) 一种互联网网站的分类方法及装置
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN103577462A (zh) 一种文档分类方法及装置
Jeon et al. Hashtag recommendation based on user tweet and hashtag classification on twitter
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN103886020A (zh) 一种房地产信息快速搜索方法
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN106294358A (zh) 一种信息的检索方法及系统
Kiran et al. User specific product recommendation and rating system by performing sentiment analysis on product reviews

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20210114