CN103744981A - 一种基于网站内容用于网站自动分类分析的系统 - Google Patents
一种基于网站内容用于网站自动分类分析的系统 Download PDFInfo
- Publication number
- CN103744981A CN103744981A CN201410017015.9A CN201410017015A CN103744981A CN 103744981 A CN103744981 A CN 103744981A CN 201410017015 A CN201410017015 A CN 201410017015A CN 103744981 A CN103744981 A CN 103744981A
- Authority
- CN
- China
- Prior art keywords
- website
- feature
- module
- word
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网站内容用于网站自动分类分析的系统,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;特征训练提取模块通过计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类别。有效的解决目前网络信息杂乱的现象,方便用户准确地查找定位所需的信息。
Description
技术领域
本发明属于数据挖掘及机器学习领域,涉及一种基于网站内容用于网站自动分类分析的系统。
背景技术
20世纪90年代以来,互联网以惊人的速度发展了起来,容纳了海量的各种类型的原始信息,包括网页、文本、图像、多媒体等,如何在浩瀚如烟的海量信息中掌握有效的信息始终是信息处理的主要目标之一。网站分类可有效的改善Web信息的查准率,以雅虎、搜狐等为代表的分类目录式搜索引擎采用的是人工分类方法,这种方法效率低、更新速度慢、维护成本高,很难实现对互联网上动态变化的海量网站进行有效的跟踪和管理。
发明内容
发明目的:本发明的目的是针对现有技术的不足而提供一种基于网站内容用于网站自动分类分析的系统,有效的解决目前网络信息杂乱的现象,方便用户准确地定位所需的信息,不仅可以将网络文本按照类别信息分别建立相应的管理数据库,提高中文搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。
技术方案:为了实现发明目的,本发明公开了一种基于网站内容用于网站自动分类分析的系统,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;抓取模块用于对网站关键资源相关内容的抓取;网页文本内容解析模块用于对网页不同标签进行分块并且对各个标签块的内容进行分析及去噪处理得到分块网页文本集;分词模块用于对不同分块网页文本集进行分词处理,并计算得到候选特征词及其出现频率和词性;特征训练提取模块用于计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类别。
作为优选,为了适应各种标签标记对页面主题产生的作用不同,所述网页文本内容解析模块将网页不同标签分为标题块、元数据描述块、超链接块、H块及P块。
作为优选,为了更好地实现发明目的,所述分词模块的分词处理包括设置停用词过滤、设置分词权值、词语字典管理、中文词性输出、中文未登录词识别及繁体中文分词。
作为优选,为了考虑到网站分类中某一类别内,若某一个特征词分布越均匀,则该词越能代表该类,特征词应该赋予较高的权重,所述特征训练提取模块中计算候选特征词重要度的方法为:
其中,Cs为标记块集合,F(i)表示特征词t在标记块i中出现的次数,F(Cs)表示特征词t在所有标记块中出现的总次数,n表示标记块的个数。
作为优选,为了考虑到一个高质量的特征关键词不仅需要在所属网站类别频繁出现,还要在其他类别网站很少出现,所述特征训练提取模块中计算候选特征词区分度的方法为:
其中,C为网站类别集合,p(Ci)表示网站类别Ci的概率,p(Ci|t)表示特征词t在类别Ci中出现的概率,m表示网站类别的个数。
作为优选,为了使得权值的计算能更加客观地反应特征词在网页中的权重,所述特征训练提取模块中计算候选特征词权值的方法为:
w(t,i)=TF(t,i)×E(t,i)×IG(C,ti)
其中,w(t,i)表示特征词t在网页i中的权值,TF(t,i)表示特征词在网页i中的频数,E(t,i)表示网页内的重要度值,IG(C,ti)表示特征词的区分度值。
作为优选,为了进一步实现发明目的,所述网页分类模块计算特征空间向量与待分类站点的特征空间向量相似度的方法包括以下步骤:
(2.1)计算待分类站点关键词权值:
定义一个标记集合S
S={TITLE,Meta KEYWORDS,Meta DESCRIPTION,A1,A2,H1,H2,H3,B,I,U}
其中,A1为一级出链,A2为二级出链,设对应的权值集合为
Wα={Wα|α∈S}
其中Wα标记α对应的权重,并且满足
WTITLE>WMeta KEYWORDS>WMeta DESCRIPTION>...>WU
则对于关键词ti其在网页文本i中的权重可以定义为
其中,W(t,i)表示关键词t在网页文本i中的权重,Fi表示关键词在网页文本i中出现的次数,N为训练集合中的网页文本总数,DFi表示训练集中出现关键词t的网页文本数,k为给定文本的词条总数;
(2.2)计算特征空间向量与待分类站点的特征空间向量相似度:
特征空间向量与待分类站点的特征空间向量相似度为:
其中,w1k、w2k分别表示种子网站D1和待分类网站D2第k个特征项的权值,1<=k<=n。
作为优选,为了进一步验证网页分类的结果,所述系统还包括训练分类效果评估模块;训练分类效果评估模块包括准确率评估模块和查全率评估模块,准确率评估模块的评估值为分类正确网站数与实际分类网站数比值,查全率评估模块的评估值为分类正确网站数与应有网站数的比值。
有益效果:本发明与现有技术相比,有以下几个优点:
1.使用关键资源表示一个与某一主题最相关的网页或文档,采用网站主页优先原则获取网站关键资源,并设定链接数的阈值,如果超过阈值则使用主页作为网站特征关键资源进行特征训练,否则,对主页的下一级链接页面进行分析。
2.使用关键词组对基准种子网站进行语义表达,基于标签分块的特征训练提取算法,通过删除特征项空间的信息量小、重要度低的特征词实现特征空间降维,选择具有区分能力的特征词,依据特征词的重要度和区分度的综合计算结果进行归一化处理,建立种子网站类别特征向量模板。
3.对每个网站使用特征关键词组语义表达,再对特征关键词组建立特征向量,分类器根据种子网站特征向量模板和待分类特征向量集合,计算网站内容相似度进行度量,实现对网站进行分类。
4.系统根据特征训练、分类器分类结果评估信息,按从差到好的优先级顺序,持续完善、优化类别特征向量模板。
附图说明
图1为本发明特征关键词组提取流程图;
图2为本发明基于特征关键词向量空间模型分类算法流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,对行业基准网站进行链接数判断,若大于一定阀值则抓取主页数据,否则抓取下一级链接数据;对抓取到的数据进行预处理并且对其网页文本内容进行解析,接着判断容器有效节点,若不是则判定其为噪声进行删除,否则对节点块分词进行处理;计算特征词类别重要度,以及通过网站类别特征词库计算得到特征词类别区分度,结合重要度和区分度得到特征关键词权重集合;进一步得到网站类别特征关键词集合从而建立网站类别模板向量。
如图2所示,本系统包括两大部分,一部分是特征提取模块,另一部分是网站分类模块;特征提取模块将行业基准网站按照如图1的流程对其特征关键词进行提取后,与网站分类模块中的网站类型特征词库进行数据互换,然后通过提取的特征关键词得到网站类别模板向量,将网站类别模板向量与网站分类模块中已经建立的特征向量通过分类器的比较得到分类结果。网站分类模块中首先对目标网页进行收集并对其文本内容进行解析,再判断其是否为有效节点,若不是则删除无效节点,否则与网站类型特征词库中的特征词进行匹配,然后建立特征向量,通过分类器的判断,得到分类结果,对分类结果进行评估,若评估值大于给定阀值则将分类结果写入网站类别知识库中。
下面结合实施例对本发明作更进一步的说明。
首先建立网站类别体系,网站类别体系包括6个大类,60个小类,6个大类为网络科技、教育文化、休闲娱乐、生活服务、行业企业及综合其他;网络科技分为电脑硬件、资源下载、搜索引擎、技术编程、域名主机、网络营销、网络安全、网上商城、网络通信及IT资讯,教育文化分为教育考试、技能培训、出国留学、天文历史、音像制品、高等院校及报刊图书,休闲娱乐分为音乐网站、游戏网站、旅游交通、娱乐时尚、图片摄影、视频电影、小说网站、动漫网站及星座运势,生活服务分为餐饮美食、聊天交友、求职招聘、房产中介、汽车资讯、银行保险、家居建材、影楼婚嫁、卫生健康、母婴网站、驾校学车、宠物玩具及投资理财,行业企业分为食品饮料、招商加盟、家电数码、纺织皮革、汽摩配件、机械五金、电子安防、农林牧渔、服装鞋帽、能源化工、冶金矿产及物流运输,综合其他分为门户网站、网址导航、论坛综合、政府组织、博客网站、社交网站、国防军事及体育综合。
接着对种子基准网站特征训练提取,主要对网页文本构造特征空间,并对特征空间中的特征关键词进行评估,选择重要度大且区分能力强的特征词来语义表达种子基准站点,种子网站输入数据如表1所示,经过抓取模块、网页文本内容解析模块、分词模块及特征训练提取模块处理后得到输出数据如表2所示。
表1
种子网站地址 | 站点类别 |
http://www.guzhang100.com | 电脑硬件 |
http://www.enet.com.cn | 电脑硬件 |
http://www.onlinedown.net | 资源下载 |
http://www.skycn.com | 资源下载 |
http://www.so.com | 搜索引擎 |
http://www.51cto.com | 技术编程 |
http://www.oschina.net | 技术编程 |
http://www.dangdang.com | 网上商城 |
http://www.51buy.com | 网上商城 |
http://www.jd.com | 网上商城 |
http://www.51test.net | 教育考试 |
http://www.canet.com.cn | 技能培训 |
http://www.gs5000.com | 天文历史 |
http://www.9ku.com | 音乐网站 |
表2
然后网页分类模块根据给定的特征关键词组及权值信息形成特征空间向量,特征空间向量包括关键词向量和权重向量两部分,计算特征空间向量与待分类站点的特征空间向量的相似度来确定站点所属的类别,待分类网站网址如表3所示,使用的特征关键词组、所属类别和相似度,分类结果信息自动写入数据库,其数据项如表4所示。
表3
待分类网站 |
http://www.qq.com |
http://www.jd.com |
http://www.so.com |
http://www.douban.com |
http://www.tudou.com |
http://www.rayli.com.cn |
http://www.renren.com |
http://www.2345.com |
http://www.enet.com.cn |
http://www.aizhan.com |
http://www.dianping.com |
表4
最后通过训练分类效果评估模块对特征训练提取、分类器分类结果进行评估,对特征训练提取差的种子站点,主要采用以下方法优化:对于特征不太好的种子站点,采取分析分类结果信息,计算特征词和类别的关联关系,重新对特征向量赋予权重的方式;对于特征较差的种子站点,采取自动删除的方式,使用分类相似度高的站点作为种子站点。
本系统使用关键资源表示一个与某一主题最相关的网页或文档,采用网站主页优先原则获取网站关键资源,并设定链接数的阈值,如果超过阈值则使用主页作为网站特征关键资源进行特征训练,否则,对主页的下一级链接页面进行分析;使用关键词组对基准种子网站进行语义表达,基于标签分块的特征训练提取算法,通过删除特征项空间的信息量小、重要度低的特征词实现特征空间降维,选择具有区分能力的特征词,依据特征词的重要度和区分度的综合计算结果进行归一化处理,建立种子网站类别特征向量模板;对每个网站使用特征关键词组语义表达,再对特征关键词组建立特征向量,分类器根据种子网站特征向量模板和待分类特征向量集合,计算网站内容相似度进行度量,实现对网站进行分类;系统根据特征训练、分类器分类结果评估信息,按从差到好的优先级顺序,持续完善、优化类别特征向量模板。
Claims (8)
1.一种基于网站内容用于网站自动分类分析的系统,其特征在于,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;
抓取模块用于对网站关键资源相关内容的抓取;网页文本内容解析模块用于对网页不同标签进行分块并且对各个标签块的内容进行分析及去噪处理得到分块网页文本集;分词模块用于对不同分块网页文本集进行分词处理,并计算得到候选特征词及其出现频率和词性;特征训练提取模块用于计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类别。
2.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述网页文本内容解析模块将网页不同标签分为标题块、元数据描述块、超链接块、H块及P块。
3.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述分词模块的分词处理包括设置停用词过滤、设置分词权值、词语字典管理、中文词性输出、中文未登录词识别及繁体中文分词。
4.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述特征训练提取模块中计算候选特征词重要度的方法为:
其中,Cs为标记块集合,F(i)表示特征词t在标记块i中出现的次数,F(Cs)表示特征词t在所有标记块中出现的总次数,n表示标记块的个数。
5.如权利要求4所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述特征训练提取模块中计算候选特征词区分度的方法为:
其中,C为网站类别集合,(Ci)表示网站类别Ci的概率,p(Ci|t)表示特征词t在类别Ci中出现的概率,m表示网站类别的个数。
6.如权利要求5所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述特征训练提取模块中计算候选特征词权值的方法为:
w(t,i)=TF(t,i)×E(t,i)×IG(C,ti)
其中,w(t,i)表示特征词t在网页i中的权值,TF(t,i)表示特征词在网页i中的频数,E(t,i)表示网页内的重要度值,IG(C,ti)表示特征词的区分度值。
7.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述网页分类模块计算特征空间向量与待分类站点的特征空间向量相似度的方法包括以下步骤:
(2.1)计算待分类站点关键词权值:
定义一个标记集合S
S={TITLE,Meta KEYWORDS,Meta DESCRIPTION,,A1,A2,H1,H2,H3,B,I,U}
其中,A1为一级出链,A2为二级出链,设对应的权值集合为
Wα={Wα|α∈S}
其中Wα标记α对应的权重,并且满足
WTITLE>WMeta KEYWORDS>WMeta DESCRIPTION>...>WU
则对于关键词ti其在网页文本i中的权重可以定义为
其中,W(t,i)表示关键词t在网页文本i中的权重,Fi表示关键词在网页文本i中出现的次数,N为训练集合中的网页文本总数,DFi表示训练集中出现关键词t的网页文本数,k为给定文本的词条总数;
(2.2)计算特征空间向量与待分类站点的特征空间向量相似度:
特征空间向量与待分类站点的特征空间向量相似度为:
其中,w1k、w2k分别表示种子网站D1和待分类网站D2第k个特征项的权值,1<=k<=n。
8.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述系统还包括训练分类效果评估模块;训练分类效果评估模块包括准确率评估模块和查全率评估模块,准确率评估模块的评估值为分类正确网站数与实际分类网站数比值,查全率评估模块的评估值为分类正确网站数与应有网站数的比值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410017015.9A CN103744981B (zh) | 2014-01-14 | 2014-01-14 | 一种基于网站内容用于网站自动分类分析的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410017015.9A CN103744981B (zh) | 2014-01-14 | 2014-01-14 | 一种基于网站内容用于网站自动分类分析的系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103744981A true CN103744981A (zh) | 2014-04-23 |
CN103744981B CN103744981B (zh) | 2017-02-15 |
Family
ID=50501999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410017015.9A Expired - Fee Related CN103744981B (zh) | 2014-01-14 | 2014-01-14 | 一种基于网站内容用于网站自动分类分析的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103744981B (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317891A (zh) * | 2014-10-23 | 2015-01-28 | 华为软件技术有限公司 | 一种对页面标注标签的方法及装置 |
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和系统 |
GB2528030A (en) * | 2014-05-15 | 2016-01-13 | Affectv Ltd | Internet Domain categorization |
CN105447018A (zh) * | 2014-08-20 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 验证网页分类模型的方法及装置 |
CN105446981A (zh) * | 2014-06-30 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 站点地图生成方法、访问方法及装置 |
WO2016045378A1 (zh) * | 2014-09-26 | 2016-03-31 | 中兴通讯股份有限公司 | 一种网页分类方法及装置 |
CN105653651A (zh) * | 2015-12-29 | 2016-06-08 | 云南电网有限责任公司电力科学研究院 | 一种行业网站的发现整理方法及装置 |
CN106156372A (zh) * | 2016-08-31 | 2016-11-23 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
CN106168968A (zh) * | 2016-06-29 | 2016-11-30 | 杭州华三通信技术有限公司 | 一种网站分类方法及装置 |
CN106202349A (zh) * | 2016-06-29 | 2016-12-07 | 杭州华三通信技术有限公司 | 网页分类字典生成方法及装置 |
CN106547736A (zh) * | 2016-10-31 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文本信息术语重要度生成方法以及装置 |
CN106708901A (zh) * | 2015-11-17 | 2017-05-24 | 北京国双科技有限公司 | 网站内搜索词的聚类方法及装置 |
CN106776645A (zh) * | 2015-11-24 | 2017-05-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
CN107341183A (zh) * | 2017-05-31 | 2017-11-10 | 中国科学院信息工程研究所 | 一种基于暗网网站综合特征的网站分类方法 |
CN107506472A (zh) * | 2017-09-05 | 2017-12-22 | 淮阴工学院 | 一种学生浏览网页分类方法 |
CN107562814A (zh) * | 2017-08-14 | 2018-01-09 | 中国农业大学 | 一种地震应急和灾情信息获取分类方法及系统 |
CN107729937A (zh) * | 2017-10-12 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 用于确定用户兴趣标签的方法及装置 |
CN107908681A (zh) * | 2017-10-30 | 2018-04-13 | 苏州大学 | 一种相似网站查找方法、系统、设备及介质 |
CN107944001A (zh) * | 2017-12-05 | 2018-04-20 | 北京金山安全软件有限公司 | 热点新闻的检测方法、装置及电子设备 |
CN108021667A (zh) * | 2017-12-05 | 2018-05-11 | 新华网股份有限公司 | 一种文本分类方法和装置 |
CN108090048A (zh) * | 2018-01-12 | 2018-05-29 | 安徽大学 | 一种基于多元数据分析的高校评价系统 |
CN108470022A (zh) * | 2018-01-18 | 2018-08-31 | 南京邮电大学 | 一种基于运维管理的智能工单质检方法 |
CN108959289A (zh) * | 2017-05-18 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 网站类别获取方法和装置 |
CN109062953A (zh) * | 2018-06-22 | 2018-12-21 | 上海掌门科技有限公司 | 用于展示好友状态信息的方法与设备 |
CN109389270A (zh) * | 2017-08-09 | 2019-02-26 | 菜鸟智能物流控股有限公司 | 一种物流对象确定方法、装置和机器可读介质 |
CN110334258A (zh) * | 2018-02-28 | 2019-10-15 | 江苏融成爱伊文化传播有限公司 | 一种基于自定义标签的网络文本内容管理办法 |
CN110457579A (zh) * | 2019-07-30 | 2019-11-15 | 四川大学 | 基于模板和分类器协同工作的网页去噪方法及系统 |
CN111753174A (zh) * | 2020-06-23 | 2020-10-09 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置和电子设备 |
CN111814068A (zh) * | 2020-05-19 | 2020-10-23 | 中国电子科技集团公司第三十研究所 | 一种ZeroNet博客及论坛文本抓取及分析方法 |
CN112579848A (zh) * | 2020-12-10 | 2021-03-30 | 北京知道创宇信息技术股份有限公司 | 网站分类方法、装置、计算机设备及存储介质 |
CN112667943A (zh) * | 2020-11-10 | 2021-04-16 | 中科金审(北京)科技有限公司 | 一种非法网站识别和锁定方法 |
US11023516B2 (en) | 2016-09-22 | 2021-06-01 | International Business Machines Corporation | Discovering media content using natural language processing and machine learning |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609450A (zh) * | 2009-04-10 | 2009-12-23 | 南京邮电大学 | 基于训练集的网页分类方法 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
US9245012B2 (en) * | 2008-03-28 | 2016-01-26 | International Business Machines Corporation | Information classification system, information processing apparatus, information classification method and program |
-
2014
- 2014-01-14 CN CN201410017015.9A patent/CN103744981B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9245012B2 (en) * | 2008-03-28 | 2016-01-26 | International Business Machines Corporation | Information classification system, information processing apparatus, information classification method and program |
CN101609450A (zh) * | 2009-04-10 | 2009-12-23 | 南京邮电大学 | 基于训练集的网页分类方法 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2528030A (en) * | 2014-05-15 | 2016-01-13 | Affectv Ltd | Internet Domain categorization |
CN105446981A (zh) * | 2014-06-30 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 站点地图生成方法、访问方法及装置 |
CN105446981B (zh) * | 2014-06-30 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 站点地图生成方法、访问方法及装置 |
CN105447018B (zh) * | 2014-08-20 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 验证网页分类模型的方法及装置 |
CN105447018A (zh) * | 2014-08-20 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 验证网页分类模型的方法及装置 |
WO2016045378A1 (zh) * | 2014-09-26 | 2016-03-31 | 中兴通讯股份有限公司 | 一种网页分类方法及装置 |
CN104317891A (zh) * | 2014-10-23 | 2015-01-28 | 华为软件技术有限公司 | 一种对页面标注标签的方法及装置 |
CN104317891B (zh) * | 2014-10-23 | 2017-11-28 | 华为软件技术有限公司 | 一种对页面标注标签的方法及装置 |
CN104486461B (zh) * | 2014-12-29 | 2019-04-19 | 北京奇安信科技有限公司 | 域名分类方法和装置、域名识别方法和系统 |
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和系统 |
CN106708901A (zh) * | 2015-11-17 | 2017-05-24 | 北京国双科技有限公司 | 网站内搜索词的聚类方法及装置 |
CN106776645B (zh) * | 2015-11-24 | 2020-08-21 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN106776645A (zh) * | 2015-11-24 | 2017-05-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN105653651A (zh) * | 2015-12-29 | 2016-06-08 | 云南电网有限责任公司电力科学研究院 | 一种行业网站的发现整理方法及装置 |
CN105653651B (zh) * | 2015-12-29 | 2019-04-02 | 云南电网有限责任公司电力科学研究院 | 一种行业网站的发现整理方法及装置 |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
CN106202349A (zh) * | 2016-06-29 | 2016-12-07 | 杭州华三通信技术有限公司 | 网页分类字典生成方法及装置 |
CN106202349B (zh) * | 2016-06-29 | 2020-08-21 | 新华三技术有限公司 | 网页分类字典生成方法及装置 |
CN106168968A (zh) * | 2016-06-29 | 2016-11-30 | 杭州华三通信技术有限公司 | 一种网站分类方法及装置 |
CN106168968B (zh) * | 2016-06-29 | 2021-12-24 | 新华三技术有限公司 | 一种网站分类方法及装置 |
CN106156372A (zh) * | 2016-08-31 | 2016-11-23 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
CN106156372B (zh) * | 2016-08-31 | 2019-07-30 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
US11023516B2 (en) | 2016-09-22 | 2021-06-01 | International Business Machines Corporation | Discovering media content using natural language processing and machine learning |
CN106547736A (zh) * | 2016-10-31 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文本信息术语重要度生成方法以及装置 |
CN106547736B (zh) * | 2016-10-31 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文本信息术语重要度生成方法以及装置 |
CN108959289A (zh) * | 2017-05-18 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 网站类别获取方法和装置 |
CN107341183B (zh) * | 2017-05-31 | 2021-06-22 | 中国科学院信息工程研究所 | 一种基于暗网网站综合特征的网站分类方法 |
CN107341183A (zh) * | 2017-05-31 | 2017-11-10 | 中国科学院信息工程研究所 | 一种基于暗网网站综合特征的网站分类方法 |
CN109389270A (zh) * | 2017-08-09 | 2019-02-26 | 菜鸟智能物流控股有限公司 | 一种物流对象确定方法、装置和机器可读介质 |
CN109389270B (zh) * | 2017-08-09 | 2022-11-04 | 菜鸟智能物流控股有限公司 | 一种物流对象确定方法、装置和机器可读介质 |
CN107562814A (zh) * | 2017-08-14 | 2018-01-09 | 中国农业大学 | 一种地震应急和灾情信息获取分类方法及系统 |
CN107506472B (zh) * | 2017-09-05 | 2020-09-08 | 淮阴工学院 | 一种学生浏览网页分类方法 |
CN107506472A (zh) * | 2017-09-05 | 2017-12-22 | 淮阴工学院 | 一种学生浏览网页分类方法 |
CN107729937A (zh) * | 2017-10-12 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 用于确定用户兴趣标签的方法及装置 |
CN107908681A (zh) * | 2017-10-30 | 2018-04-13 | 苏州大学 | 一种相似网站查找方法、系统、设备及介质 |
CN108021667A (zh) * | 2017-12-05 | 2018-05-11 | 新华网股份有限公司 | 一种文本分类方法和装置 |
CN107944001A (zh) * | 2017-12-05 | 2018-04-20 | 北京金山安全软件有限公司 | 热点新闻的检测方法、装置及电子设备 |
CN108090048A (zh) * | 2018-01-12 | 2018-05-29 | 安徽大学 | 一种基于多元数据分析的高校评价系统 |
CN108090048B (zh) * | 2018-01-12 | 2021-05-25 | 安徽大学 | 一种基于多元数据分析的高校评价系统 |
CN108470022A (zh) * | 2018-01-18 | 2018-08-31 | 南京邮电大学 | 一种基于运维管理的智能工单质检方法 |
CN110334258A (zh) * | 2018-02-28 | 2019-10-15 | 江苏融成爱伊文化传播有限公司 | 一种基于自定义标签的网络文本内容管理办法 |
CN109062953A (zh) * | 2018-06-22 | 2018-12-21 | 上海掌门科技有限公司 | 用于展示好友状态信息的方法与设备 |
CN110457579A (zh) * | 2019-07-30 | 2019-11-15 | 四川大学 | 基于模板和分类器协同工作的网页去噪方法及系统 |
CN111814068A (zh) * | 2020-05-19 | 2020-10-23 | 中国电子科技集团公司第三十研究所 | 一种ZeroNet博客及论坛文本抓取及分析方法 |
CN111753174A (zh) * | 2020-06-23 | 2020-10-09 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置和电子设备 |
CN112667943A (zh) * | 2020-11-10 | 2021-04-16 | 中科金审(北京)科技有限公司 | 一种非法网站识别和锁定方法 |
CN112579848A (zh) * | 2020-12-10 | 2021-03-30 | 北京知道创宇信息技术股份有限公司 | 网站分类方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103744981B (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN106682192B (zh) | 一种基于搜索关键词训练回答意图分类模型的方法和装置 | |
Venugopalan et al. | Exploring sentiment analysis on twitter data | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
CN105095187A (zh) | 一种搜索意图识别方法及装置 | |
CN104933164A (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN105389329B (zh) | 一种基于群体评论的开源软件推荐方法 | |
CN102194013A (zh) | 一种基于领域知识的短文本分类方法及文本分类系统 | |
CN105593851A (zh) | 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置 | |
CN103577534B (zh) | 搜索方法和搜索引擎 | |
KR101734728B1 (ko) | 소셜 네트워크 서비스를 이용하여 온라인 협동 학습을 제공하는 방법 및 서버 | |
US9996504B2 (en) | System and method for classifying text sentiment classes based on past examples | |
CN110083696A (zh) | 基于元结构技术的全局引文推荐方法、推荐系统 | |
CN108021715B (zh) | 基于语义结构特征分析的异构标签融合系统 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN103577462A (zh) | 一种文档分类方法及装置 | |
Jeon et al. | Hashtag recommendation based on user tweet and hashtag classification on twitter | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN103886020A (zh) | 一种房地产信息快速搜索方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN106294358A (zh) | 一种信息的检索方法及系统 | |
Kiran et al. | User specific product recommendation and rating system by performing sentiment analysis on product reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170215 Termination date: 20210114 |