CN102955791A - 网络信息搜索与分类服务系统 - Google Patents

网络信息搜索与分类服务系统 Download PDF

Info

Publication number
CN102955791A
CN102955791A CN2011102423948A CN201110242394A CN102955791A CN 102955791 A CN102955791 A CN 102955791A CN 2011102423948 A CN2011102423948 A CN 2011102423948A CN 201110242394 A CN201110242394 A CN 201110242394A CN 102955791 A CN102955791 A CN 102955791A
Authority
CN
China
Prior art keywords
module
document
network information
word frequency
service system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102423948A
Other languages
English (en)
Inventor
丁力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jurong Jintai Science & Technology Park Co Ltd
Original Assignee
Jurong Jintai Science & Technology Park Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jurong Jintai Science & Technology Park Co Ltd filed Critical Jurong Jintai Science & Technology Park Co Ltd
Priority to CN2011102423948A priority Critical patent/CN102955791A/zh
Publication of CN102955791A publication Critical patent/CN102955791A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息处理领域,尤其涉及网络信息搜索与分类服务系统。该系统包括:用于下载用户选择的网站或网页的网络信息抓取模块;用于将上述网络信息抓取模块下载下来的网页抽取成纯文本的网页内容抽取模块;用于管理用于算法学习和特征提取的各个领域的训练文档集的语料库维护模块;用于维护用于词条切分和词频统计的主词典和同义词典的词典管理模块;用于对训练文档进行词条切分和词频统计,并根据词频分布提取出代表文档类的特征项集及相应权值,生成相应的类模型的机器学习模块;用于根据词频分布,提取出待分类文档的代表向量,并计算各文档类特征向量的相似度,符合一定的阈值条件则将其归属到相应的类别中的文档分类模块。

Description

网络信息搜索与分类服务系统
技术领域
本发明属于信息处理领域,尤其涉及网络信息搜索与分类服务系统。
背景技术
随着信息技术的发展,尤其是网络应用的普及,人们已经从信息缺乏的时代过渡到信息极为丰富的时代。如何从大量信息中迅速有效地提取出所需信息以及如何对网络信息进行深层加工处理和信息提取已经成为人们迫切解决的问题。
发明内容
为解决上述问题,本发明提供了一种网络信息搜索与分类服务系统,该系统包括以下模块:信息抓取模块,网页内容抽取模块,预料库维护模块,词典管理模块,机器学习模块以及文档分类模块;
所述的信息抓取模块,其用于下载用户选择的网站或网页;
所述的网页内容抽取模块,其用于将上述网络信息抓取模块下载下来的网页抽取成纯文本;
所述的语料库维护模块,其用于管理用于算法学习和特征提取的各个领域的训练文档集;
所述的词典管理模块,其用于维护用于词条切分和词频统计的主词典和同义词典;
所述的机器学习模块,其用于对训练文档进行词条切分和词频统计,并根据词频分布提取出代表文档类的特征项集及相应权值,生成相应的类模型;
所述文档分类模块,其用于根据词频分布,提取出待分类文档的代表向量,并计算各文档类特征向量的相似度,符合一定的阈值条件则将其归属到相应的类别中。
本发明发明的网络信息搜索与分类服务系统能从大量信息中迅速有效地提取所需信息,并对其进行分类,为人们搜索信息资源提供了更精确化和人性化的服务。
附图说明
图1为本发明提供的网络信息搜索与分类服务系统的模块示意图。
具体实施方式
本发明发明的网络信息搜索与分类服务系统的模块示意图如图1所示,包括以下模块:
信息抓取模块,网页内容抽取模块,预料库维护模块,词典管理模块,机器学习模块以及文档分类模块;
所述的信息抓取模块,其用于下载用户选择的网站或网页;还用于网站的下载深度、下载文件的存放路径的基本设置以及文件过滤和服务器过滤的过滤设置,网页下载后按照网页的深度按层存放;
所述的网页内容抽取模块,其用于将上述网络信息抓取模块下载下来的网页抽取成纯文本;用于网页抽取成文本后的存放目录和要处理的网页的目录的目录设置以及抽取网页正文的P和T阈值的设置,所述P表示table节点中的中文字符数的最小值的一个取值标准,所述T表示table节点中去掉HTML标记所含的中文字符与全部中文字符的个数的比值的一个取值标准。
所述的语料库维护模块,其用于管理用于算法学习和特征提取的各个领域的训练文档集;还用于不同领域的训练文档集的保存设置以及语料库初始化和语料库的维护;
词典管理模块,其用于维护用于词条切分和词频统计的主词典和同义词典;还用于词典的建立和词条的添加、删除和修改。
机器学习模块,其用于对训练文档进行词条切分和词频统计,并根据词频分布提取出代表文档类的特征项集及相应权值,生成相应的类模型;
文档分类模块,其用于根据词频分布,提取出待分类文档的代表向量,并计算各文档类特征向量的相似度,符合一定的阈值条件则将其归属到相应的类别中;操作方式分为自动执行和手动执行两种,所述的自动执行是指根据系统设置,定时对输入目录中的带分类文档进行批量分类处理;所述的手动执行是指需要用户选定待分类文档,逐一处理。

Claims (6)

1.网络信息搜索与分类服务系统,其特征在于,包括以下模块:
信息抓取模块,网页内容抽取模块,预料库维护模块,词典管理模块,机器学习模块以及文档分类模块;
所述的信息抓取模块,其用于下载用户选择的网站或网页;
所述的网页内容抽取模块,其用于将上述网络信息抓取模块下载下来的网页抽取成纯文本;
所述的语料库维护模块,其用于管理用于算法学习和特征提取的各个领域的训练文档集;
所述的词典管理模块,其用于维护用于词条切分和词频统计的主词典和同义词典;
所述的机器学习模块,其用于对训练文档进行词条切分和词频统计,并根据词频分布提取出代表文档类的特征项集及相应权值,生成相应的类模型;
所述的文档分类模块,其用于根据词频分布,提取出待分类文档的代表向量,并计算各文档类特征向量的相似度,如符合上述的阈值条件则将其归属到相应的类别中。
2.如权利要求1所述的网络搜索与分类服务系统,所述的网络信息抓取模块其特征在于,还用于网站的下载深度、下载文件的存放路径的基本设置以及文件过滤和服务器过滤的过滤设置,网页下载后按照网页的深度按层存放。
3.如权利要求2所述的网络搜索与分类服务系统,所述的网页内容抽取模块,其特征在于,还用于网页抽取成文本后的存放目录和要处理的网页的目录的目录设置以及抽取网页正文的P和T阈值的设置,所述P表示table节点中的中文字符数的最小值的一个取值标准,所述T表示table节点中去掉HTML标记所含的中文字符与全部中文字符的个数的比值的一个取值标准。
4.如权利要求3所述的网络搜索与分类服务系统,所述的预语料库维护模块,其特征在于,还用于不同领域的训练文档集的保存设置以及语料库初始化和语料库的维护。
5.如权利要求4所述的网络搜索与分类服务系统,所述的词典管理模块,其特征在于,用于词典的建立和词条的添加、删除和修改。
6.如权利要求5所述的网络搜索与分类服务系统,所述的文档分类模块,其特征在于,分为自动执行和手动执行两种操作方式,所述的自动执行是指根据系统设置,定时对输入目录中的带分类文档进行批量分类处理;所述的手动执行是指需要用户选定待分类文档,逐一处理。
CN2011102423948A 2011-08-23 2011-08-23 网络信息搜索与分类服务系统 Pending CN102955791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102423948A CN102955791A (zh) 2011-08-23 2011-08-23 网络信息搜索与分类服务系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102423948A CN102955791A (zh) 2011-08-23 2011-08-23 网络信息搜索与分类服务系统

Publications (1)

Publication Number Publication Date
CN102955791A true CN102955791A (zh) 2013-03-06

Family

ID=47764605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102423948A Pending CN102955791A (zh) 2011-08-23 2011-08-23 网络信息搜索与分类服务系统

Country Status (1)

Country Link
CN (1) CN102955791A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235785A (zh) * 2013-03-28 2013-08-07 四三九九网络股份有限公司 一种批量提取网页资源素材的方法
CN105608083A (zh) * 2014-11-13 2016-05-25 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
WO2016180270A1 (zh) * 2015-05-08 2016-11-17 广州市动景计算机科技有限公司 网页分类方法和装置、计算设备以及机器可读存储介质
CN112445910A (zh) * 2019-09-02 2021-03-05 上海哔哩哔哩科技有限公司 一种信息分类方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
JP2004295606A (ja) * 2003-03-27 2004-10-21 Ntt Data Corp 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295606A (ja) * 2003-03-27 2004-10-21 Ntt Data Corp 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴艳玲: "基于SVM的网页分类器的研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
张海燕: "基于分词的中文文本自动分类研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
徐学可: "网页文本分类及其在搜索引擎中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
苏秀芝: "网页去噪与特征提取算法的研究及实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235785A (zh) * 2013-03-28 2013-08-07 四三九九网络股份有限公司 一种批量提取网页资源素材的方法
CN103235785B (zh) * 2013-03-28 2016-02-24 四三九九网络股份有限公司 一种批量提取网页资源素材的方法
CN105608083A (zh) * 2014-11-13 2016-05-25 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
CN105608083B (zh) * 2014-11-13 2019-09-03 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
WO2016180270A1 (zh) * 2015-05-08 2016-11-17 广州市动景计算机科技有限公司 网页分类方法和装置、计算设备以及机器可读存储介质
US10997256B2 (en) 2015-05-08 2021-05-04 Guangzhou Ucweb Computer Technology Co., Ltd. Webpage classification method and apparatus, calculation device and machine readable storage medium
CN112445910A (zh) * 2019-09-02 2021-03-05 上海哔哩哔哩科技有限公司 一种信息分类方法及系统
CN112445910B (zh) * 2019-09-02 2022-12-27 上海哔哩哔哩科技有限公司 一种信息分类方法及系统

Similar Documents

Publication Publication Date Title
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN103226576A (zh) 基于语义相似度的垃圾评论过滤方法
CN101944109B (zh) 一种基于页面分块的图片摘要提取系统及方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN104598577B (zh) 一种网页正文的提取方法
CN104268175B (zh) 一种数据搜索的装置及其方法
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN102360358A (zh) 关键词推荐方法及系统
CN104035927A (zh) 一种基于用户行为的搜索方法及系统
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN102262625A (zh) 网页关键词提取方法及装置
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN103177036A (zh) 一种标签自动提取方法和系统
CN101673266A (zh) 音频、视频内容的搜索方法
CN103218443A (zh) 一种面向博客网页的网页检索系统及方法
CN102880647A (zh) 一种机构别称的获取方法和装置
CN106250402B (zh) 一种网站分类方法及装置
CN102955791A (zh) 网络信息搜索与分类服务系统
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN103377185A (zh) 一种为短文本自动添加标签的方法及装置
CN104090961A (zh) 一种基于机器学习的社交网络垃圾用户过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130306