CN101593200A - 基于关键词频度分析的中文网页分类方法 - Google Patents

基于关键词频度分析的中文网页分类方法 Download PDF

Info

Publication number
CN101593200A
CN101593200A CNA2009100316253A CN200910031625A CN101593200A CN 101593200 A CN101593200 A CN 101593200A CN A2009100316253 A CNA2009100316253 A CN A2009100316253A CN 200910031625 A CN200910031625 A CN 200910031625A CN 101593200 A CN101593200 A CN 101593200A
Authority
CN
China
Prior art keywords
webpage
classification
keyword
chinese
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100316253A
Other languages
English (en)
Other versions
CN101593200B (zh
Inventor
掌明
垄成龙
卢艳宏
冯源
杨瑞
王攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaihai Institute of Techology
Original Assignee
Huaihai Institute of Techology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaihai Institute of Techology filed Critical Huaihai Institute of Techology
Priority to CN200910031625A priority Critical patent/CN101593200B/zh
Publication of CN101593200A publication Critical patent/CN101593200A/zh
Application granted granted Critical
Publication of CN101593200B publication Critical patent/CN101593200B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种基于关键词频度分析的中文网页分类方法,是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,通过首先获取到网页的HTML源码,对网页进行预处理。通过测试和分析,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文文本,接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词,通过该词在文本中的权重排序,通过网页模糊分类算法,得到该网页关键词所属类别的类别排名,取其中前几位,进行隶属率的计算,得出该网页的所属类别的模糊匹配结果。有利于高效的组织网络上海量信息,用于互联网用户兴趣度分析;搜索引擎目录更新;Web内容挖掘;在线文档管理;数字图书馆建设。

Description

基于关键词频度分析的中文网页分类方法
技术领域
本发明是针对中文网页关键词频度分析和基于关键词频度分析的网页分类方法的研究,主要研究如何通过技术手段对中文网页的内容进行过滤提取、分词和网页关键词的频度分析,并研究了如何通过带有权重的中文网页关键词对网页进行分类的方法,涉及网页自动获取、中文网页预处理、中文分词及关键词频度分析、中文网页模糊分类等技术领域。
背景技术
随着Internet技术和Web技术的高速发展,Internet上网页的数量正在不断的增加。网络信息的增加大大方便了人们获取信息,但是过大的信息量也给人们处理信息带来了很多的困难。在这一背景下,传统靠人工的信息处理方式已经无法适应大量数据处理的要求。如何在海量的信息中过滤掉用户反感的信息,并将用户感兴趣的信息提取出来,实现信息的主动推送,同时保证人们在信息选择方面的个人隐私权利,逐渐成为大家所关注的研究点。中文网页种类繁多,通常包含很多的“噪音”信息,一个网页甚至会包含多个主题。获取网页中的有效文本内容,并对网页的海量数据进行自动分类,是组织和管理网络资源的关键。因此对中文网页的内容进行关键词频度的分析,并基于关键词频度的分析对中文网页进行分类就显得非常必要。
针对中文网页进行关键词频度分析和网页分类有一定的难度,主要体现在:
第一、中文网页使用中文进行编辑,不像英文单词之间存在空格,需要对中文进行分词处理,分词的效果直接影响到关键词的分析和网页分类的结果。
第二、中文网页包含大量的“噪音”,很多网页的编写没有规范,包含很多的广告、注释以及其他信息,需要对网页
进行预处理,进化网页内容,提取用户感兴趣的信息。
第三、现今大部分对中文网页分类的研究集中在通过对中文网页进行特征选取和向量表示,利用KNN分类算法,对网页进行分类,该方法实现网页分类时间代价和复杂性高。
发明内容
本发明要解决的技术问题是针对现有技术的不足,提出了能快速掌握网页的关键信息及其所属类别,从而有利于高效的组织网络上海量信息的一种基于关键词频度分析的中文网页分类方法。
本发明要解决的技术问题是通过以下技术方案来实现的,一种基于关键词频度分析的中文网页分类方法,其特点是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,其步骤为:
1)根据用户所输入的网址URL获取中文网页的HTML源码,对所获取的源码进行过滤和去噪,提取该网页中的中文文本;
2)利用分词器对所提取出的中文文本进行分词操作,得到中文网页的分词后文本;
3)通过关键词频度分析器,对该中文网页的分词后文本主要内容的关键词进行提取,并按照关键词权重对关键词进行排序;
4)初始化数据表;该数据表是用于存储文本关键词和关键词所对应的类别,其中初始类别依据中图分类法得到,同时依据关键词类别设定训练集即事先准备好的已知分类的网页,在查找具体的网页时将未知分类网页同训练集进行比较计算,得到同训练集中最相似的类别作为需要查找的类别;关键词按照前一步骤所得出的权重进行排序,录入至数据表;
5)按照上述数据表中关键词的顺序进入分类主题词库进行查找;
6)判断分类主题词表中该关键词出现时所在的类别,如果分类主题词表中存在匹配的关键词和类别,则转入下一步骤7);
如果分类主题词表中不存在该关键词,则转到上一步骤5);
7)将每个关键词查找的类别结果计入数据表的类别项中;
8)对数据表中的类别信息进行统计,分析出对该中文网页隶属率最高的不少于3个类别;
9)保存并输出分类结果。
本发明要解决的技术问题还可以通过以下技术方案来进一步实现,特征在于提取网页中的中文文本的方法在于通过阈值对比对网页的类型进行判断,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文文本,该方法的步骤为:
(a)依照所获得的网页源码得到该网页的标签树;
(b)通过和标准网页的相关阈值对比,确定该网页的类型,网页类型包括主题型、链接型和图片型三种;
(c)判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题型网页,则转到步骤e);
(d)根据主题型网页主题的相关度计算,提取出网页主题内容块;
(e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤;
(f)提取网页的中文文本;
本发明基于关键词频度分析的中文网页分类方法主要包含网页中文提取部分、中文分词及关键词频度分析部分和中文网页分类模糊匹配部分。其中网页中文提取部分涉及到基于内容规则的网页中文提取方法。通过首先获取到网页的HTML源码,对网页进行预处理。通过测试和分析,发现网页中包括各种标签、脚本语言代码、广告及图片链接、设计人员注释、函数声明以及版权信息等冗余的信息。与主题无关的噪音信息会对网页正文内容的提取的速度和精度造成很大影响,有必要进行去除。在提取出网页的标签树以后,我们通过阈值对比的方法判断出网页的类型,当是主题型网页的时候我们采用一种基于标记的正则表达式匹配过滤器来过滤掉网页中的非主题信息。通过几层的过滤器过滤之后,再提取出网页中的中文文本信息。接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词,通过该词在文本中的权重,得到按权重排名的关键词排序,至此表达该网页主题的关键词已经分析出来。之后,将所得出的关键词排序结果和我们的分类主题词库进行匹配,存入一张由该网页关键词和所属类别构成的数据表中,通过网页模糊分类算法,得到该网页关键词所属类别的类别排名,取其中前几位,进行隶属率的计算,最终可以得出该网页的所属类别的模糊匹配结果。
基于关键词频度分析的中文网页分类方法能快速掌握网页的关键信息及其所属类别,从而有利于高效的组织网络上海量信息,具有广泛的意义和应用价值。主要可以应用在:互联网用户兴趣度分析;搜索引擎目录更新;Web内容挖掘;在线文档管理;数字图书馆建设。
具体实施方式
一种基于关键词频度分析的中文网页分类方法,是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,其步骤为:
1)根据用户所输入的网址URL获取中文网页的HTML源码,对所获取的源码进行过滤和去噪,提取该网页中的中文文本;
目的是实现对各类编码的中文网页进行预处理,去除与主题无关的噪音信息,包括各种标签、脚本语言代码、广告及图片链接、设计人员注释、函数声明以及版权信息等冗余的信息。与主题无关的噪音信息会对网页正文内容的提取的速度和精度造成很大影响,有必要进行去除。
2)利用分词器对所提取出的中文文本进行分词操作,得到中文网页的分词后文本;
3)通过关键词频度分析器,对该中文网页分词后文本的主要内容的关键词进行提取,并按照关键词权重对关键词进行排序;
4)初始化数据表:该数据表是用于存储文本关键词和关键词所对应的类别,其中初始类别依据中图分类法得到,同时依据关键词类别设定训练集即事先准备好的已知分类的网页,在查找具体的网页时将未知分类网页同训练集进行比较计算,得到同训练集中最相似的类别作为需要查找的类别;关键词按照前一步骤所得出的权重进行排序,录入至数据表;为了提高效率,一般取关键词排序的前项100项就够了,大于100项取100项作为上限值,小于100项则按原关键词数目录入;
5)按照上述数据表中关键词的顺序进入分类主题词库进行查找;
6)判断分类主题词表中该关键词出现时所在的类别,如果分类主题词表中存在匹配的关键词和类别,则转入下一步骤7);如果分类主题词表中不存在该关键词,则转到上一步骤5);
7)将每个关键词查找的类别结果计入数据表的类别项中;
8)对数据表中的类别信息进行统计,分析出对该中文网页隶属率最高的不少于3个类别;
9)保存并输出分类结果。
基于内容规则的提取网页中的中文文本的方法,在于通过阈值对比对网页的类型进行判断,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文文本,该方法的步骤为:
(a)依照所获得的网页源码得到该网页的标签树;
(b)通过和标准网页的相关阈值对比,确定该网页的类型,网页类型包括主题型、链接型和图片型三种;
(c)判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题型网页,则转到步骤e);
(d)根据主题型网页主题的相关度计算,提取出网页主题内容块;
(e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤;
(f)提取网页的中文文本;
首先数据采集层
功能:该层面提供根据用户所输入的URL获取中文网页的HTML源码,对所获取的源码进行过滤和去噪,以及提取该网页中的中文字符的技术。目的是实现对各类编码的中文网页进行预处理,并提取相应的中文文本。
接口:该层面与上一层的接口为通过流读写得到的中文文本流,为上一层提供输入数据。
该层主要包括基于关键词频度分析的中文网页分类方法中的一个部分:网页过滤以及中文提取部分。
其次数业务逻辑层
功能:该层面提供对中文文本的分词和根据分词结果进行关键词分析的工作。目的是对中文网页的中文文本内容进行分词,并依照相应算法对分词结果进行关键词频度的分析。
接口:该层面与上一层的接口为中文网页按照频度排序的关键词表,通过该表进一步实现中文网页分类模糊匹配。
该层主要包括基于关键词频度分析的中文网页分类方法中的两个部分:中文分词及关键词频度分析部分和中文网页分类模糊匹配部分。
最后表示层:该层面主要提供用户的输入和各个部分结果的反馈。
根据本发明设计的关键词频度分析中文网页分类系统在项目中得到了具体的验证。系统使用VS2005进行了前台的开发,SQLServer2005数据库进行后台协作,利用C#语言实现各项功能。用户在系统首页面输入相应网址的URL,按步骤操作即可分别得到该网页的HTML源码,所提取的网页中文文本,该网页的关键词按频度排序结果以及该网页的分类结果。系统所采用的分类主题词库是以《国家自然科学基金申请项目分类目录及代码》为框架,依照现有学科术语及常用语进行扩充得到的。在系统的测试网页达到800篇的时候,归类准确率封闭测试为71.2%,具有实际的应用价值。

Claims (2)

1、一种基于关键词频度分析的中文网页分类方法,其特征在于根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,其步骤为:
1)根据用户所输入的网址URL获取中文网页的HTML源码,对所获取的源码进行过滤和去噪,提取该网页中的中文文本;
2)利用分词器对所提取出的中文文本进行分词操作,得到中文网页的分词后文本;
3)通过关键词频度分析器,对该中文网页的分词后文本主要内容的关键词进行提取,并按照关键词权重对关键词进行排序;
4)初始化数据表;该数据表是用于存储文本关键词和关键词所对应的类别,其中初始类别依据中图分类法得到,同时依据关键词类别设定训练集即事先准备好的已知分类的网页,在查找具体的网页时将未知分类网页同训练集进行比较计算,得到同训练集中最相似的类别作为需要查找的类别;关键词按照前一步骤所得出的权重进行排序,录入至数据表;
5)按照上述数据表中关键词的顺序进入分类主题词库进行查找;
6)判断分类主题词表中该关键词出现时所在的类别,如果分类主题词表中存在匹配的关键词和类别,则转入下一步骤7);如果分类主题词表中不存在该关键词,则转到上一步骤5);
7)将每个关键词查找的类别结果计入数据表的类别项中;
8)对数据表中的类别信息进行统计,分析出对该中文网页隶属率最高的不少于3个类别;
9)保存并输出分类结果。
2、根据权利要求1所述的基于关键词频度分析的中文网页分类方法,其特征在于提取网页中的中文文本的方法在于通过阈值对比对网页的类型进行判断,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文文本,该方法的步骤为:
(a)依照所获得的网页源码得到该网页的标签树;
(b)通过和标准网页的相关阈值对比,确定该网页的类型,网页类型包括主题型、链接型和图片型三种;
(c)判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题型网页,则转到步骤e);
(d)根据主题型网页主题的相关度计算,提取出网页主题内容块;
(e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤;
(f)提取网页的中文文本。
CN200910031625A 2009-06-19 2009-06-19 基于关键词频度分析的中文网页分类方法 Expired - Fee Related CN101593200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910031625A CN101593200B (zh) 2009-06-19 2009-06-19 基于关键词频度分析的中文网页分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910031625A CN101593200B (zh) 2009-06-19 2009-06-19 基于关键词频度分析的中文网页分类方法

Publications (2)

Publication Number Publication Date
CN101593200A true CN101593200A (zh) 2009-12-02
CN101593200B CN101593200B (zh) 2012-10-03

Family

ID=41407858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910031625A Expired - Fee Related CN101593200B (zh) 2009-06-19 2009-06-19 基于关键词频度分析的中文网页分类方法

Country Status (1)

Country Link
CN (1) CN101593200B (zh)

Cited By (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937469A (zh) * 2010-09-15 2011-01-05 深圳市任子行网络技术股份有限公司 视频网站的信息抓取方法
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102236637A (zh) * 2010-04-22 2011-11-09 北京金山软件有限公司 一种确定搭配词与中心词搭配程度的方法和系统
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN101727494B (zh) * 2009-12-29 2012-03-28 华中师范大学 特定区域内网络热词生成系统
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置
CN102456068A (zh) * 2010-10-14 2012-05-16 国际商业机器公司 提取具有意义的频出项目集的系统、方法以及程序
CN102456058A (zh) * 2010-11-02 2012-05-16 阿里巴巴集团控股有限公司 类目信息提供方法及装置
CN102486791A (zh) * 2010-12-06 2012-06-06 腾讯科技(深圳)有限公司 书签智能分类的方法和服务器
CN102622553A (zh) * 2012-04-24 2012-08-01 腾讯科技(深圳)有限公司 检测网页安全的方法及装置
CN102646134A (zh) * 2012-03-29 2012-08-22 百度在线网络技术(北京)有限公司 一种用于确定消息记录中的消息会话的方法和设备
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN102855312A (zh) * 2012-08-24 2013-01-02 武汉大学 一种面向领域主题的Web服务聚类方法
CN102902790A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
CN102915361A (zh) * 2012-10-18 2013-02-06 北京理工大学 一种基于文字分布特征的网页正文提取方法
CN102915315A (zh) * 2011-08-05 2013-02-06 中兴通讯股份有限公司 一种对网页进行分类的方法和系统
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法
CN103106199A (zh) * 2011-11-09 2013-05-15 中国移动通信集团四川有限公司 文本检索方法和装置
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法
WO2013087012A1 (zh) * 2011-12-13 2013-06-20 北大方正集团有限公司 一种网络数据的采集方法和系统
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN103377243A (zh) * 2012-04-27 2013-10-30 腾讯科技(深圳)有限公司 一种对网页进行版式分类的方法和装置
CN103530789A (zh) * 2012-07-03 2014-01-22 百度在线网络技术(北京)有限公司 一种用于确定重点索引词的方法、装置和设备
CN103631796A (zh) * 2012-08-22 2014-03-12 纬创资通股份有限公司 网址分类管理方法及电子装置
CN103678310A (zh) * 2012-08-31 2014-03-26 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN103714088A (zh) * 2012-10-09 2014-04-09 深圳市世纪光速信息技术有限公司 搜索词获取方法、服务器、搜索词推荐方法及系统
CN103729344A (zh) * 2013-12-30 2014-04-16 传神联合(北京)信息技术有限公司 一种文档稿件中语句标注的方法
CN103823868A (zh) * 2014-02-26 2014-05-28 中国科学院计算技术研究所 一种面向在线百科的事件识别方法和事件关系抽取方法
CN103853654A (zh) * 2012-11-30 2014-06-11 国际商业机器公司 网页测试路径的选择方法和装置
CN103870457A (zh) * 2012-12-07 2014-06-18 北京百度网讯科技有限公司 一种确定问答平台中的未回答问题优先级的方法及装置
CN103902703A (zh) * 2014-03-31 2014-07-02 辽宁四维科技发展有限公司 基于移动互联网访问的文本内容分类方法
CN103942693A (zh) * 2013-01-18 2014-07-23 阿里巴巴集团控股有限公司 识别杂货铺的方法、装置及搜索店铺的方法、系统
CN103942211A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 一种正文页的识别方法及装置
WO2014173349A1 (zh) * 2013-09-04 2014-10-30 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
WO2014203264A1 (en) * 2013-06-21 2014-12-24 Hewlett-Packard Development Company, L.P. Topic based classification of documents
CN104298735A (zh) * 2014-09-30 2015-01-21 北京金山安全软件有限公司 识别应用程序类型的方法和装置
CN104504086A (zh) * 2014-12-25 2015-04-08 北京国双科技有限公司 网页页面的聚类方法和装置
CN104504027A (zh) * 2014-12-12 2015-04-08 北京国双科技有限公司 网页内容的自动筛选方法及装置
CN104899339A (zh) * 2015-07-01 2015-09-09 北京奇虎科技有限公司 对poi信息进行分类的方法和装置
CN104915453A (zh) * 2015-07-01 2015-09-16 北京奇虎科技有限公司 对poi信息进行分类的方法、装置和系统
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
CN105786961A (zh) * 2016-01-15 2016-07-20 优品财富管理有限公司 一种基于金融资讯的数据分类处理方法
CN106339459A (zh) * 2016-08-26 2017-01-18 中国科学院信息工程研究所 基于关键词匹配进行中文网页预分类的方法
CN106649525A (zh) * 2016-10-19 2017-05-10 北京小米移动软件有限公司 显示网页信息的方法及装置
CN106682677A (zh) * 2015-11-11 2017-05-17 广州市动景计算机科技有限公司 广告识别规则归纳方法、装置及设备
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108595618A (zh) * 2018-04-23 2018-09-28 温州市鹿城区中津先进科技研究院 一种自动生成主题报告的大数据平台
CN108629043A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN109145068A (zh) * 2018-07-12 2019-01-04 百度在线网络技术(北京)有限公司 地图更新方法及装置
CN109492081A (zh) * 2018-10-30 2019-03-19 上海智臻智能网络科技股份有限公司 文本信息搜索和信息交互方法、装置、设备及存储介质
CN109657070A (zh) * 2018-12-11 2019-04-19 南京大学 一种终端辅助swot指标体系的构建方法
CN109726323A (zh) * 2018-12-25 2019-05-07 四川巧夺天工信息安全智能设备有限公司 一种智能分类网页类型的方法
CN110188077A (zh) * 2019-05-29 2019-08-30 北京市律典通科技有限公司 一种电子卷宗智能分类方法、装置、电子设备和存储介质
CN111177422A (zh) * 2017-06-07 2020-05-19 邹时月 一种基于关键词信息的可进行信息再生的群聊天系统
CN111310444A (zh) * 2020-01-16 2020-06-19 北京大学 一种公园景观服务识别方法
CN112055020A (zh) * 2020-09-04 2020-12-08 北京明朝万达科技股份有限公司 报文筛选方法、装置及数据传输系统
CN112256986A (zh) * 2020-10-19 2021-01-22 中国互联网金融协会 监测虚拟货币网站的方法及装置、电子设备及存储介质
CN112579775A (zh) * 2020-12-21 2021-03-30 国网福建省电力有限公司经济技术研究院 非结构化文本的分类方法及计算机可读存储介质
CN112784040A (zh) * 2020-12-08 2021-05-11 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
CN113515622A (zh) * 2021-04-15 2021-10-19 中科海拓(无锡)科技有限公司 一种档案数据分类保存系统
CN113569044A (zh) * 2021-06-28 2021-10-29 南京大学 一种基于自然语言处理技术的网页文本内容的分类方法
CN115203620A (zh) * 2022-09-14 2022-10-18 北京大学 面向接口迁移的相似语义主题的网页识别方法、装置和设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831186A (zh) * 2012-08-02 2012-12-19 深圳市同洲电子股份有限公司 一种存储及查找网页的方法及装置
CN103488746B (zh) * 2013-09-22 2017-04-26 成都锐理开创信息技术有限公司 一种获取业务信息的方法及装置
CN105824884A (zh) * 2016-03-10 2016-08-03 海信集团有限公司 一种用户上网信息处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100353361C (zh) * 2004-07-09 2007-12-05 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
KR100863990B1 (ko) * 2006-11-28 2008-10-16 주식회사 오피엠에스 카테고리 광고 시스템 및 방법
CN100578500C (zh) * 2006-12-20 2010-01-06 腾讯科技(深圳)有限公司 一种网页分类方法及装置

Cited By (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727494B (zh) * 2009-12-29 2012-03-28 华中师范大学 特定区域内网络热词生成系统
CN102236637A (zh) * 2010-04-22 2011-11-09 北京金山软件有限公司 一种确定搭配词与中心词搭配程度的方法和系统
CN101937469A (zh) * 2010-09-15 2011-01-05 深圳市任子行网络技术股份有限公司 视频网站的信息抓取方法
CN101937469B (zh) * 2010-09-15 2012-09-05 任子行网络技术股份有限公司 视频网站的信息抓取方法
CN102411587B (zh) * 2010-09-21 2013-08-21 腾讯科技(深圳)有限公司 一种网页分类方法和装置
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置
CN102456068A (zh) * 2010-10-14 2012-05-16 国际商业机器公司 提取具有意义的频出项目集的系统、方法以及程序
US8954468B2 (en) 2010-10-14 2015-02-10 International Business Machines Corporation Extracting a meaningful frequent itemset
CN102456068B (zh) * 2010-10-14 2014-12-10 国际商业机器公司 提取具有意义的频出项目集的系统和方法
CN102456058A (zh) * 2010-11-02 2012-05-16 阿里巴巴集团控股有限公司 类目信息提供方法及装置
CN102456058B (zh) * 2010-11-02 2014-03-19 阿里巴巴集团控股有限公司 类目信息提供方法及装置
US9087108B2 (en) 2010-11-02 2015-07-21 Alibaba Group Holding Limited Determination of category information using multiple stages
TWI508011B (zh) * 2010-11-02 2015-11-11 Alibaba Group Holding Ltd Category information providing method and device
CN102486791A (zh) * 2010-12-06 2012-06-06 腾讯科技(深圳)有限公司 书签智能分类的方法和服务器
CN102004792B (zh) * 2010-12-07 2012-10-10 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102915315A (zh) * 2011-08-05 2013-02-06 中兴通讯股份有限公司 一种对网页进行分类的方法和系统
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN102332012B (zh) * 2011-09-13 2014-10-22 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN103106199B (zh) * 2011-11-09 2016-03-02 中国移动通信集团四川有限公司 文本检索方法和装置
CN103106199A (zh) * 2011-11-09 2013-05-15 中国移动通信集团四川有限公司 文本检索方法和装置
WO2013087012A1 (zh) * 2011-12-13 2013-06-20 北大方正集团有限公司 一种网络数据的采集方法和系统
US9525605B2 (en) 2011-12-13 2016-12-20 Peking University Founder Group Co., Ltd. Method of and system for collecting network data
CN102646134A (zh) * 2012-03-29 2012-08-22 百度在线网络技术(北京)有限公司 一种用于确定消息记录中的消息会话的方法和设备
CN102622553A (zh) * 2012-04-24 2012-08-01 腾讯科技(深圳)有限公司 检测网页安全的方法及装置
CN103377243B (zh) * 2012-04-27 2017-09-08 腾讯科技(深圳)有限公司 一种对网页进行版式分类的方法和装置
CN103377243A (zh) * 2012-04-27 2013-10-30 腾讯科技(深圳)有限公司 一种对网页进行版式分类的方法和装置
CN103530789A (zh) * 2012-07-03 2014-01-22 百度在线网络技术(北京)有限公司 一种用于确定重点索引词的方法、装置和设备
CN103530789B (zh) * 2012-07-03 2018-09-07 百度在线网络技术(北京)有限公司 一种用于确定重点索引词的方法、装置和设备
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备
CN103631796A (zh) * 2012-08-22 2014-03-12 纬创资通股份有限公司 网址分类管理方法及电子装置
CN102855312B (zh) * 2012-08-24 2013-08-14 武汉大学 一种面向领域主题的Web服务聚类方法
CN102855312A (zh) * 2012-08-24 2013-01-02 武汉大学 一种面向领域主题的Web服务聚类方法
CN103678310B (zh) * 2012-08-31 2018-04-27 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN103678310A (zh) * 2012-08-31 2014-03-26 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN102831246B (zh) * 2012-09-17 2014-09-24 中央民族大学 藏文网页分类方法和装置
CN102902790A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
WO2014056337A1 (zh) * 2012-10-09 2014-04-17 腾讯科技(深圳)有限公司 搜索词获取方法、服务器、搜索词推荐系统
CN103714088A (zh) * 2012-10-09 2014-04-09 深圳市世纪光速信息技术有限公司 搜索词获取方法、服务器、搜索词推荐方法及系统
CN102915361A (zh) * 2012-10-18 2013-02-06 北京理工大学 一种基于文字分布特征的网页正文提取方法
CN102915361B (zh) * 2012-10-18 2015-03-11 北京理工大学 一种基于文字分布特征的网页正文提取方法
CN103853654B (zh) * 2012-11-30 2017-03-01 国际商业机器公司 网页测试路径的选择方法和装置
CN103853654A (zh) * 2012-11-30 2014-06-11 国际商业机器公司 网页测试路径的选择方法和装置
CN103870457A (zh) * 2012-12-07 2014-06-18 北京百度网讯科技有限公司 一种确定问答平台中的未回答问题优先级的方法及装置
CN103064970B (zh) * 2012-12-31 2016-04-20 武汉传神信息技术有限公司 优化译员的检索方法
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN103049568B (zh) * 2012-12-31 2016-05-18 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法
CN103942693A (zh) * 2013-01-18 2014-07-23 阿里巴巴集团控股有限公司 识别杂货铺的方法、装置及搜索店铺的方法、系统
CN103942693B (zh) * 2013-01-18 2017-11-14 阿里巴巴集团控股有限公司 识别杂货铺的方法、装置及搜索店铺的方法、系统
CN103942211B (zh) * 2013-01-21 2019-04-26 腾讯科技(深圳)有限公司 一种正文页的识别方法及装置
CN103942211A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 一种正文页的识别方法及装置
CN103294820B (zh) * 2013-06-14 2017-11-10 广东电网有限责任公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统
WO2014203264A1 (en) * 2013-06-21 2014-12-24 Hewlett-Packard Development Company, L.P. Topic based classification of documents
WO2014173349A1 (zh) * 2013-09-04 2014-10-30 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
CN103729344B (zh) * 2013-12-30 2016-08-31 传神联合(北京)信息技术有限公司 一种文档稿件中语句标注的方法
CN103729344A (zh) * 2013-12-30 2014-04-16 传神联合(北京)信息技术有限公司 一种文档稿件中语句标注的方法
CN103823868A (zh) * 2014-02-26 2014-05-28 中国科学院计算技术研究所 一种面向在线百科的事件识别方法和事件关系抽取方法
CN103823868B (zh) * 2014-02-26 2017-05-03 中国科学院计算技术研究所 一种面向在线百科的事件识别方法和事件关系抽取方法
CN103902703B (zh) * 2014-03-31 2016-02-10 郭磊 基于移动互联网访问的文本内容分类方法
CN103902703A (zh) * 2014-03-31 2014-07-02 辽宁四维科技发展有限公司 基于移动互联网访问的文本内容分类方法
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
CN104298735A (zh) * 2014-09-30 2015-01-21 北京金山安全软件有限公司 识别应用程序类型的方法和装置
CN104298735B (zh) * 2014-09-30 2018-06-05 北京金山安全软件有限公司 识别应用程序类型的方法和装置
CN104504027A (zh) * 2014-12-12 2015-04-08 北京国双科技有限公司 网页内容的自动筛选方法及装置
CN104504086A (zh) * 2014-12-25 2015-04-08 北京国双科技有限公司 网页页面的聚类方法和装置
CN104504086B (zh) * 2014-12-25 2017-11-21 北京国双科技有限公司 网页页面的聚类方法和装置
CN104899339A (zh) * 2015-07-01 2015-09-09 北京奇虎科技有限公司 对poi信息进行分类的方法和装置
CN104915453A (zh) * 2015-07-01 2015-09-16 北京奇虎科技有限公司 对poi信息进行分类的方法、装置和系统
CN106682677A (zh) * 2015-11-11 2017-05-17 广州市动景计算机科技有限公司 广告识别规则归纳方法、装置及设备
CN105786961A (zh) * 2016-01-15 2016-07-20 优品财富管理有限公司 一种基于金融资讯的数据分类处理方法
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN107766371B (zh) * 2016-08-19 2023-11-17 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN106339459A (zh) * 2016-08-26 2017-01-18 中国科学院信息工程研究所 基于关键词匹配进行中文网页预分类的方法
CN106339459B (zh) * 2016-08-26 2019-11-26 中国科学院信息工程研究所 基于关键词匹配进行中文网页预分类的方法
CN106649525A (zh) * 2016-10-19 2017-05-10 北京小米移动软件有限公司 显示网页信息的方法及装置
CN111177422B (zh) * 2017-06-07 2023-04-14 邹时月 一种基于关键词信息的可进行信息再生的群聊天系统
CN111177422A (zh) * 2017-06-07 2020-05-19 邹时月 一种基于关键词信息的可进行信息再生的群聊天系统
CN108595618A (zh) * 2018-04-23 2018-09-28 温州市鹿城区中津先进科技研究院 一种自动生成主题报告的大数据平台
CN108629043A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN109145068A (zh) * 2018-07-12 2019-01-04 百度在线网络技术(北京)有限公司 地图更新方法及装置
CN109492081A (zh) * 2018-10-30 2019-03-19 上海智臻智能网络科技股份有限公司 文本信息搜索和信息交互方法、装置、设备及存储介质
CN109492081B (zh) * 2018-10-30 2022-05-27 上海智臻智能网络科技股份有限公司 文本信息搜索和信息交互方法、装置、设备及存储介质
CN109657070A (zh) * 2018-12-11 2019-04-19 南京大学 一种终端辅助swot指标体系的构建方法
CN109657070B (zh) * 2018-12-11 2023-06-09 南京大学 一种终端辅助swot指标体系的构建方法
CN109726323A (zh) * 2018-12-25 2019-05-07 四川巧夺天工信息安全智能设备有限公司 一种智能分类网页类型的方法
CN110188077A (zh) * 2019-05-29 2019-08-30 北京市律典通科技有限公司 一种电子卷宗智能分类方法、装置、电子设备和存储介质
CN110188077B (zh) * 2019-05-29 2021-03-19 北京市律典通科技有限公司 一种电子卷宗智能分类方法、装置、电子设备和存储介质
CN111310444A (zh) * 2020-01-16 2020-06-19 北京大学 一种公园景观服务识别方法
CN112055020A (zh) * 2020-09-04 2020-12-08 北京明朝万达科技股份有限公司 报文筛选方法、装置及数据传输系统
CN112256986A (zh) * 2020-10-19 2021-01-22 中国互联网金融协会 监测虚拟货币网站的方法及装置、电子设备及存储介质
CN112784040A (zh) * 2020-12-08 2021-05-11 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
CN112784040B (zh) * 2020-12-08 2023-02-28 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
CN112579775A (zh) * 2020-12-21 2021-03-30 国网福建省电力有限公司经济技术研究院 非结构化文本的分类方法及计算机可读存储介质
CN113515622A (zh) * 2021-04-15 2021-10-19 中科海拓(无锡)科技有限公司 一种档案数据分类保存系统
CN113569044A (zh) * 2021-06-28 2021-10-29 南京大学 一种基于自然语言处理技术的网页文本内容的分类方法
CN113569044B (zh) * 2021-06-28 2023-07-18 南京大学 一种基于自然语言处理技术的网页文本内容的分类方法
CN115203620A (zh) * 2022-09-14 2022-10-18 北京大学 面向接口迁移的相似语义主题的网页识别方法、装置和设备
CN115203620B (zh) * 2022-09-14 2023-02-07 北京大学 面向接口迁移的相似语义主题的网页识别方法、装置和设备

Also Published As

Publication number Publication date
CN101593200B (zh) 2012-10-03

Similar Documents

Publication Publication Date Title
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
Rousseau et al. Main core retention on graph-of-words for single-document keyword extraction
CN102279894B (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN104102639B (zh) 基于文本分类的推广触发方法和装置
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN104268148A (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN108021715B (zh) 基于语义结构特征分析的异构标签融合系统
CN103530429A (zh) 一种网页正文抽取的方法
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN104216979A (zh) 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
CN103488741A (zh) 一种基于url的中文多语义名词的在线语义挖掘系统
CN103064966A (zh) 一种从单记录网页中抽取规律噪音的方法
CN103970865B (zh) 基于种子词的微博文本层次主题发现方法及系统
CN113821718A (zh) 一种物品信息推送方法和装置
Sahni et al. Topic modeling on online news extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121003

Termination date: 20180619