CN101794311B - 基于模糊数据挖掘的中文网页自动分类方法 - Google Patents
基于模糊数据挖掘的中文网页自动分类方法 Download PDFInfo
- Publication number
- CN101794311B CN101794311B CN2010101185007A CN201010118500A CN101794311B CN 101794311 B CN101794311 B CN 101794311B CN 2010101185007 A CN2010101185007 A CN 2010101185007A CN 201010118500 A CN201010118500 A CN 201010118500A CN 101794311 B CN101794311 B CN 101794311B
- Authority
- CN
- China
- Prior art keywords
- webpage
- classification
- fuzzy
- web page
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000007418 data mining Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101185007A CN101794311B (zh) | 2010-03-05 | 2010-03-05 | 基于模糊数据挖掘的中文网页自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101185007A CN101794311B (zh) | 2010-03-05 | 2010-03-05 | 基于模糊数据挖掘的中文网页自动分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101794311A CN101794311A (zh) | 2010-08-04 |
CN101794311B true CN101794311B (zh) | 2012-06-13 |
Family
ID=42587010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101185007A Expired - Fee Related CN101794311B (zh) | 2010-03-05 | 2010-03-05 | 基于模糊数据挖掘的中文网页自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101794311B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458658A (zh) * | 2019-07-31 | 2019-11-15 | 西安工程大学 | 一种基于语义信息的图书检索推荐方法 |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375835B (zh) * | 2010-08-17 | 2016-06-29 | 深圳市世纪光速信息技术有限公司 | 一种信息搜索系统和方法 |
CN102567405A (zh) * | 2010-12-31 | 2012-07-11 | 北京安码科技有限公司 | 一种基于改进的文本空间向量表示的热点发现方法 |
CN102541960A (zh) * | 2010-12-31 | 2012-07-04 | 北大方正集团有限公司 | 一种模糊检索的方法及装置 |
CN102184189B (zh) * | 2011-04-18 | 2012-11-28 | 北京理工大学 | 基于dom节点文本密度的网页核心块确定方法 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN102955791A (zh) * | 2011-08-23 | 2013-03-06 | 句容今太科技园有限公司 | 网络信息搜索与分类服务系统 |
CN102289514B (zh) * | 2011-09-07 | 2016-03-30 | 中国科学院计算技术研究所 | 社会标签自动标注的方法以及社会标签自动标注器 |
CN102332012B (zh) * | 2011-09-13 | 2014-10-22 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN102289522B (zh) * | 2011-09-19 | 2014-08-13 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102521402B (zh) * | 2011-12-23 | 2014-02-19 | 上海电机学院 | 文本过滤系统及方法 |
CN102622553A (zh) * | 2012-04-24 | 2012-08-01 | 腾讯科技(深圳)有限公司 | 检测网页安全的方法及装置 |
CN102819595A (zh) * | 2012-08-10 | 2012-12-12 | 北京星网锐捷网络技术有限公司 | 网页分类方法、装置及网络设备 |
CN103678310B (zh) * | 2012-08-31 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 网页主题的分类方法及装置 |
CN102999569B (zh) * | 2012-11-09 | 2015-08-19 | 同济大学 | 用户需求分析定位器和分析及定位方法 |
CN103853720B (zh) * | 2012-11-28 | 2017-04-26 | 苏州信颐系统集成有限公司 | 基于用户关注度的网络敏感信息监控系统及方法 |
CN103870457A (zh) * | 2012-12-07 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种确定问答平台中的未回答问题优先级的方法及装置 |
CN103049557A (zh) * | 2012-12-31 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种站点资源管理方法及装置 |
CN103942693B (zh) * | 2013-01-18 | 2017-11-14 | 阿里巴巴集团控股有限公司 | 识别杂货铺的方法、装置及搜索店铺的方法、系统 |
CN103294820B (zh) * | 2013-06-14 | 2017-11-10 | 广东电网有限责任公司电力科学研究院 | 基于语义扩展的web页面归类方法和系统 |
CN104424308A (zh) * | 2013-09-04 | 2015-03-18 | 中兴通讯股份有限公司 | 网页分类标准获取方法、装置及网页分类方法、装置 |
CN103488746B (zh) * | 2013-09-22 | 2017-04-26 | 成都锐理开创信息技术有限公司 | 一种获取业务信息的方法及装置 |
CN103577547B (zh) * | 2013-10-12 | 2017-11-10 | 优视科技有限公司 | 网页类型识别方法及装置 |
CN103544310B (zh) * | 2013-11-04 | 2017-08-08 | 北京中搜云商网络技术有限公司 | 一种基于分类器实现的导购类网页的信息分类方法 |
CN103886007A (zh) * | 2013-12-20 | 2014-06-25 | 广西大学 | 一种基于相互约束的模糊数据分类方法 |
CN105446981B (zh) * | 2014-06-30 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 站点地图生成方法、访问方法及装置 |
CN104504037B (zh) * | 2014-12-15 | 2018-07-06 | 深圳市宜搜科技发展有限公司 | 实体词热度计算方法及装置 |
CN105005589B (zh) * | 2015-06-26 | 2017-12-29 | 腾讯科技(深圳)有限公司 | 一种文本分类的方法和装置 |
CN106484729B (zh) * | 2015-08-31 | 2020-05-08 | 华为技术有限公司 | 一种词汇生成、分类方法及装置 |
CN105723367A (zh) * | 2016-01-07 | 2016-06-29 | 马岩 | 网络信息的分类方法及系统 |
CN105868363B (zh) * | 2016-03-29 | 2018-12-14 | 中国农业银行股份有限公司 | 一种基于模糊逻辑的网页页面正文抽取方法及系统 |
CN105912695A (zh) * | 2016-04-25 | 2016-08-31 | 全球电气资源(深圳)有限公司 | 一种基于互联网的数据信息传输和采集系统 |
CN107436875B (zh) * | 2016-05-25 | 2020-12-04 | 华为技术有限公司 | 文本分类方法及装置 |
CN106156372B (zh) * | 2016-08-31 | 2019-07-30 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
CN106547851B (zh) * | 2016-10-19 | 2020-04-07 | 贵州大学 | 基于模糊序列模式发掘的网页内容提取方法 |
CN106599155B (zh) * | 2016-12-07 | 2020-05-26 | 北京亚鸿世纪科技发展有限公司 | 一种网页分类方法及系统 |
CN106778357B (zh) * | 2016-12-23 | 2020-02-07 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页篡改的检测方法及装置 |
CN107092679B (zh) * | 2017-04-21 | 2020-01-03 | 北京邮电大学 | 一种特征词向量获得方法、文本分类方法及装置 |
CN107909088B (zh) * | 2017-09-27 | 2022-06-28 | 百度在线网络技术(北京)有限公司 | 获取训练样本的方法、装置、设备和计算机存储介质 |
CN108629043B (zh) * | 2018-05-14 | 2023-05-12 | 平安科技(深圳)有限公司 | 网页目标信息的提取方法、装置及存储介质 |
CN109062972A (zh) * | 2018-06-29 | 2018-12-21 | 平安科技(深圳)有限公司 | 网页分类方法、装置及计算机可读存储介质 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN109657180B (zh) * | 2018-12-11 | 2021-11-26 | 中科国力(镇江)智能技术有限公司 | 一种智能化网页内容自动模糊抽取系统 |
CN109800296B (zh) * | 2019-01-21 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN111881286B (zh) * | 2019-09-10 | 2021-08-24 | 马上消费金融股份有限公司 | 一种分类模糊性分析方法及装置 |
CN110705289B (zh) * | 2019-09-29 | 2023-03-28 | 重庆邮电大学 | 一种基于神经网络和模糊推理的中文分词方法、系统及介质 |
CN110633446B (zh) * | 2019-11-25 | 2020-03-13 | 湖南蚁坊软件股份有限公司 | 网页栏目识别模型训练方法、使用方法、装置和存储介质 |
CN112035662B (zh) * | 2020-08-26 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
CN114186057A (zh) * | 2020-09-15 | 2022-03-15 | 智慧芽(中国)科技有限公司 | 基于多类型文本的自动分类方法、装置、设备和存储介质 |
CN117909507B (zh) * | 2024-03-19 | 2024-05-17 | 金盾检测技术股份有限公司 | 基于ai的数据分类系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040249643A1 (en) * | 2003-06-06 | 2004-12-09 | Ma Laboratories, Inc. | Web-based computer programming method to automatically fetch, compare, and update various product prices on the web servers |
CN101470731B (zh) * | 2007-12-26 | 2012-06-20 | 中国科学院自动化研究所 | 一种可个性化定制的网页过滤方法 |
CN101334784B (zh) * | 2008-07-30 | 2011-06-15 | 施章祖 | 计算机辅助报告与知识库产生的方法 |
-
2010
- 2010-03-05 CN CN2010101185007A patent/CN101794311B/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458658A (zh) * | 2019-07-31 | 2019-11-15 | 西安工程大学 | 一种基于语义信息的图书检索推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101794311A (zh) | 2010-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101794311B (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN108629633A (zh) | 一种基于大数据建立用户画像的方法及系统 | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN102708096B (zh) | 一种基于语义的网络智能舆情监测系统及其工作方法 | |
CN101364239B (zh) | 一种分类目录自动构建方法及相关系统 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN105760439B (zh) | 一种基于特定行为共现网络的人物共现关系图谱构建方法 | |
CN103577478B (zh) | 网页推送方法及系统 | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN106951422A (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN112434168B (zh) | 基于图书馆的知识图谱构建方法、碎片化知识生成方法 | |
Chawla et al. | Product opinion mining using sentiment analysis on smartphone reviews | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN102428467A (zh) | 用于分类的基于相似度的特征集补充 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
KR101801257B1 (ko) | 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술 | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
Aung et al. | Random forest classifier for multi-category classification of web pages | |
CN109002561A (zh) | 基于样本关键词学习的文本自动分类方法、系统及介质 | |
CN103049454A (zh) | 一种基于多标签分类的中英文搜索结果可视化系统 | |
Li et al. | Distributed search and fusion for wine label image retrieval | |
CN112464668A (zh) | 一种提取智能家居行业动态信息的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20100804 Assignee: NANJING AXON SCIENCE & TECHNOLOGY CO.,LTD. Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS Contract record no.: 2017320000034 Denomination of invention: Fuzzy data mining based automatic classification method of Chinese web pages Granted publication date: 20120613 License type: Exclusive License Record date: 20170306 |
|
EE01 | Entry into force of recordation of patent licensing contract | ||
EC01 | Cancellation of recordation of patent licensing contract |
Assignee: NANJING AXON SCIENCE & TECHNOLOGY Co.,Ltd. Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS Contract record no.: 2017320000034 Date of cancellation: 20210604 |
|
EC01 | Cancellation of recordation of patent licensing contract | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120613 |
|
CF01 | Termination of patent right due to non-payment of annual fee |