CN101794311B - 基于模糊数据挖掘的中文网页自动分类方法 - Google Patents
基于模糊数据挖掘的中文网页自动分类方法 Download PDFInfo
- Publication number
- CN101794311B CN101794311B CN2010101185007A CN201010118500A CN101794311B CN 101794311 B CN101794311 B CN 101794311B CN 2010101185007 A CN2010101185007 A CN 2010101185007A CN 201010118500 A CN201010118500 A CN 201010118500A CN 101794311 B CN101794311 B CN 101794311B
- Authority
- CN
- China
- Prior art keywords
- webpage
- classification
- fuzzy
- web page
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101185007A CN101794311B (zh) | 2010-03-05 | 2010-03-05 | 基于模糊数据挖掘的中文网页自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101185007A CN101794311B (zh) | 2010-03-05 | 2010-03-05 | 基于模糊数据挖掘的中文网页自动分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101794311A CN101794311A (zh) | 2010-08-04 |
CN101794311B true CN101794311B (zh) | 2012-06-13 |
Family
ID=42587010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101185007A Expired - Fee Related CN101794311B (zh) | 2010-03-05 | 2010-03-05 | 基于模糊数据挖掘的中文网页自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101794311B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458658A (zh) * | 2019-07-31 | 2019-11-15 | 西安工程大学 | 一种基于语义信息的图书检索推荐方法 |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375835B (zh) * | 2010-08-17 | 2016-06-29 | 深圳市世纪光速信息技术有限公司 | 一种信息搜索系统和方法 |
CN102567405A (zh) * | 2010-12-31 | 2012-07-11 | 北京安码科技有限公司 | 一种基于改进的文本空间向量表示的热点发现方法 |
CN102541960A (zh) * | 2010-12-31 | 2012-07-04 | 北大方正集团有限公司 | 一种模糊检索的方法及装置 |
CN102184189B (zh) * | 2011-04-18 | 2012-11-28 | 北京理工大学 | 基于dom节点文本密度的网页核心块确定方法 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN102955791A (zh) * | 2011-08-23 | 2013-03-06 | 句容今太科技园有限公司 | 网络信息搜索与分类服务系统 |
CN102289514B (zh) * | 2011-09-07 | 2016-03-30 | 中国科学院计算技术研究所 | 社会标签自动标注的方法以及社会标签自动标注器 |
CN102332012B (zh) * | 2011-09-13 | 2014-10-22 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN102289522B (zh) * | 2011-09-19 | 2014-08-13 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102521402B (zh) * | 2011-12-23 | 2014-02-19 | 上海电机学院 | 文本过滤系统及方法 |
CN102622553A (zh) * | 2012-04-24 | 2012-08-01 | 腾讯科技(深圳)有限公司 | 检测网页安全的方法及装置 |
CN102819595A (zh) * | 2012-08-10 | 2012-12-12 | 北京星网锐捷网络技术有限公司 | 网页分类方法、装置及网络设备 |
CN103678310B (zh) * | 2012-08-31 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 网页主题的分类方法及装置 |
CN102999569B (zh) * | 2012-11-09 | 2015-08-19 | 同济大学 | 用户需求分析定位器和分析及定位方法 |
CN103853720B (zh) * | 2012-11-28 | 2017-04-26 | 苏州信颐系统集成有限公司 | 基于用户关注度的网络敏感信息监控系统及方法 |
CN103870457A (zh) * | 2012-12-07 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种确定问答平台中的未回答问题优先级的方法及装置 |
CN103049557A (zh) * | 2012-12-31 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种站点资源管理方法及装置 |
CN103942693B (zh) * | 2013-01-18 | 2017-11-14 | 阿里巴巴集团控股有限公司 | 识别杂货铺的方法、装置及搜索店铺的方法、系统 |
CN103294820B (zh) * | 2013-06-14 | 2017-11-10 | 广东电网有限责任公司电力科学研究院 | 基于语义扩展的web页面归类方法和系统 |
CN104424308A (zh) * | 2013-09-04 | 2015-03-18 | 中兴通讯股份有限公司 | 网页分类标准获取方法、装置及网页分类方法、装置 |
CN103488746B (zh) * | 2013-09-22 | 2017-04-26 | 成都锐理开创信息技术有限公司 | 一种获取业务信息的方法及装置 |
CN103577547B (zh) * | 2013-10-12 | 2017-11-10 | 优视科技有限公司 | 网页类型识别方法及装置 |
CN103544310B (zh) * | 2013-11-04 | 2017-08-08 | 北京中搜云商网络技术有限公司 | 一种基于分类器实现的导购类网页的信息分类方法 |
CN103886007A (zh) * | 2013-12-20 | 2014-06-25 | 广西大学 | 一种基于相互约束的模糊数据分类方法 |
CN105446981B (zh) * | 2014-06-30 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 站点地图生成方法、访问方法及装置 |
CN104504037B (zh) * | 2014-12-15 | 2018-07-06 | 深圳市宜搜科技发展有限公司 | 实体词热度计算方法及装置 |
CN105005589B (zh) * | 2015-06-26 | 2017-12-29 | 腾讯科技(深圳)有限公司 | 一种文本分类的方法和装置 |
CN106484729B (zh) * | 2015-08-31 | 2020-05-08 | 华为技术有限公司 | 一种词汇生成、分类方法及装置 |
WO2017117781A1 (zh) * | 2016-01-07 | 2017-07-13 | 马岩 | 网络信息的分类方法及系统 |
CN105868363B (zh) * | 2016-03-29 | 2018-12-14 | 中国农业银行股份有限公司 | 一种基于模糊逻辑的网页页面正文抽取方法及系统 |
CN105912695A (zh) * | 2016-04-25 | 2016-08-31 | 全球电气资源(深圳)有限公司 | 一种基于互联网的数据信息传输和采集系统 |
CN107436875B (zh) * | 2016-05-25 | 2020-12-04 | 华为技术有限公司 | 文本分类方法及装置 |
CN106156372B (zh) * | 2016-08-31 | 2019-07-30 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
CN106547851B (zh) * | 2016-10-19 | 2020-04-07 | 贵州大学 | 基于模糊序列模式发掘的网页内容提取方法 |
CN106599155B (zh) * | 2016-12-07 | 2020-05-26 | 北京亚鸿世纪科技发展有限公司 | 一种网页分类方法及系统 |
CN106778357B (zh) * | 2016-12-23 | 2020-02-07 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页篡改的检测方法及装置 |
CN107092679B (zh) * | 2017-04-21 | 2020-01-03 | 北京邮电大学 | 一种特征词向量获得方法、文本分类方法及装置 |
CN107909088B (zh) * | 2017-09-27 | 2022-06-28 | 百度在线网络技术(北京)有限公司 | 获取训练样本的方法、装置、设备和计算机存储介质 |
CN108629043B (zh) * | 2018-05-14 | 2023-05-12 | 平安科技(深圳)有限公司 | 网页目标信息的提取方法、装置及存储介质 |
CN109062972A (zh) * | 2018-06-29 | 2018-12-21 | 平安科技(深圳)有限公司 | 网页分类方法、装置及计算机可读存储介质 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN109657180B (zh) * | 2018-12-11 | 2021-11-26 | 中科国力(镇江)智能技术有限公司 | 一种智能化网页内容自动模糊抽取系统 |
CN109800296B (zh) * | 2019-01-21 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN111881286B (zh) * | 2019-09-10 | 2021-08-24 | 马上消费金融股份有限公司 | 一种分类模糊性分析方法及装置 |
CN110705289B (zh) * | 2019-09-29 | 2023-03-28 | 重庆邮电大学 | 一种基于神经网络和模糊推理的中文分词方法、系统及介质 |
CN110633446B (zh) * | 2019-11-25 | 2020-03-13 | 湖南蚁坊软件股份有限公司 | 网页栏目识别模型训练方法、使用方法、装置和存储介质 |
CN112035662B (zh) * | 2020-08-26 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
CN114186057A (zh) * | 2020-09-15 | 2022-03-15 | 智慧芽(中国)科技有限公司 | 基于多类型文本的自动分类方法、装置、设备和存储介质 |
CN117909507B (zh) * | 2024-03-19 | 2024-05-17 | 金盾检测技术股份有限公司 | 基于ai的数据分类系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040249643A1 (en) * | 2003-06-06 | 2004-12-09 | Ma Laboratories, Inc. | Web-based computer programming method to automatically fetch, compare, and update various product prices on the web servers |
CN101470731B (zh) * | 2007-12-26 | 2012-06-20 | 中国科学院自动化研究所 | 一种可个性化定制的网页过滤方法 |
CN101334784B (zh) * | 2008-07-30 | 2011-06-15 | 施章祖 | 计算机辅助报告与知识库产生的方法 |
-
2010
- 2010-03-05 CN CN2010101185007A patent/CN101794311B/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458658A (zh) * | 2019-07-31 | 2019-11-15 | 西安工程大学 | 一种基于语义信息的图书检索推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101794311A (zh) | 2010-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101794311B (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN108959431B (zh) | 标签自动生成方法、系统、计算机可读存储介质及设备 | |
CN104035997B (zh) | 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法 | |
CN102708096B (zh) | 一种基于语义的网络智能舆情监测系统及其工作方法 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN108629633A (zh) | 一种基于大数据建立用户画像的方法及系统 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN103577478B (zh) | 网页推送方法及系统 | |
CN107705066A (zh) | 一种商品入库时信息录入方法及电子设备 | |
CN106951422A (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN108984518A (zh) | 一种面向裁判文书的文本分类方法 | |
CN103744981A (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN108021715B (zh) | 基于语义结构特征分析的异构标签融合系统 | |
CN102428467A (zh) | 用于分类的基于相似度的特征集补充 | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
KR20170115109A (ko) | 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술 | |
Aung et al. | Random forest classifier for multi-category classification of web pages | |
CN107908749A (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
CN107368610A (zh) | 基于全文的大文本 crf 和规则分类方法和系统 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
Priyatam et al. | Don't Use a Lot When Little Will Do: Genre Identification Using URLs. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20100804 Assignee: NANJING AXON SCIENCE & TECHNOLOGY CO.,LTD. Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS Contract record no.: 2017320000034 Denomination of invention: Fuzzy data mining based automatic classification method of Chinese web pages Granted publication date: 20120613 License type: Exclusive License Record date: 20170306 |
|
EC01 | Cancellation of recordation of patent licensing contract | ||
EC01 | Cancellation of recordation of patent licensing contract |
Assignee: NANJING AXON SCIENCE & TECHNOLOGY Co.,Ltd. Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS Contract record no.: 2017320000034 Date of cancellation: 20210604 |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120613 |