CN103345528A - 一种基于关联分析和knn的文本分类方法 - Google Patents
一种基于关联分析和knn的文本分类方法 Download PDFInfo
- Publication number
- CN103345528A CN103345528A CN2013103120180A CN201310312018A CN103345528A CN 103345528 A CN103345528 A CN 103345528A CN 2013103120180 A CN2013103120180 A CN 2013103120180A CN 201310312018 A CN201310312018 A CN 201310312018A CN 103345528 A CN103345528 A CN 103345528A
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- training
- feature
- sorted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000010219 correlation analysis Methods 0.000 title abstract 4
- 238000012549 training Methods 0.000 claims description 44
- 238000012098 association analyses Methods 0.000 claims description 17
- 238000004064 recycling Methods 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 206010051602 Laziness Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012097 association analysis method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310312018.0A CN103345528B (zh) | 2013-07-24 | 2013-07-24 | 一种基于关联分析和knn的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310312018.0A CN103345528B (zh) | 2013-07-24 | 2013-07-24 | 一种基于关联分析和knn的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103345528A true CN103345528A (zh) | 2013-10-09 |
CN103345528B CN103345528B (zh) | 2016-08-24 |
Family
ID=49280323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310312018.0A Expired - Fee Related CN103345528B (zh) | 2013-07-24 | 2013-07-24 | 一种基于关联分析和knn的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103345528B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744954A (zh) * | 2014-01-06 | 2014-04-23 | 同济大学 | 一种词关联网模型的构建方法及其构建器 |
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN104580234A (zh) * | 2015-01-19 | 2015-04-29 | 合肥工业大学 | 一种社交网络中行为特征的保护方法 |
CN105426426A (zh) * | 2015-11-04 | 2016-03-23 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
CN106021578A (zh) * | 2016-06-01 | 2016-10-12 | 南京邮电大学 | 一种基于聚类和隶属度融合的改进型文本分类算法 |
CN106326246A (zh) * | 2015-06-19 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 一种基于数据支持的应用系统构建方法及装置 |
CN106650776A (zh) * | 2016-10-14 | 2017-05-10 | 浙江大学 | 一种基于动态滑动窗口的目标种子搜索方法 |
CN106779403A (zh) * | 2016-12-13 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种电子政务系统的绩效评估方法及系统 |
CN109299263A (zh) * | 2018-10-10 | 2019-02-01 | 上海观安信息技术股份有限公司 | 文本分类方法、电子设备及计算机程序产品 |
CN109522408A (zh) * | 2018-10-30 | 2019-03-26 | 广东原昇信息科技有限公司 | 信息流素材创意文本的分类方法 |
CN109886020A (zh) * | 2019-01-24 | 2019-06-14 | 燕山大学 | 基于深度神经网络的软件漏洞自动分类方法 |
CN110377735A (zh) * | 2019-07-02 | 2019-10-25 | 厦门耐特源码信息科技有限公司 | 一种基于knn技术的语料库文本分类方法 |
CN110825839A (zh) * | 2019-11-07 | 2020-02-21 | 成都国腾实业集团有限公司 | 一种对文本信息中目标的关联关系分析方法 |
CN110969172A (zh) * | 2018-09-28 | 2020-04-07 | 武汉斗鱼网络科技有限公司 | 一种文本的分类方法以及相关设备 |
CN112214598A (zh) * | 2020-09-27 | 2021-01-12 | 中润普达(十堰)大数据中心有限公司 | 一种基于头发状况的认知系统 |
US10956469B2 (en) | 2017-01-06 | 2021-03-23 | International Business Machines Corporation | System and method for metadata correlation using natural language processing |
CN114328934A (zh) * | 2022-01-18 | 2022-04-12 | 重庆邮电大学 | 一种基于注意力机制的多标签文本分类方法及系统 |
CN114417962A (zh) * | 2021-12-08 | 2022-04-29 | 航天科工网络信息发展有限公司 | 基于k近邻算法的异常数据检测方法、系统、设备、介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294223A1 (en) * | 2006-06-16 | 2007-12-20 | Technion Research And Development Foundation Ltd. | Text Categorization Using External Knowledge |
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
CN102033949A (zh) * | 2010-12-23 | 2011-04-27 | 南京财经大学 | 基于修正的k近邻文本分类方法 |
-
2013
- 2013-07-24 CN CN201310312018.0A patent/CN103345528B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294223A1 (en) * | 2006-06-16 | 2007-12-20 | Technion Research And Development Foundation Ltd. | Text Categorization Using External Knowledge |
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
CN102033949A (zh) * | 2010-12-23 | 2011-04-27 | 南京财经大学 | 基于修正的k近邻文本分类方法 |
Non-Patent Citations (1)
Title |
---|
陈晓云等: "基于分类规则树的频繁模式文本分类", 《软件学报》, vol. 17, no. 5, 31 May 2006 (2006-05-31), pages 1017 - 1025 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744954B (zh) * | 2014-01-06 | 2017-02-01 | 同济大学 | 一种词关联网模型的构建方法及其构建器 |
CN103744954A (zh) * | 2014-01-06 | 2014-04-23 | 同济大学 | 一种词关联网模型的构建方法及其构建器 |
CN104239436B (zh) * | 2014-08-27 | 2018-01-02 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN104580234A (zh) * | 2015-01-19 | 2015-04-29 | 合肥工业大学 | 一种社交网络中行为特征的保护方法 |
CN104580234B (zh) * | 2015-01-19 | 2017-08-11 | 合肥工业大学 | 一种社交网络中行为特征的保护方法 |
CN106326246B (zh) * | 2015-06-19 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 一种基于数据支持的应用系统构建方法及装置 |
CN106326246A (zh) * | 2015-06-19 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 一种基于数据支持的应用系统构建方法及装置 |
CN105426426A (zh) * | 2015-11-04 | 2016-03-23 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
CN105426426B (zh) * | 2015-11-04 | 2018-11-02 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
CN106021578A (zh) * | 2016-06-01 | 2016-10-12 | 南京邮电大学 | 一种基于聚类和隶属度融合的改进型文本分类算法 |
CN106021578B (zh) * | 2016-06-01 | 2019-07-23 | 南京邮电大学 | 一种基于聚类和隶属度融合的改进型文本分类算法 |
CN106650776A (zh) * | 2016-10-14 | 2017-05-10 | 浙江大学 | 一种基于动态滑动窗口的目标种子搜索方法 |
CN106779403A (zh) * | 2016-12-13 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种电子政务系统的绩效评估方法及系统 |
US10956469B2 (en) | 2017-01-06 | 2021-03-23 | International Business Machines Corporation | System and method for metadata correlation using natural language processing |
CN110969172A (zh) * | 2018-09-28 | 2020-04-07 | 武汉斗鱼网络科技有限公司 | 一种文本的分类方法以及相关设备 |
CN109299263A (zh) * | 2018-10-10 | 2019-02-01 | 上海观安信息技术股份有限公司 | 文本分类方法、电子设备及计算机程序产品 |
CN109299263B (zh) * | 2018-10-10 | 2021-01-05 | 上海观安信息技术股份有限公司 | 文本分类方法、电子设备 |
CN109522408A (zh) * | 2018-10-30 | 2019-03-26 | 广东原昇信息科技有限公司 | 信息流素材创意文本的分类方法 |
CN109886020B (zh) * | 2019-01-24 | 2020-02-04 | 燕山大学 | 基于深度神经网络的软件漏洞自动分类方法 |
CN109886020A (zh) * | 2019-01-24 | 2019-06-14 | 燕山大学 | 基于深度神经网络的软件漏洞自动分类方法 |
CN110377735A (zh) * | 2019-07-02 | 2019-10-25 | 厦门耐特源码信息科技有限公司 | 一种基于knn技术的语料库文本分类方法 |
CN110825839A (zh) * | 2019-11-07 | 2020-02-21 | 成都国腾实业集团有限公司 | 一种对文本信息中目标的关联关系分析方法 |
CN112214598A (zh) * | 2020-09-27 | 2021-01-12 | 中润普达(十堰)大数据中心有限公司 | 一种基于头发状况的认知系统 |
CN114417962A (zh) * | 2021-12-08 | 2022-04-29 | 航天科工网络信息发展有限公司 | 基于k近邻算法的异常数据检测方法、系统、设备、介质 |
CN114328934A (zh) * | 2022-01-18 | 2022-04-12 | 重庆邮电大学 | 一种基于注意力机制的多标签文本分类方法及系统 |
CN114328934B (zh) * | 2022-01-18 | 2024-05-28 | 重庆邮电大学 | 一种基于注意力机制的多标签文本分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103345528B (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103345528A (zh) | 一种基于关联分析和knn的文本分类方法 | |
CN104239436B (zh) | 一种基于文本分类和聚类分析的网络热点事件发现方法 | |
CN106201465B (zh) | 面向开源社区的软件项目个性化推荐方法 | |
CN104750844A (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN104391860A (zh) | 内容类别检测方法及装置 | |
CN107871144A (zh) | 发票商品名分类方法、系统、设备及计算机可读存储介质 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN103699523A (zh) | 产品分类方法和装置 | |
CN106021578A (zh) | 一种基于聚类和隶属度融合的改进型文本分类算法 | |
Abdelaal et al. | Improve the automatic classification accuracy for Arabic tweets using ensemble methods | |
CN101876987A (zh) | 一种面向类间交叠的两类文本分类方法 | |
CN101540017A (zh) | 基于字节级n元文法的特征提取方法及垃圾邮件过滤器 | |
BaygIn | Classification of text documents based on Naive Bayes using N-Gram features | |
CN103886077B (zh) | 短文本的聚类方法和系统 | |
CN104392006A (zh) | 一种事件查询处理方法及装置 | |
CN101763431A (zh) | 基于海量网络舆情信息的pl聚类处理方法 | |
CN104142960A (zh) | 互联网数据分析系统 | |
CN102298646A (zh) | 一种主观文本和客观文本分类方法及装置 | |
CN103886108A (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN103218405A (zh) | 基于维数约简的集成迁移文本分类方法 | |
CN105045913A (zh) | 基于WordNet以及潜在语义分析的文本分类方法 | |
CN106934055A (zh) | 一种基于不充分模态信息的半监督网页自动分类方法 | |
CN102004796B (zh) | 一种网页文本的无阻滞层次分类方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20131009 Assignee: Jiangsu Nanyou IOT Technology Park Ltd. Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS Contract record no.: 2016320000214 Denomination of invention: Text classification method based on correlation analysis and KNN Granted publication date: 20160824 License type: Common License Record date: 20161117 |
|
LICC | Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model | ||
EC01 | Cancellation of recordation of patent licensing contract | ||
EC01 | Cancellation of recordation of patent licensing contract |
Assignee: Jiangsu Nanyou IOT Technology Park Ltd. Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS Contract record no.: 2016320000214 Date of cancellation: 20180116 |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160824 |