CN109960799B - 一种面向短文本的优化分类方法 - Google Patents
一种面向短文本的优化分类方法 Download PDFInfo
- Publication number
- CN109960799B CN109960799B CN201910182364.9A CN201910182364A CN109960799B CN 109960799 B CN109960799 B CN 109960799B CN 201910182364 A CN201910182364 A CN 201910182364A CN 109960799 B CN109960799 B CN 109960799B
- Authority
- CN
- China
- Prior art keywords
- feature
- word
- vector
- cluster
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
Description
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910182364.9A CN109960799B (zh) | 2019-03-12 | 2019-03-12 | 一种面向短文本的优化分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910182364.9A CN109960799B (zh) | 2019-03-12 | 2019-03-12 | 一种面向短文本的优化分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109960799A CN109960799A (zh) | 2019-07-02 |
CN109960799B true CN109960799B (zh) | 2021-07-27 |
Family
ID=67024233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910182364.9A Active CN109960799B (zh) | 2019-03-12 | 2019-03-12 | 一种面向短文本的优化分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109960799B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825850B (zh) * | 2019-11-07 | 2022-07-08 | 哈尔滨工业大学(深圳) | 一种自然语言主题分类方法及装置 |
CN111104511B (zh) * | 2019-11-18 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
CN111488429A (zh) * | 2020-03-19 | 2020-08-04 | 杭州叙简科技股份有限公司 | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 |
CN111553173B (zh) * | 2020-04-23 | 2023-09-15 | 思必驰科技股份有限公司 | 自然语言生成训练方法和装置 |
TWI807203B (zh) | 2020-07-28 | 2023-07-01 | 華碩電腦股份有限公司 | 聲音辨識方法及使用其之電子裝置 |
CN112328790A (zh) * | 2020-11-06 | 2021-02-05 | 渤海大学 | 语料库的快速文本分类方法 |
CN112860898B (zh) * | 2021-03-16 | 2022-05-27 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN113377607A (zh) * | 2021-05-13 | 2021-09-10 | 长沙理工大学 | 一种基于Word2Vec的日志异常检测方法、装置及电子设备 |
CN113486176B (zh) * | 2021-07-08 | 2022-11-04 | 桂林电子科技大学 | 一种基于二次特征放大的新闻分类方法 |
CN114357121B (zh) * | 2022-03-10 | 2022-07-15 | 四川大学 | 一种基于数据驱动的创新方案设计方法和系统 |
CN115329078B (zh) * | 2022-08-11 | 2024-03-12 | 北京百度网讯科技有限公司 | 文本数据处理方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030236659A1 (en) * | 2002-06-20 | 2003-12-25 | Malu Castellanos | Method for categorizing documents by multilevel feature selection and hierarchical clustering based on parts of speech tagging |
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN105426426A (zh) * | 2015-11-04 | 2016-03-23 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
CN107092679A (zh) * | 2017-04-21 | 2017-08-25 | 北京邮电大学 | 一种特征词向量获得方法、文本分类方法及装置 |
CN108363810A (zh) * | 2018-03-09 | 2018-08-03 | 南京工业大学 | 一种文本分类方法及装置 |
CN108664633A (zh) * | 2018-05-15 | 2018-10-16 | 南京大学 | 一种利用多样化文本特征进行文本分类的方法 |
CN108763348A (zh) * | 2018-05-15 | 2018-11-06 | 南京邮电大学 | 一种扩展短文本词特征向量的分类改进方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599029B (zh) * | 2016-11-02 | 2021-04-06 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN109033307B (zh) * | 2018-07-17 | 2021-08-31 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
-
2019
- 2019-03-12 CN CN201910182364.9A patent/CN109960799B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030236659A1 (en) * | 2002-06-20 | 2003-12-25 | Malu Castellanos | Method for categorizing documents by multilevel feature selection and hierarchical clustering based on parts of speech tagging |
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN105426426A (zh) * | 2015-11-04 | 2016-03-23 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
CN107092679A (zh) * | 2017-04-21 | 2017-08-25 | 北京邮电大学 | 一种特征词向量获得方法、文本分类方法及装置 |
CN108363810A (zh) * | 2018-03-09 | 2018-08-03 | 南京工业大学 | 一种文本分类方法及装置 |
CN108664633A (zh) * | 2018-05-15 | 2018-10-16 | 南京大学 | 一种利用多样化文本特征进行文本分类的方法 |
CN108763348A (zh) * | 2018-05-15 | 2018-11-06 | 南京邮电大学 | 一种扩展短文本词特征向量的分类改进方法 |
Non-Patent Citations (1)
Title |
---|
周庆平 等.基于聚类改进的KNN文本分类算法.《计算机应用研究》.2016,第33卷(第11期),第3374-3377+3382页. * |
Also Published As
Publication number | Publication date |
---|---|
CN109960799A (zh) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960799B (zh) | 一种面向短文本的优化分类方法 | |
CN108108351B (zh) | 一种基于深度学习组合模型的文本情感分类方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN107193801B (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
CN108280206B (zh) | 一种基于语义增强的短文本分类方法 | |
CN109002473B (zh) | 一种基于词向量与词性的情感分析方法 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN106528642A (zh) | 一种基于tf‑idf特征提取的短文本分类方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN111506728B (zh) | 基于hd-mscnn的层次结构文本自动分类方法 | |
CN103514170A (zh) | 一种语音识别的文本分类方法和装置 | |
WO2020063071A1 (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
CN107220293B (zh) | 基于情绪的文本分类方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
Zhang et al. | Research on keyword extraction of Word2vec model in Chinese corpus | |
CN110909116A (zh) | 一种面向社交媒体的实体集合扩展方法及系统 | |
CN113672718A (zh) | 基于特征匹配和领域自适应的对话意图识别方法及系统 | |
Song | Sentiment analysis of Japanese text and vocabulary learning based on natural language processing and SVM | |
CN115168580A (zh) | 一种基于关键词提取与注意力机制的文本分类方法 | |
CN109344331A (zh) | 一种基于在线社会网络的用户情感分析方法 | |
Wang et al. | Improving handwritten Chinese text recognition by unsupervised language model adaptation | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Fangfang Inventor after: Yin Yao Inventor after: Mao Xingliang Inventor after: Shi Ronghua Inventor after: Shi Jinjing Inventor after: Hu Chao Inventor before: Yin Yao Inventor before: Li Fangfang Inventor before: Mao Xingliang Inventor before: Shi Ronghua Inventor before: Shi Jinjing Inventor before: Hu Chao |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Fangfang Inventor after: Yin Yao Inventor after: Mao Xingliang Inventor after: Shi Ronghua Inventor after: Shi Jinjing Inventor after: Hu Chao Inventor after: Huang Wei Inventor before: Li Fangfang Inventor before: Yin Yao Inventor before: Mao Xingliang Inventor before: Shi Ronghua Inventor before: Shi Jinjing Inventor before: Hu Chao |
|
CB03 | Change of inventor or designer information | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211119 Address after: 410221 floor 5, building E6, Lugu enterprise Plaza, No. 27, Wenxuan Road, high tech Zone, Changsha City, Hunan Province Patentee after: CHANGSHA ZHIWEI INFORMATION TECHNOLOGY Co.,Ltd. Address before: 410000 Hunan province Changsha Lushan Road No. 932 Patentee before: CENTRAL SOUTH University |
|
TR01 | Transfer of patent right |