CN109960799A - 一种面向短文本的优化分类方法 - Google Patents
一种面向短文本的优化分类方法 Download PDFInfo
- Publication number
- CN109960799A CN109960799A CN201910182364.9A CN201910182364A CN109960799A CN 109960799 A CN109960799 A CN 109960799A CN 201910182364 A CN201910182364 A CN 201910182364A CN 109960799 A CN109960799 A CN 109960799A
- Authority
- CN
- China
- Prior art keywords
- feature
- vector
- cluster
- short text
- similar features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910182364.9A CN109960799B (zh) | 2019-03-12 | 2019-03-12 | 一种面向短文本的优化分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910182364.9A CN109960799B (zh) | 2019-03-12 | 2019-03-12 | 一种面向短文本的优化分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109960799A true CN109960799A (zh) | 2019-07-02 |
CN109960799B CN109960799B (zh) | 2021-07-27 |
Family
ID=67024233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910182364.9A Active CN109960799B (zh) | 2019-03-12 | 2019-03-12 | 一种面向短文本的优化分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109960799B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825850A (zh) * | 2019-11-07 | 2020-02-21 | 哈尔滨工业大学(深圳) | 一种自然语言主题分类方法及装置 |
CN111104511A (zh) * | 2019-11-18 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
CN111488429A (zh) * | 2020-03-19 | 2020-08-04 | 杭州叙简科技股份有限公司 | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 |
CN111553173A (zh) * | 2020-04-23 | 2020-08-18 | 苏州思必驰信息科技有限公司 | 自然语言生成训练方法和装置 |
CN112328790A (zh) * | 2020-11-06 | 2021-02-05 | 渤海大学 | 语料库的快速文本分类方法 |
CN112860898A (zh) * | 2021-03-16 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN113377607A (zh) * | 2021-05-13 | 2021-09-10 | 长沙理工大学 | 一种基于Word2Vec的日志异常检测方法、装置及电子设备 |
CN113486176A (zh) * | 2021-07-08 | 2021-10-08 | 桂林电子科技大学 | 一种基于二次特征放大的新闻分类方法 |
CN114357121A (zh) * | 2022-03-10 | 2022-04-15 | 四川大学 | 一种基于数据驱动的创新方案设计方法和系统 |
CN115329078A (zh) * | 2022-08-11 | 2022-11-11 | 北京百度网讯科技有限公司 | 文本数据处理方法、装置、设备以及存储介质 |
US11900946B2 (en) | 2020-07-28 | 2024-02-13 | Asustek Computer Inc. | Voice recognition method and electronic device using the same |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7139695B2 (en) * | 2002-06-20 | 2006-11-21 | Hewlett-Packard Development Company, L.P. | Method for categorizing documents by multilevel feature selection and hierarchical clustering based on parts of speech tagging |
CN104239436B (zh) * | 2014-08-27 | 2018-01-02 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN105426426B (zh) * | 2015-11-04 | 2018-11-02 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
CN107092679B (zh) * | 2017-04-21 | 2020-01-03 | 北京邮电大学 | 一种特征词向量获得方法、文本分类方法及装置 |
CN108363810B (zh) * | 2018-03-09 | 2022-02-15 | 南京工业大学 | 一种文本分类方法及装置 |
CN108763348B (zh) * | 2018-05-15 | 2022-05-03 | 南京邮电大学 | 一种扩展短文本词特征向量的分类改进方法 |
CN108664633B (zh) * | 2018-05-15 | 2020-12-04 | 南京大学 | 一种利用多样化文本特征进行文本分类的方法 |
-
2019
- 2019-03-12 CN CN201910182364.9A patent/CN109960799B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825850A (zh) * | 2019-11-07 | 2020-02-21 | 哈尔滨工业大学(深圳) | 一种自然语言主题分类方法及装置 |
CN110825850B (zh) * | 2019-11-07 | 2022-07-08 | 哈尔滨工业大学(深圳) | 一种自然语言主题分类方法及装置 |
CN111104511A (zh) * | 2019-11-18 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
CN111104511B (zh) * | 2019-11-18 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
CN111488429A (zh) * | 2020-03-19 | 2020-08-04 | 杭州叙简科技股份有限公司 | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 |
CN111553173A (zh) * | 2020-04-23 | 2020-08-18 | 苏州思必驰信息科技有限公司 | 自然语言生成训练方法和装置 |
CN111553173B (zh) * | 2020-04-23 | 2023-09-15 | 思必驰科技股份有限公司 | 自然语言生成训练方法和装置 |
US11900946B2 (en) | 2020-07-28 | 2024-02-13 | Asustek Computer Inc. | Voice recognition method and electronic device using the same |
CN112328790A (zh) * | 2020-11-06 | 2021-02-05 | 渤海大学 | 语料库的快速文本分类方法 |
CN112860898A (zh) * | 2021-03-16 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN113377607A (zh) * | 2021-05-13 | 2021-09-10 | 长沙理工大学 | 一种基于Word2Vec的日志异常检测方法、装置及电子设备 |
CN113486176A (zh) * | 2021-07-08 | 2021-10-08 | 桂林电子科技大学 | 一种基于二次特征放大的新闻分类方法 |
CN113486176B (zh) * | 2021-07-08 | 2022-11-04 | 桂林电子科技大学 | 一种基于二次特征放大的新闻分类方法 |
CN114357121A (zh) * | 2022-03-10 | 2022-04-15 | 四川大学 | 一种基于数据驱动的创新方案设计方法和系统 |
CN114357121B (zh) * | 2022-03-10 | 2022-07-15 | 四川大学 | 一种基于数据驱动的创新方案设计方法和系统 |
CN115329078A (zh) * | 2022-08-11 | 2022-11-11 | 北京百度网讯科技有限公司 | 文本数据处理方法、装置、设备以及存储介质 |
CN115329078B (zh) * | 2022-08-11 | 2024-03-12 | 北京百度网讯科技有限公司 | 文本数据处理方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109960799B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960799A (zh) | 一种面向短文本的优化分类方法 | |
CN108108351B (zh) | 一种基于深度学习组合模型的文本情感分类方法 | |
CN107193801B (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN100583101C (zh) | 基于领域知识的文本分类特征选择及权重计算方法 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN106528642A (zh) | 一种基于tf‑idf特征提取的短文本分类方法 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN104765769A (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN104331506A (zh) | 一种面向双语微博文本的多类情感分析方法与系统 | |
CN109948143A (zh) | 社区问答系统的答案抽取方法 | |
CN108376133A (zh) | 基于情感词扩充的短文本情感分类方法 | |
CN104361037B (zh) | 微博分类方法及装置 | |
CN109522544A (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN110909116A (zh) | 一种面向社交媒体的实体集合扩展方法及系统 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN113032541A (zh) | 一种基于bert并融合句群检索的答案抽取方法 | |
Khalid et al. | Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method | |
Amin et al. | Multiclass classification for bangla news tags with parallel cnn using word level data augmentation | |
Yu et al. | IDCNN-CRF-based domain named entity recognition method | |
Liu et al. | Internet news headlines classification method based on the n-gram language model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Fangfang Inventor after: Yin Yao Inventor after: Mao Xingliang Inventor after: Shi Ronghua Inventor after: Shi Jinjing Inventor after: Hu Chao Inventor before: Yin Yao Inventor before: Li Fangfang Inventor before: Mao Xingliang Inventor before: Shi Ronghua Inventor before: Shi Jinjing Inventor before: Hu Chao |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Fangfang Inventor after: Yin Yao Inventor after: Mao Xingliang Inventor after: Shi Ronghua Inventor after: Shi Jinjing Inventor after: Hu Chao Inventor after: Huang Wei Inventor before: Li Fangfang Inventor before: Yin Yao Inventor before: Mao Xingliang Inventor before: Shi Ronghua Inventor before: Shi Jinjing Inventor before: Hu Chao |
|
CB03 | Change of inventor or designer information | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211119 Address after: 410221 floor 5, building E6, Lugu enterprise Plaza, No. 27, Wenxuan Road, high tech Zone, Changsha City, Hunan Province Patentee after: CHANGSHA ZHIWEI INFORMATION TECHNOLOGY Co.,Ltd. Address before: 410000 Hunan province Changsha Lushan Road No. 932 Patentee before: CENTRAL SOUTH University |
|
TR01 | Transfer of patent right |