CN104199846A - 基于维基百科的评论主题词聚类方法 - Google Patents
基于维基百科的评论主题词聚类方法 Download PDFInfo
- Publication number
- CN104199846A CN104199846A CN201410389477.3A CN201410389477A CN104199846A CN 104199846 A CN104199846 A CN 104199846A CN 201410389477 A CN201410389477 A CN 201410389477A CN 104199846 A CN104199846 A CN 104199846A
- Authority
- CN
- China
- Prior art keywords
- word
- noun
- wikipedia
- descriptor
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410389477.3A CN104199846B (zh) | 2014-08-08 | 2014-08-08 | 基于维基百科的评论主题词聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410389477.3A CN104199846B (zh) | 2014-08-08 | 2014-08-08 | 基于维基百科的评论主题词聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104199846A true CN104199846A (zh) | 2014-12-10 |
CN104199846B CN104199846B (zh) | 2017-09-19 |
Family
ID=52085139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410389477.3A Active CN104199846B (zh) | 2014-08-08 | 2014-08-08 | 基于维基百科的评论主题词聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199846B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866572A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种网络短文本聚类方法 |
CN105138537A (zh) * | 2015-07-08 | 2015-12-09 | 上海大学 | 基于自信息的跨学科领域共现主题发现方法 |
CN105159927A (zh) * | 2015-08-04 | 2015-12-16 | 北京金山安全软件有限公司 | 目标文本主题词的选取方法、装置及终端 |
CN106997344A (zh) * | 2017-03-31 | 2017-08-01 | 成都数联铭品科技有限公司 | 关键词抽取系统 |
CN107562715A (zh) * | 2017-07-18 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及电子设备 |
CN108776709A (zh) * | 2015-10-27 | 2018-11-09 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及词典更新方法 |
CN109461037A (zh) * | 2018-12-17 | 2019-03-12 | 北京百度网讯科技有限公司 | 评论观点聚类方法、装置和终端 |
WO2019084867A1 (zh) * | 2017-11-02 | 2019-05-09 | 深圳前海达闼云端智能科技有限公司 | 自动回答方法、装置、存储介质及电子设备 |
CN109977414A (zh) * | 2019-04-01 | 2019-07-05 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN110069635A (zh) * | 2019-04-30 | 2019-07-30 | 秒针信息技术有限公司 | 一种热度词的确定方法及装置 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
CN113010670A (zh) * | 2021-02-22 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 账号信息聚类方法、检测方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100332503A1 (en) * | 2009-06-30 | 2010-12-30 | Brad Buckley | System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus |
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
CN103778207A (zh) * | 2014-01-15 | 2014-05-07 | 杭州电子科技大学 | 基于lda的新闻评论的话题挖掘方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
-
2014
- 2014-08-08 CN CN201410389477.3A patent/CN104199846B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100332503A1 (en) * | 2009-06-30 | 2010-12-30 | Brad Buckley | System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus |
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
CN103778207A (zh) * | 2014-01-15 | 2014-05-07 | 杭州电子科技大学 | 基于lda的新闻评论的话题挖掘方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
Non-Patent Citations (2)
Title |
---|
张立: "基于新闻评论数据的K-means聚类算法研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 * |
赵文清 等: "基于词共现图的中文微博新闻话题识别", 《智能系统学报》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866572B (zh) * | 2015-05-22 | 2018-05-18 | 齐鲁工业大学 | 一种网络短文本聚类方法 |
CN104866572A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种网络短文本聚类方法 |
CN105138537A (zh) * | 2015-07-08 | 2015-12-09 | 上海大学 | 基于自信息的跨学科领域共现主题发现方法 |
CN105138537B (zh) * | 2015-07-08 | 2018-12-07 | 上海大学 | 基于自信息的跨学科领域共现主题发现方法 |
CN105159927A (zh) * | 2015-08-04 | 2015-12-16 | 北京金山安全软件有限公司 | 目标文本主题词的选取方法、装置及终端 |
CN105159927B (zh) * | 2015-08-04 | 2019-03-15 | 北京金山安全软件有限公司 | 目标文本主题词的选取方法、装置及终端 |
CN108776709B (zh) * | 2015-10-27 | 2020-05-19 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及词典更新方法 |
CN108776709A (zh) * | 2015-10-27 | 2018-11-09 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及词典更新方法 |
CN106997344A (zh) * | 2017-03-31 | 2017-08-01 | 成都数联铭品科技有限公司 | 关键词抽取系统 |
CN107562715A (zh) * | 2017-07-18 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及电子设备 |
CN107562715B (zh) * | 2017-07-18 | 2021-01-26 | 创新先进技术有限公司 | 词向量处理方法、装置以及电子设备 |
WO2019084867A1 (zh) * | 2017-11-02 | 2019-05-09 | 深圳前海达闼云端智能科技有限公司 | 自动回答方法、装置、存储介质及电子设备 |
CN109461037A (zh) * | 2018-12-17 | 2019-03-12 | 北京百度网讯科技有限公司 | 评论观点聚类方法、装置和终端 |
CN109977414A (zh) * | 2019-04-01 | 2019-07-05 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN109977414B (zh) * | 2019-04-01 | 2023-03-14 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN110069635A (zh) * | 2019-04-30 | 2019-07-30 | 秒针信息技术有限公司 | 一种热度词的确定方法及装置 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
CN113010670A (zh) * | 2021-02-22 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 账号信息聚类方法、检测方法、装置及存储介质 |
CN113010670B (zh) * | 2021-02-22 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 账号信息聚类方法、检测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104199846B (zh) | 2017-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199846A (zh) | 基于维基百科的评论主题词聚类方法 | |
CN103778207B (zh) | 基于lda的新闻评论的话题挖掘方法 | |
CN103136359B (zh) | 单文档摘要生成方法 | |
CN104615767A (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN108052593A (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
AU2017416649A1 (en) | Method for recognizing network text named entity based on neural network probability disambiguation | |
US20180052823A1 (en) | Hybrid Classifier for Assigning Natural Language Processing (NLP) Inputs to Domains in Real-Time | |
CN104035975B (zh) | 一种利用中文在线资源实现远程监督人物关系抽取的方法 | |
CN107247780A (zh) | 一种基于知识本体的专利文献相似性度量方法 | |
CN105893410A (zh) | 一种关键词提取方法和装置 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
CN107423282A (zh) | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 | |
CN104636456A (zh) | 一种基于词向量的问题路由方法 | |
CN101782898A (zh) | 一种情感词倾向性的分析方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN105261358A (zh) | 用于语音识别的n元文法模型构造方法及语音识别系统 | |
CN108710611A (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
Tur et al. | Exploiting the semantic web for unsupervised natural language semantic parsing | |
CN106372064A (zh) | 一种文本挖掘的特征词权重计算方法 | |
CN104866517A (zh) | 一种抓取网页内容的方法及装置 | |
CN103530316B (zh) | 一种基于多视图学习的科学主题提取方法 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20141210 Assignee: Hangzhou Xinye Transmission Technology Co. Ltd. Assignor: Hangzhou Electronic Science and Technology Univ Contract record no.: 2019330000035 Denomination of invention: Comment subject term clustering method based on Wikipedia Granted publication date: 20170919 License type: Common License Record date: 20190320 |
|
EE01 | Entry into force of recordation of patent licensing contract | ||
TR01 | Transfer of patent right |
Effective date of registration: 20191014 Address after: 310000 23 / F, Shimao center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Hangzhou Xinye Transmission Technology Co. Ltd. Address before: Hangzhou City, Zhejiang province 310018 Xiasha Higher Education Park No. 2 street Patentee before: Hangzhou Electronic Science and Technology Univ |
|
TR01 | Transfer of patent right | ||
CP03 | Change of name, title or address |
Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611 Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd. Address before: 310000 floor 23, Shimao center, No. 857, Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: Hangzhou Yuanchuan New Technology Co.,Ltd. |
|
CP03 | Change of name, title or address |