CN104199846A - 基于维基百科的评论主题词聚类方法 - Google Patents

基于维基百科的评论主题词聚类方法 Download PDF

Info

Publication number
CN104199846A
CN104199846A CN201410389477.3A CN201410389477A CN104199846A CN 104199846 A CN104199846 A CN 104199846A CN 201410389477 A CN201410389477 A CN 201410389477A CN 104199846 A CN104199846 A CN 104199846A
Authority
CN
China
Prior art keywords
word
noun
wikipedia
descriptor
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410389477.3A
Other languages
English (en)
Other versions
CN104199846B (zh
Inventor
姜明
严文操
陈婵
王兴起
张旻
汤景凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201410389477.3A priority Critical patent/CN104199846B/zh
Publication of CN104199846A publication Critical patent/CN104199846A/zh
Application granted granted Critical
Publication of CN104199846B publication Critical patent/CN104199846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于维基百科的评论主题词聚类方法。现行的主题词聚类由于选取语料库和词语相似度计算之间的原因,评论的主题词聚类准确率不高。本发明首先对于评论进行词性的标注,接着进行评论的主题词的提取,然后是基于维基百科的词语相似度模型的生成,词的相似度矩阵的生成。这里词的相似度采用词向量的余弦相似度进行衡量。最有在采用k均值算法进行主题词的聚类。本发明的结果是提高评论主题词聚类的准确性。

Description

基于维基百科的评论主题词聚类方法
技术领域
本发明涉及评论主题词聚类,具体是一种基于维基百科的评论主题词聚类。
背景技术
随着互联网的飞速发展,越来越多的人喜欢上网,并且人们在网上留下大量评论。例如著名的网上购物平台亚马逊,一个热门商品的客户评论多达几千条。用户如何在大量的评论中找到自己感兴趣的评论这是一个问题。如果将这些评论通过主题的相关性聚类到一起,以这样的方式呈现给用户,那么就方便用户筛选,避免浏览不必要的信息。
发明内容
本发明针对现有技术的不足,提供一种基于维基百科的评论主题词聚类。
本发明方法具体包括以下步骤:
(1)词性标注;
(2)主题词提取;
(3)基于维基百科的词语相似度模型生成;
(4)词的相似度矩阵生成。
(5)k均值算法进行主题词的聚类。
所述的词性标注,包括如下步骤:
A)采用中科院提供的ICTCLAS汉语分词系统对评论进行分词并标注其词性;
B)对词性标注后的评论进行预处理,删除不必要的内容,其中包括去除停用词,去除不必要的词性如助词,数量词等。
所述的主题词提取,包括如下步骤:
C)根据中文的语言表达习惯,主题词一般为名词,并且在主题词附近会有表达主题情感的形容词。根据(形容词+名词),(名词+形容词),(名词+副词+形容词)的模式来提取主题词;
D)由于汉语分词系统的准确率并非100%,所以对名词的标注会有不合理的地方。根据(名词),(名词+名词),(名词+名词性语素)的模式来确认名词;
E)统计每个名词出现的频率。根据日常评论的特点,一个主题词会被不同人多次提及,因此去掉一些低频的名词。
所述的基于维基百科的词语相似度模型生成,包括如下步骤:
F)筛选维基百科的文章,滤去字符数少于300的文章;
G)对于筛选后的文章进行分词;
H)词典的建立,其中包括去除停用词和低频词
I)建立词的空间向量模型。每个词的维数就是维基百科的文章篇数,每一维对应的值是该词对于该文章的TFIDF权重。
所述的词的相似度矩阵生成,包括如下步骤:
J)对于要聚类的主题词集合建立相似度矩阵;词与词之间的相似度则用词向量之间的余弦相似度表示。
所述的k均值算法进行主题词的聚类,包括如下步骤:
K)采用机器学习中的k均值算法进行评论主题词的聚类;k-均值算法的准则函数基于余弦相似度。
本发明的有益效果:
第一,由于本发明提出采用维基百科,词汇量更加丰富。
第二,由于本发明提出采用维基百科,采用其他语料库例如知网等是由一群专家凭借专业知识组建的语料库,而维基百科是由全世界的人们一起组建的语料库,从而维基百科语料库更加符合人们对于语言的自然表述,潜在着更加准确的词语之间的语义关系。
第三,由于本发明提出采用余弦相似度计算词语之间的距离,并用相似度矩阵进行聚类。更加真实的反应自然语言词之间的相似度。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图1,对本发明基于维基百科的评论主题词聚类做进一步说明:
1、首先从网站上下载评论,并对评论采用中科院提供的ICTCLAS汉语分词系统进行分词,进行词性标注。在对词性标注后的评论进行预处理,包括去除停用词,去除不必要的词性
2、主题词的提取,根据中文语言表达的习惯,主题词一般是名词,并且在主题词附近会有表达主题情感的形容词。如下表1中的名词就是需要提取的主题词。
                       表1主题词提取模式
由于汉语分词系统准确率并非100%,所以对于名词的标注会有不合理的地方。
表格2的模式识别出更加准确的名词,从而提高系统的准确率。
                      表2名词提取模式
接下来,统计每个名词出现的频率。根据日常评论的特点,一个主题词会被不同人多次提及,因此去掉一些低频的名词。
3、基于维基百科的词语相似度模型生成,表3讲述模型生成的具体过程
                   表3词语相似度模型生成算法
4、词的相似度矩阵生成。通过计算两个词向量的余弦相似度来计算词语之间的相似度。具体公式如下:
a ij = Word i * word j | word i | * | word j |
5、k均值算法进行主题词的聚类
采用机器学习中经典的k均值算法,计算词之间的距离,k均值算法的准则函数是基于余弦相似度的。准则函数表述如下:
E = Σ i = 1 k Σ p ∈ C i cos ( p , m i ) .

Claims (1)

1. 基于维基百科的评论主题词聚类方法,其特征在于包括如下步骤:
步骤(1)词性标注,具体是:
A)采用中科院提供的ICTCLAS汉语分词系统对评论进行分词并标注其词性;
B)对词性标注后的评论进行预处理,删除不必要的内容,其中包括去除停用词、助词,数量词;
步骤(2)主题词提取,具体是:
C)根据“形容词+名词”,“名词+形容词”,“名词+副词+形容词”的模式来提取主题词;
D)根据“名词”,“名词+名词”,“名词+名词性语素”的模式来确认名词;
E)统计每个名词出现的频率,去掉一些低频的名词;
步骤(3)基于维基百科的词语相似度模型生成,具体是:
F)筛选维基百科的文章,滤去字符数少于300的文章;
G)对于筛选后的文章进行分词;
H)建立词典,其中包括去除停用词和低频词
I)建立词的空间向量模型;每个词的维数就是维基百科的文章篇数,每一维对应的值是该词对于该文章的TFIDF权重
步骤(4)词的相似度矩阵生成,具体是:
J)对于要聚类的主题词集合建立相似度矩阵;词与词之间的相似度则用词向量之间的余弦相似度表示;
步骤(5)k均值算法进行主题词的聚类,具体是:
K)采用机器学习中的k均值算法进行评论主题词的聚类;k-均值算法的准则函数基于余弦相似度。
CN201410389477.3A 2014-08-08 2014-08-08 基于维基百科的评论主题词聚类方法 Active CN104199846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410389477.3A CN104199846B (zh) 2014-08-08 2014-08-08 基于维基百科的评论主题词聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410389477.3A CN104199846B (zh) 2014-08-08 2014-08-08 基于维基百科的评论主题词聚类方法

Publications (2)

Publication Number Publication Date
CN104199846A true CN104199846A (zh) 2014-12-10
CN104199846B CN104199846B (zh) 2017-09-19

Family

ID=52085139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410389477.3A Active CN104199846B (zh) 2014-08-08 2014-08-08 基于维基百科的评论主题词聚类方法

Country Status (1)

Country Link
CN (1) CN104199846B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN105138537A (zh) * 2015-07-08 2015-12-09 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105159927A (zh) * 2015-08-04 2015-12-16 北京金山安全软件有限公司 目标文本主题词的选取方法、装置及终端
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
CN107562715A (zh) * 2017-07-18 2018-01-09 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
CN108776709A (zh) * 2015-10-27 2018-11-09 上海智臻智能网络科技股份有限公司 计算机可读存储介质及词典更新方法
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
WO2019084867A1 (zh) * 2017-11-02 2019-05-09 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN109977414A (zh) * 2019-04-01 2019-07-05 中科天玑数据科技股份有限公司 一种互联网金融平台用户评论主题分析系统及方法
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN113010670A (zh) * 2021-02-22 2021-06-22 腾讯科技(深圳)有限公司 账号信息聚类方法、检测方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332503A1 (en) * 2009-06-30 2010-12-30 Brad Buckley System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103778207A (zh) * 2014-01-15 2014-05-07 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332503A1 (en) * 2009-06-30 2010-12-30 Brad Buckley System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103778207A (zh) * 2014-01-15 2014-05-07 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张立: "基于新闻评论数据的K-means聚类算法研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *
赵文清 等: "基于词共现图的中文微博新闻话题识别", 《智能系统学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866572B (zh) * 2015-05-22 2018-05-18 齐鲁工业大学 一种网络短文本聚类方法
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN105138537A (zh) * 2015-07-08 2015-12-09 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105138537B (zh) * 2015-07-08 2018-12-07 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105159927A (zh) * 2015-08-04 2015-12-16 北京金山安全软件有限公司 目标文本主题词的选取方法、装置及终端
CN105159927B (zh) * 2015-08-04 2019-03-15 北京金山安全软件有限公司 目标文本主题词的选取方法、装置及终端
CN108776709B (zh) * 2015-10-27 2020-05-19 上海智臻智能网络科技股份有限公司 计算机可读存储介质及词典更新方法
CN108776709A (zh) * 2015-10-27 2018-11-09 上海智臻智能网络科技股份有限公司 计算机可读存储介质及词典更新方法
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
CN107562715A (zh) * 2017-07-18 2018-01-09 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
CN107562715B (zh) * 2017-07-18 2021-01-26 创新先进技术有限公司 词向量处理方法、装置以及电子设备
WO2019084867A1 (zh) * 2017-11-02 2019-05-09 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN109977414A (zh) * 2019-04-01 2019-07-05 中科天玑数据科技股份有限公司 一种互联网金融平台用户评论主题分析系统及方法
CN109977414B (zh) * 2019-04-01 2023-03-14 中科天玑数据科技股份有限公司 一种互联网金融平台用户评论主题分析系统及方法
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN113010670A (zh) * 2021-02-22 2021-06-22 腾讯科技(深圳)有限公司 账号信息聚类方法、检测方法、装置及存储介质
CN113010670B (zh) * 2021-02-22 2023-09-19 腾讯科技(深圳)有限公司 账号信息聚类方法、检测方法、装置及存储介质

Also Published As

Publication number Publication date
CN104199846B (zh) 2017-09-19

Similar Documents

Publication Publication Date Title
CN104199846A (zh) 基于维基百科的评论主题词聚类方法
CN103778207B (zh) 基于lda的新闻评论的话题挖掘方法
CN103136359B (zh) 单文档摘要生成方法
CN104615767A (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
AU2017416649A1 (en) Method for recognizing network text named entity based on neural network probability disambiguation
US20180052823A1 (en) Hybrid Classifier for Assigning Natural Language Processing (NLP) Inputs to Domains in Real-Time
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN107247780A (zh) 一种基于知识本体的专利文献相似性度量方法
CN105893410A (zh) 一种关键词提取方法和装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
JP5143057B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
CN107423282A (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN104636456A (zh) 一种基于词向量的问题路由方法
CN101782898A (zh) 一种情感词倾向性的分析方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别系统
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
Tur et al. Exploiting the semantic web for unsupervised natural language semantic parsing
CN106372064A (zh) 一种文本挖掘的特征词权重计算方法
CN104866517A (zh) 一种抓取网页内容的方法及装置
CN103530316B (zh) 一种基于多视图学习的科学主题提取方法
CN103177036A (zh) 一种标签自动提取方法和系统
Qiu et al. Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20141210

Assignee: Hangzhou Xinye Transmission Technology Co. Ltd.

Assignor: Hangzhou Electronic Science and Technology Univ

Contract record no.: 2019330000035

Denomination of invention: Comment subject term clustering method based on Wikipedia

Granted publication date: 20170919

License type: Common License

Record date: 20190320

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20191014

Address after: 310000 23 / F, Shimao center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Xinye Transmission Technology Co. Ltd.

Address before: Hangzhou City, Zhejiang province 310018 Xiasha Higher Education Park No. 2 street

Patentee before: Hangzhou Electronic Science and Technology Univ

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611

Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 310000 floor 23, Shimao center, No. 857, Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou Yuanchuan New Technology Co.,Ltd.

CP03 Change of name, title or address