CN103810280A - 一种微博话题检测方法 - Google Patents

一种微博话题检测方法 Download PDF

Info

Publication number
CN103810280A
CN103810280A CN201410056208.5A CN201410056208A CN103810280A CN 103810280 A CN103810280 A CN 103810280A CN 201410056208 A CN201410056208 A CN 201410056208A CN 103810280 A CN103810280 A CN 103810280A
Authority
CN
China
Prior art keywords
microblogging
word
model
microblog
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410056208.5A
Other languages
English (en)
Inventor
王萌
黄镇谨
欧阳浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Science and Technology
Original Assignee
Guangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Science and Technology filed Critical Guangxi University of Science and Technology
Priority to CN201410056208.5A priority Critical patent/CN103810280A/zh
Publication of CN103810280A publication Critical patent/CN103810280A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种微博话题检测方法,选择微博集合,利用网词网网络词库扫描对微博集合进行预处理;进行预处理后使用中科院ICTCLAS分词系统对待处理的微博集合进行词语切分和词性标注等处理;利用HOWNET工具对微博词语概念进行获取和扩展;利用TFIDF来进行概念重要度的计算,并对每个帖子建立概念向量空间模型,将微博帖子集合形成帖子矩阵模型;利用聚类算法来进行每条微博的聚类,聚类后的微博集合就是一个个话题集合。本发明使用中科院ICTCLAS分词系统对带处理的微博集合进行词语切分和词性标注等处理提高后期话题检测的时间;使用HOWNET作为工具,将同义词、词语相关属性作为扩充增加信息量,大大避免了信息稀疏的问题,较大幅度的提高后期话题检测的准确性。

Description

一种微博话题检测方法
技术领域
本发明属于话题检测领域,尤其涉及一种微博话题检测方法。
背景技术
当前,话题检测技术的发展已经比较成熟,但是微博是在2010年前后才兴起的一种社交方法,微博与一般博客的最大区别在于微博文本限制在140个字以内,此外微博还呈现出个性化、符号化、口号化、非规范化等特点。
目前有些相关方法开始对微博话题进行一些检测,但多由于微博字数限制在140个,这样在做微博矩阵过程中会出现大量的稀疏矩阵问题,另外一些微博中常用的符号和网络词汇也会大大降低微博话题检测的准确率。
发明内容
本发明的目的在于提供一种潜水观察级ROV装置,旨在解决微博矩阵过程中出现大量的稀疏矩阵和一些微博中常用的符号和网络词汇也会大大降低微博话题检测的准确率的问题。
本发明是这样实现的,一种微博话题检测方法,该检测方法包括以下步骤:
步骤一:选择微博集合,利用“网词网”网络词库扫描对微博集合进行预处理,预处理主要是将符号化和口号化的词语映射为常用的词语;
步骤二:进行预处理后使用中科院ICTCLAS分词系统对待处理的微博集合进行词语切分和词性标注处理,通过词语切分和词性标注后,选择那些名词、动词和形容词等词性词语,去掉数量词、虚词等词语来提高处理的效率和准确性;
步骤三:利用HOWNET工具对微博词语概念进行获取和扩展;
步骤四:利用TFIDF来进行概念重要度的计算,并对每个帖子建立概念向量空间模型,将微博帖子集合形成帖子矩阵模型,
经过处理得到微博集合基于概念的帖子矩阵模型为:
T = ( F ij ) n × m F 11 F 12 . . . F 1 m F 21 F 22 . . . F 2 m . . . . . . . . . . . . F n 1 F n 2 . . . F nm
其中n为微博集合中的概念个数,m为微博集合中微博个数,第i行第j列元素Fij表示概念Ti在微博Sj中出现的频度;
步骤五:利用增量聚类方法来进行每条微博的聚类,在形成微博帖子集合后,根据微博自身的特点能作为话题的微博帖子多为一些官方微博和一些转发量很大的微博,根据这个特点在形成的微博帖子集合中选择若干个帖子,并对上述选择的微博帖子进行相似度的计算,如果出现相似度大于预定阈值的,直接将帖子合并为一个类;在形成上述初始的帖子后,将每个帖子作为一个初始类,增量聚类方法来进行微博的聚类。
进一步,“网词网”网络词汇扫描处理是处理微博中的一些符号化、口号化的词语,例如微博中经常出现的“BT”其实是“变态”、“童鞋”实际为“同学”等;
进一步,中科院ICTCLAS分词系统用于除去一些停用词、虚词等词语;
进一步,HOWNET工具用于将同义词归并到一个概念中,并使用HOWNET中的其他语义属性来扩充词语概念的范围,将词语概念中的其他语义属性与相关词语归并起来;
进一步,聚类算法是判断是否为第一条帖子、是否为转发、计算该贴与已经出现的话题的相似度看是否满足阈值要求。
本发明提供的微博话题检测方法根据“网词网”中对数字网络词汇、缩写网络词汇和常用网络词汇的收据较大幅度的提高后期话题检测的准确性;使用中科院ICTCLAS分词系统对带处理的微博集合进行词语切分和词性标注等处理提高后期话题检测的时间;使用HOWNET作为工具,将同义词、词语相关属性作为扩充增加信息量,大大避免了信息稀疏的问题。
附图说明
图1是本发明提供的微博话题检测方法的流程图。
具体实施方式
本发明是这样实现的,结合附图1,一种微博话题检测方法,该检测方法是这样实现的:
步骤一:选择微博集合,利用“网词网”网络词库扫描对微博集合进行预处理,预处理主要是将符号化和口号化的词语映射为常用的词语;
步骤二:进行预处理后使用中科院ICTCLAS分词系统对待处理的微博集合进行词语切分和词性标注处理,通过词语切分和词性标注后,选择那些名词、动词和形容词等词性词语,去掉数量词、虚词等词语来提高处理的效率和准确性;
步骤三:利用HOWNET工具对微博词语概念进行获取和扩展;
步骤四:利用TFIDF来进行概念重要度的计算,并对每个帖子建立概念向量空间模型,将微博帖子集合形成帖子矩阵模型,
经过处理得到微博集合基于概念的帖子矩阵模型为:
T = ( F ij ) n × m F 11 F 12 . . . F 1 m F 21 F 22 . . . F 2 m . . . . . . . . . . . . F n 1 F n 2 . . . F nm
其中n为微博集合中的概念个数,m为微博集合中微博个数,第i行第j列元素Fij表示概念Ti在微博Sj中出现的频度;
步骤五:利用增量聚类方法来进行每条微博的聚类,在形成微博帖子集合后,根据微博自身的特点能作为话题的微博帖子多为一些官方微博和一些转发量很大的微博,根据这个特点在形成的微博帖子集合中选择若干个帖子,并对上述选择的微博帖子进行相似度的计算,如果出现相似度大于预定阈值的,直接将帖子合并为一个类;在形成上述初始的帖子后,将每个帖子作为一个初始类,增量聚类方法来进行微博的聚类。
进一步,“网词网”网络词汇扫描处理是处理微博中的一些符号化、口号化的词语,例如微博中经常出现的“BT”其实是“变态”、“童鞋”实际为“同学”等;
进一步,中科院ICTCLAS分词系统用于除去一些停用词、虚词等词语;
进一步,HOWNET工具用于将同义词归并到一个概念中,并使用HOWNET中的其他语义属性来扩充词语概念的范围,将词语概念中的其他语义属性与相关词语归并起来;
进一步,聚类算法是判断是否为第一条帖子、是否为转发、计算该贴与已经出现的话题的相似度看是否满足阈值要求。
本发明提供的微博话题检测方法根据“网词网”中对数字网络词汇、缩写网络词汇和常用网络词汇的收据,处理为一个网络词汇库,在将网络词汇库导入后对微博进行预处理分词,这样可以将一些网络术语翻译为常用语,不会引起一些信息遗漏。针对微博信息量少的的情况,使用HOWNET作为工具,将同义词、词语相关属性作为扩充增加信息量,这样可以避免信息稀疏的问题,最大限度解决在微博话题检测中出现由于稀疏矩阵而导致话题检测错误的情况。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于概念的增量聚类微博话题检测方法,其特征在于,该检测方法包括以下步骤:
步骤一:选择微博集合,利用网络词库扫描对微博集合进行预处理,预处理主要是将符号化和口号化的词语映射为常用的词语;
步骤二:进行预处理后使用中科院ICTCLAS分词系统对待处理的微博集合进行词语切分和词性标注处理,通过词语切分和词性标注后,选择那些名词、动词和形容词词性词语,去掉数量词、虚词词语来提高处理的效率和准确性;
步骤三:利用HOWNET工具对微博词语概念进行获取和扩展;
步骤四:利用TFIDF来进行概念重要度的计算,并对每个帖子建立概念向量空间模型,将微博帖子集合形成帖子矩阵模型,
经过处理得到微博集合基于概念的帖子矩阵模型为:
T = ( F ij ) n × m F 11 F 12 . . . F 1 m F 21 F 22 . . . F 2 m . . . . . . . . . . . . F n 1 F n 2 . . . F nm
其中n为微博集合中的概念个数,m为微博集合中微博个数,第i行第j列元素Fij表示概念Ti在微博Sj中出现的频度;
步骤五:利用增量聚类方法来进行每条微博的聚类,在形成微博帖子集合后,根据微博自身的特点能作为话题的微博帖子多为一些官方微博和一些转发量很大的微博,根据这个特点在形成的微博帖子集合中选择若干个帖子,并对上述选择的微博帖子进行相似度的计算,如果出现相似度大于预定阈值的,直接将帖子合并为一个类;在形成上述初始的帖子后,将每个帖子作为一个初始类,增量聚类方法来进行微博的聚类。
2.如权利要求1所述的微博话题检测方法,其特征在于,“网词网”网络词汇扫描处理是处理微博中的一些符号化、口号化的词语。
3.如权利要求1所述的微博话题检测方法,其特征在于,中科院ICTCLAS分词系统用于除去一些停用词、虚词。
4.如权利要求1所述的微博话题检测方法,其特征在于,HOWNET工具用于将同义词归并到一个概念中,并使用HOWNET中的其他语义属性来扩充词语概念的范围,将词语概念中的其他语义属性与相关词语归并起来。
5.如权利要求1所述的微博话题检测方法,其特征在于,聚类算法是判断是否为第一条帖子、是否为转发、计算该贴与已经出现的话题的相似度看是否满足阈值要求。
CN201410056208.5A 2014-02-19 2014-02-19 一种微博话题检测方法 Pending CN103810280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410056208.5A CN103810280A (zh) 2014-02-19 2014-02-19 一种微博话题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410056208.5A CN103810280A (zh) 2014-02-19 2014-02-19 一种微博话题检测方法

Publications (1)

Publication Number Publication Date
CN103810280A true CN103810280A (zh) 2014-05-21

Family

ID=50707050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410056208.5A Pending CN103810280A (zh) 2014-02-19 2014-02-19 一种微博话题检测方法

Country Status (1)

Country Link
CN (1) CN103810280A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN105072173A (zh) * 2015-08-03 2015-11-18 谌志群 自动客服和人工客服自动切换的客服方法及系统
CN107291886A (zh) * 2017-06-21 2017-10-24 广西科技大学 一种基于增量聚类算法的微博话题检测方法及系统
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN110858217A (zh) * 2018-08-23 2020-03-03 北大方正集团有限公司 微博敏感话题的检测方法、装置及可读存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN104484343B (zh) * 2014-11-26 2017-11-03 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN105072173A (zh) * 2015-08-03 2015-11-18 谌志群 自动客服和人工客服自动切换的客服方法及系统
CN107291886A (zh) * 2017-06-21 2017-10-24 广西科技大学 一种基于增量聚类算法的微博话题检测方法及系统
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN108763208B (zh) * 2018-05-22 2023-09-05 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN110858217A (zh) * 2018-08-23 2020-03-03 北大方正集团有限公司 微博敏感话题的检测方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN107204184B (zh) 语音识别方法及系统
US11017178B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
US9047868B1 (en) Language model data collection
CN104933130A (zh) 评论信息的标注方法及装置
TWI666558B (zh) 語意分析方法、語意分析系統及非暫態電腦可讀取媒體
CN103971684B (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
CN107239440A (zh) 一种垃圾文本识别方法和装置
CN103810280A (zh) 一种微博话题检测方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN113051371B (zh) 中文机器阅读理解方法、装置、电子设备及存储介质
WO2018010579A1 (zh) 字符串的分词方法、装置及设备
CN104142915A (zh) 一种添加标点的方法和系统
CN104102681A (zh) 一种微博关键事件获取方法和装置
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN110866095A (zh) 一种文本相似度的确定方法及相关设备
CN106569989A (zh) 一种用于短文本的去重方法及装置
WO2021139076A1 (zh) 智能化文本对话生成方法、装置及计算机可读存储介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN104123336A (zh) 深度玻尔兹曼机模型及短文本主题分类系统和方法
CN104090865A (zh) 文本相似度计算方法及装置
CN110990451B (zh) 基于句子嵌入的数据挖掘方法、装置、设备及存储装置
CN102622341A (zh) 基于Bootstrapping技术的领域本体概念自动获取方法
US20150161105A1 (en) Techniques for automatically selecting a natural language for configuring an input method editor at a computing device

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140521