CN110929174A - 一种突发话题检测系统及方法 - Google Patents
一种突发话题检测系统及方法 Download PDFInfo
- Publication number
- CN110929174A CN110929174A CN201911310430.2A CN201911310430A CN110929174A CN 110929174 A CN110929174 A CN 110929174A CN 201911310430 A CN201911310430 A CN 201911310430A CN 110929174 A CN110929174 A CN 110929174A
- Authority
- CN
- China
- Prior art keywords
- topic
- burst
- text data
- module
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种突发话题检测系统及方法。该方法包括:文本数据输入,文本数据预处理,话题检测及话题突发性评估和突发话题检测结果输出。本发明能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的,并且支持中文、英文文档。
Description
技术领域
本发明属于数据处理领域,尤其涉及一种突发话题检测系统及方法。
背景技术
当今计算机和网络技术技术发展十分迅速,互联网上有着许多的文本数据,例如微博的博文、各个新闻网站的文章等,这些文本数据中可能存在一些突发的话题。突发话题在互联网上的传播速度非常迅速,能够产生巨大的影响力,因此对突发话题进行检测是十分重要的。突发话题的检测是可以人工进行的,但是一方面工作量过于庞大,另一方面无法实时处理新的文本数据。
发明内容
本发明的目的在于,针对现有技术的不足,提出一种突发话题检测系统及方法,能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度。
一种突发话题检测方法,包括:
文本数据输入:读取需要进行突发话题检测的文本数据文件。
文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector或bert向量方式进行词嵌入。
话题检测及话题突发性评估,采用LAD模型算法进行话题检测;采用Kleinberg模型算法进行突发性评估。文本样本在完成LDA模型训练后,就可以得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。Kleinberg模型算法是在LDA模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。
突发话题检测结果输出,输出一批文本文档中排名前5的话题。
一种突发话题检测系统,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块和突发话题检测结果输出模块;文本数据输入模块用于读取需要进行突发话题检测的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;突发话题检测算法模块用于计算文本数据的突发性;突发话题检测结果输出模块用于突发话题检测结果输出。
文本数据预处理模块包括word2vector处理模块和Bert处理模块。
突发话题检测算法模块包括LAD算法模块和Kleinberg算法模块;LAD算法模块用于话题检测,Kleinberg算法模块用于突发性评估。
突发话题检测结果输出模块可以输出一批文本文档中排名前5的话题。
本系统还包括出错处理模块,用于显示出错信息,包括出错时间、出错等级、出错原因和出错地点。并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。
本发明的有益效果:能够从批量输入的中、英文新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的。
附图说明
图1是本发明方法流程图。
图2是web服务系统架构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
一种突发话题检测方法,包括:
文本数据输入:读取需要进行突发话题检测的文本数据文件。
文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector向量方式进行词嵌入。直接计算去除停用词后的文档的向量,具体方式是文档的向量由句子向量叠加后求平均,句子向量由词向量叠加后求平均。
突发话题检测计算分析,采用LAD模型算法进行话题检测;采用Kleinberg模型算法进行突发性评估。文本样本在完成LDA模型训练后,就可以得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。Kleinberg模型算法是在LDA模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。
突发话题检测结果输出,输出一批文本文档中排名前5的话题,该排名来自于Kleinberg模型算法内部对话题计算后得出的一个话题状态序列,该序列的先后次序排名作为话题热度的排名。
一种突发话题检测系统,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块和突发话题检测结果输出模块;文本数据输入模块用于读取需要进行突发话题检测的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;突发话题检测算法模块用于计算文本数据的突发性;突发话题检测结果输出模块用于突发话题检测结果输出。
文本数据预处理模块包括word2vector处理模块和Bert处理模块。
突发话题检测算法模块包括LAD算法模块和Kleinberg算法模块;LAD算法模块用于话题检测,Kleinberg算法模块用于突发性评估。
突发话题检测结果输出模块可以输出一批文本文档中排名前5的话题。
本系统还包括出错处理模块,用于显示出错信息,包括出错时间、出错等级、出错原因和出错地点。并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。内部已经默认打开了日志功能,有日志模块管理日志,日志文件存放在与本工具相同的根目录下。
本发明能够从批量输入的中、英文新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (12)
1.一种突发话题检测方法,其特征在于,包括以下步骤:
S1:文本数据输入:读取需要进行话题突发性检测的文本数据文件;
S2:文本数据预处理,包括以下子步骤:
S21:如果文本数据是中文文档则对文本进行分词处理后进入步骤S22;如果文本是英文文档则直接进入步骤S22;
S22:去除停用词;
S3:话题检测及话题突发性评估;
S4:突发话题检测结果输出。
2.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用word2vector向量方式进行词嵌入。
3.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用bert向量方式进行词嵌入。
4.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述话题检测采用LAD模型算法,得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。
5.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述话题突发性评估采用Kleinberg模型算法,在LDA模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。
6.一种突发话题检测系统,其特征在于,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块和突发话题检测结果输出模块;
文本数据输入模块用于读取需要进行突发话题检测的文本数据文件;
文本数据预处理模块用于对加载的文本数据进行预处理;
突发话题检测算法模块用于计算文本数据的突发性;
突发话题检测结果输出模块用于突发话题检测结果输出。
7.根据权利要求6所述的一种突发话题检测系统,其特征在于,所述文本数据预处理模块包括word2vector处理模块。
8.根据权利要求6所述的一种突发话题检测系统,其特征在于,所述文本数据预处理模块包括Bert处理模块。
9.根据权利要求6所述的一种突发话题检测系统,其特征在于,所述突发话题检测算法模块包括LAD算法模块和Kleinberg算法模块;LAD算法模块用于话题检测,Kleinberg算法模块用于突发性评估。
10.根据权利要求8所述的一种突发话题检测系统,其特征在于,还包括一个由DOCKER容器技术搭建的web服务系统;通过在DOCKER容器级别的WEB服务层,以HTTP形式提供基于Restful风格的WEB服务。
11.根据权利要求6-10任一所述的一种突发话题检测系统,其特征在于,还包括出错处理模块,出错处理模块用于显示出错信息,并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。
12.根据权利要求11所述的一种突发话题检测系统,其特征在于,所述出错信息包括出错时间、出错等级、出错原因和出错地点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310430.2A CN110929174A (zh) | 2019-12-18 | 2019-12-18 | 一种突发话题检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310430.2A CN110929174A (zh) | 2019-12-18 | 2019-12-18 | 一种突发话题检测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929174A true CN110929174A (zh) | 2020-03-27 |
Family
ID=69864237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911310430.2A Pending CN110929174A (zh) | 2019-12-18 | 2019-12-18 | 一种突发话题检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929174A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154305A1 (en) * | 2013-12-02 | 2015-06-04 | Qbase, LLC | Method of automated discovery of topics relatedness |
CN108549647A (zh) * | 2018-01-17 | 2018-09-18 | 中移在线服务有限公司 | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 |
CN110297988A (zh) * | 2019-07-06 | 2019-10-01 | 四川大学 | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 |
CN110489548A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 一种基于语义、时间和社交关系的中文微博话题检测方法及系统 |
-
2019
- 2019-12-18 CN CN201911310430.2A patent/CN110929174A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154305A1 (en) * | 2013-12-02 | 2015-06-04 | Qbase, LLC | Method of automated discovery of topics relatedness |
CN108549647A (zh) * | 2018-01-17 | 2018-09-18 | 中移在线服务有限公司 | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 |
CN110297988A (zh) * | 2019-07-06 | 2019-10-01 | 四川大学 | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 |
CN110489548A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 一种基于语义、时间和社交关系的中文微博话题检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160342683A1 (en) | Crafting a response based on sentiment identification | |
US9483462B2 (en) | Generating training data for disambiguation | |
US10452725B2 (en) | Web page recognizing method and apparatus | |
US20140181109A1 (en) | System and method for analysing text stream message thereof | |
US11184313B1 (en) | Message content cleansing | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN111079029A (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
CN110837590A (zh) | 资讯推送方法、装置、计算机设备和存储介质 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US10621261B2 (en) | Matching a comment to a section of a content item based upon a score for the section | |
Kwan et al. | Event identification for social streams using keyword-based evolving graph sequences | |
CN114356747A (zh) | 显示内容的测试方法、装置、设备、存储介质及程序产品 | |
US20160323399A1 (en) | Method of and a system for monitoring web site consistency | |
CN111324725B (zh) | 一种话题获取方法、终端、计算机可读存储介质 | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
CN110728131A (zh) | 一种分析文本属性的方法和装置 | |
JP6508327B2 (ja) | テキスト可視化システム、テキスト可視化方法、及び、プログラム | |
CN116561320A (zh) | 一种汽车评论的分类方法、装置、设备及介质 | |
Saini et al. | A Hybrid LSTM-BERT and Glove-based Deep Learning Approach for the Detection of Fake News | |
CN110929174A (zh) | 一种突发话题检测系统及方法 | |
Ishihara | A forensic text comparison in SMS messages: a likelihood ratio approach with lexical features. | |
US9922352B2 (en) | Multidimensional synopsis generation | |
Yeh et al. | A fraud detection system for real-time messaging communication on Android Facebook messenger | |
CN113704452A (zh) | 基于Bert模型的数据推荐方法、装置、设备及介质 | |
TWI712948B (zh) | 文本情緒分析的方法,裝置與電腦程式產品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |
|
RJ01 | Rejection of invention patent application after publication |