CN110929174A - 一种突发话题检测系统及方法 - Google Patents

一种突发话题检测系统及方法 Download PDF

Info

Publication number
CN110929174A
CN110929174A CN201911310430.2A CN201911310430A CN110929174A CN 110929174 A CN110929174 A CN 110929174A CN 201911310430 A CN201911310430 A CN 201911310430A CN 110929174 A CN110929174 A CN 110929174A
Authority
CN
China
Prior art keywords
topic
burst
text data
module
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911310430.2A
Other languages
English (en)
Inventor
陈泽勇
张治同
姚松
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Dippmann Information Technology Co Ltd
Original Assignee
Chengdu Dippmann Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Dippmann Information Technology Co Ltd filed Critical Chengdu Dippmann Information Technology Co Ltd
Priority to CN201911310430.2A priority Critical patent/CN110929174A/zh
Publication of CN110929174A publication Critical patent/CN110929174A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种突发话题检测系统及方法。该方法包括:文本数据输入,文本数据预处理,话题检测及话题突发性评估和突发话题检测结果输出。本发明能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的,并且支持中文、英文文档。

Description

一种突发话题检测系统及方法
技术领域
本发明属于数据处理领域,尤其涉及一种突发话题检测系统及方法。
背景技术
当今计算机和网络技术技术发展十分迅速,互联网上有着许多的文本数据,例如微博的博文、各个新闻网站的文章等,这些文本数据中可能存在一些突发的话题。突发话题在互联网上的传播速度非常迅速,能够产生巨大的影响力,因此对突发话题进行检测是十分重要的。突发话题的检测是可以人工进行的,但是一方面工作量过于庞大,另一方面无法实时处理新的文本数据。
发明内容
本发明的目的在于,针对现有技术的不足,提出一种突发话题检测系统及方法,能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度。
一种突发话题检测方法,包括:
文本数据输入:读取需要进行突发话题检测的文本数据文件。
文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector或bert向量方式进行词嵌入。
话题检测及话题突发性评估,采用LAD模型算法进行话题检测;采用Kleinberg模型算法进行突发性评估。文本样本在完成LDA模型训练后,就可以得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。Kleinberg模型算法是在LDA模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。
突发话题检测结果输出,输出一批文本文档中排名前5的话题。
一种突发话题检测系统,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块和突发话题检测结果输出模块;文本数据输入模块用于读取需要进行突发话题检测的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;突发话题检测算法模块用于计算文本数据的突发性;突发话题检测结果输出模块用于突发话题检测结果输出。
文本数据预处理模块包括word2vector处理模块和Bert处理模块。
突发话题检测算法模块包括LAD算法模块和Kleinberg算法模块;LAD算法模块用于话题检测,Kleinberg算法模块用于突发性评估。
突发话题检测结果输出模块可以输出一批文本文档中排名前5的话题。
本系统还包括出错处理模块,用于显示出错信息,包括出错时间、出错等级、出错原因和出错地点。并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。
本发明的有益效果:能够从批量输入的中、英文新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的。
附图说明
图1是本发明方法流程图。
图2是web服务系统架构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
一种突发话题检测方法,包括:
文本数据输入:读取需要进行突发话题检测的文本数据文件。
文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector向量方式进行词嵌入。直接计算去除停用词后的文档的向量,具体方式是文档的向量由句子向量叠加后求平均,句子向量由词向量叠加后求平均。
突发话题检测计算分析,采用LAD模型算法进行话题检测;采用Kleinberg模型算法进行突发性评估。文本样本在完成LDA模型训练后,就可以得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。Kleinberg模型算法是在LDA模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。
突发话题检测结果输出,输出一批文本文档中排名前5的话题,该排名来自于Kleinberg模型算法内部对话题计算后得出的一个话题状态序列,该序列的先后次序排名作为话题热度的排名。
一种突发话题检测系统,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块和突发话题检测结果输出模块;文本数据输入模块用于读取需要进行突发话题检测的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;突发话题检测算法模块用于计算文本数据的突发性;突发话题检测结果输出模块用于突发话题检测结果输出。
文本数据预处理模块包括word2vector处理模块和Bert处理模块。
突发话题检测算法模块包括LAD算法模块和Kleinberg算法模块;LAD算法模块用于话题检测,Kleinberg算法模块用于突发性评估。
突发话题检测结果输出模块可以输出一批文本文档中排名前5的话题。
本系统还包括出错处理模块,用于显示出错信息,包括出错时间、出错等级、出错原因和出错地点。并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。内部已经默认打开了日志功能,有日志模块管理日志,日志文件存放在与本工具相同的根目录下。
本发明能够从批量输入的中、英文新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (12)

1.一种突发话题检测方法,其特征在于,包括以下步骤:
S1:文本数据输入:读取需要进行话题突发性检测的文本数据文件;
S2:文本数据预处理,包括以下子步骤:
S21:如果文本数据是中文文档则对文本进行分词处理后进入步骤S22;如果文本是英文文档则直接进入步骤S22;
S22:去除停用词;
S3:话题检测及话题突发性评估;
S4:突发话题检测结果输出。
2.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用word2vector向量方式进行词嵌入。
3.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用bert向量方式进行词嵌入。
4.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述话题检测采用LAD模型算法,得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。
5.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述话题突发性评估采用Kleinberg模型算法,在LDA模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。
6.一种突发话题检测系统,其特征在于,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块和突发话题检测结果输出模块;
文本数据输入模块用于读取需要进行突发话题检测的文本数据文件;
文本数据预处理模块用于对加载的文本数据进行预处理;
突发话题检测算法模块用于计算文本数据的突发性;
突发话题检测结果输出模块用于突发话题检测结果输出。
7.根据权利要求6所述的一种突发话题检测系统,其特征在于,所述文本数据预处理模块包括word2vector处理模块。
8.根据权利要求6所述的一种突发话题检测系统,其特征在于,所述文本数据预处理模块包括Bert处理模块。
9.根据权利要求6所述的一种突发话题检测系统,其特征在于,所述突发话题检测算法模块包括LAD算法模块和Kleinberg算法模块;LAD算法模块用于话题检测,Kleinberg算法模块用于突发性评估。
10.根据权利要求8所述的一种突发话题检测系统,其特征在于,还包括一个由DOCKER容器技术搭建的web服务系统;通过在DOCKER容器级别的WEB服务层,以HTTP形式提供基于Restful风格的WEB服务。
11.根据权利要求6-10任一所述的一种突发话题检测系统,其特征在于,还包括出错处理模块,出错处理模块用于显示出错信息,并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。
12.根据权利要求11所述的一种突发话题检测系统,其特征在于,所述出错信息包括出错时间、出错等级、出错原因和出错地点。
CN201911310430.2A 2019-12-18 2019-12-18 一种突发话题检测系统及方法 Pending CN110929174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911310430.2A CN110929174A (zh) 2019-12-18 2019-12-18 一种突发话题检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911310430.2A CN110929174A (zh) 2019-12-18 2019-12-18 一种突发话题检测系统及方法

Publications (1)

Publication Number Publication Date
CN110929174A true CN110929174A (zh) 2020-03-27

Family

ID=69864237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911310430.2A Pending CN110929174A (zh) 2019-12-18 2019-12-18 一种突发话题检测系统及方法

Country Status (1)

Country Link
CN (1) CN110929174A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150154305A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Method of automated discovery of topics relatedness
CN108549647A (zh) * 2018-01-17 2018-09-18 中移在线服务有限公司 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN110489548A (zh) * 2019-07-12 2019-11-22 北京邮电大学 一种基于语义、时间和社交关系的中文微博话题检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150154305A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Method of automated discovery of topics relatedness
CN108549647A (zh) * 2018-01-17 2018-09-18 中移在线服务有限公司 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN110489548A (zh) * 2019-07-12 2019-11-22 北京邮电大学 一种基于语义、时间和社交关系的中文微博话题检测方法及系统

Similar Documents

Publication Publication Date Title
US20160342683A1 (en) Crafting a response based on sentiment identification
US9483462B2 (en) Generating training data for disambiguation
US10452725B2 (en) Web page recognizing method and apparatus
US20140181109A1 (en) System and method for analysing text stream message thereof
US11184313B1 (en) Message content cleansing
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN111079029A (zh) 敏感账号的检测方法、存储介质和计算机设备
CN110837590A (zh) 资讯推送方法、装置、计算机设备和存储介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
US10621261B2 (en) Matching a comment to a section of a content item based upon a score for the section
Kwan et al. Event identification for social streams using keyword-based evolving graph sequences
CN114356747A (zh) 显示内容的测试方法、装置、设备、存储介质及程序产品
US20160323399A1 (en) Method of and a system for monitoring web site consistency
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN110728131A (zh) 一种分析文本属性的方法和装置
JP6508327B2 (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
CN116561320A (zh) 一种汽车评论的分类方法、装置、设备及介质
Saini et al. A Hybrid LSTM-BERT and Glove-based Deep Learning Approach for the Detection of Fake News
CN110929174A (zh) 一种突发话题检测系统及方法
Ishihara A forensic text comparison in SMS messages: a likelihood ratio approach with lexical features.
US9922352B2 (en) Multidimensional synopsis generation
Yeh et al. A fraud detection system for real-time messaging communication on Android Facebook messenger
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
TWI712948B (zh) 文本情緒分析的方法,裝置與電腦程式產品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327

RJ01 Rejection of invention patent application after publication