CN108563667A - 基于新词识别的热门话题采集系统及其方法 - Google Patents

基于新词识别的热门话题采集系统及其方法 Download PDF

Info

Publication number
CN108563667A
CN108563667A CN201810010781.0A CN201810010781A CN108563667A CN 108563667 A CN108563667 A CN 108563667A CN 201810010781 A CN201810010781 A CN 201810010781A CN 108563667 A CN108563667 A CN 108563667A
Authority
CN
China
Prior art keywords
word
data
module
hot issue
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810010781.0A
Other languages
English (en)
Inventor
张陶
戴长江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Original Assignee
HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN filed Critical HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Priority to CN201810010781.0A priority Critical patent/CN108563667A/zh
Publication of CN108563667A publication Critical patent/CN108563667A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于新词识别的热门话题采集系统及其方法,属于舆情分析领域。本系统包括数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)和结果展示模块(500);其交互关系是:数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)、结果展示模块(500)依次连通。本发明①能够较好地识别网络新词;②结合大数据技术,处理速度快,且具有容错性;③通过增量聚类的方法实现了对文本数据的流式处理。通过新的分词技术以及主题词采集技术,弥补了传统话题采集系统对于新词不敏感的缺点,对舆情分析以及话题追踪技术提供了更好的支持。

Description

基于新词识别的热门话题采集系统及其方法
技术领域
本发明属于数据挖掘领域,具体涉及一种基于新词识别的热门话题采集系统及其方法。
背景技术
随着交互式网络技术的发展,近年来,网络舆情数据呈现爆炸式增长的趋势。自从2006年Twitter在美国上线以来,注册用户达到1.6亿,而国内与之相似的本地化微博服务几年来也大为兴盛,各大互联网厂商也推出各自的中文舆情平台,如新浪微博、腾讯微博、人人网等网站,受到广大网民的欢迎。由于微博的即时性很强,突发新闻在微博上的传播速度很快;而且对于影响力比较大的新闻事件,参与转发、评论的用户很多,往往能够先于传统媒体做出反应,这进一步证明了全民媒体在消息传播上不可忽视的作用。
针对微博的实时性,对微博内容进行分析和整合具有重大的意义,不仅可以帮助过滤无用信息、提高内容质量、改善用户体验,更能起到事件监测、观点挖掘、舆情控制等重大功能。然而,微博平台信息数据流量较大,内容与格式非常散乱,数据噪音较大。人工审视或传统的统计方法很难从这大量的数据中提取精确而有用的信息,因此引入文本挖掘的方法去对该类数据进行筛选、去重、聚类、分类就非常必要。热门话题的检测作为网络舆情数据分析的一大方向,也得到国内外学者越来越多的重视。
由于微博平台比较自由,各种各样的网络新词也是在微博平台上层出不穷。传统的热门话题检测系统对于这样的网络新词无法很好地识别,因此它们并不适合分析网络舆情、尤其是类似于微博平台这样自由、发散的全民媒体舆情数据。
发明内容
本发明的目的就在于克服现有技术存在的缺点和不足,提供一种基于新词识别的热门话题采集系统及其方法,用以解决当前技术无法实时、可靠地处理流式数据的问题。
实现本发明目的的技术方案是:
一、基于新词识别的热门话题采集系统(简称系统)
本系统包括数据采集模块、预处理模块、分词模块、分析建模模块和结果展示模块;
其交互关系是:
数据采集模块、预处理模块、分词模块、分析建模模块、结果展示模块依次连通。
二、基于新词识别的热门话题采集方法(简称方法)
本方法包括以下步骤:
①数据采集模块通过舆情数据采集设备将舆情数据进行捕获,将处理后的数据以ZIP压缩包的形式传输给后台Hadoop大数据系统进行存储,通过Hadoop大数据系统发送给预处理模块200进行数据清洗;
②预处理模块包括停用词去除以及特殊字符去除两部分,该模块主要负责对舆情数据进行简单清洗,由于停用词以及特殊字符所含信息量少且难以根据上下文进行进一步分析,预处理模块200便将这部分词语字符进行清洗,在保证数据信息量的基础上对数据量进行缩减;
③分词模块包括基于词典的分词模块、基于统计的分词模块以及去重合并三部分,该模块主要功能是对舆情数据进行分词,通过两种分词方法对于数据进行全方位准确切分;
④分析建模模块包括文本量化、主题词检测以及主题词聚类三部分,该模块主要功能是对切分后的舆情数据进行分析建模,检测热门话题,该模块是系统的核心模块;
⑤结果展示模块主要是对分析建模模块输出的结果通过图表的方式进行结果展示。
本发明具有下列优点和积极效果:
①能够较好地识别网络新词;
②结合大数据技术,处理速度快,且具有容错性;
③通过增量聚类的方法实现了对文本数据的流式处理。
总之,本发明通过新的分词技术以及主题词采集技术,弥补了传统话题采集系统对于新词不敏感的缺点,对舆情分析以及话题追踪技术提供了更好的支持。
附图说明
图1是本系统的结构方框图;
其中:
100—数据采集模块;
200—预处理模块,
201—停用词去除,
202—特殊字符去除;
300—分词模块,
301—基于词典的分词模块,
302—基于统计的分词模块,
303—去重合并;
400—分析建模模块,
401—文本量化,
402—主题词检测,
403—主题词检测;
500—结果展示模块。
英译汉
ZIP:一种文件压缩算法;
Hadoop:一个能够对大量数据进行分布式处理的软件框架;
Hbase:一个分布式的面向列的Hadoop数据库。
具体实施方式
以下结合附图和实施例详细说明:
一、系统
1、总体
如图1,本系统包括数据采集模块100、预处理模块200、分词模块300、分析建模模块400和结果展示模块500;
其交互关系是:
数据采集模块100、预处理模块200、分词模块300、分析建模模块400、结果展示模块500依次连通。
2、功能部件
1)数据采集模块100
数据采集模块100指前端采集设备、文件解析模块以及后台大数据存储模块的总称。
2)预处理模块200
预处理模块200包括停用词去除201以及特殊字符去除202两部分,该模块主要负责对舆情数据进行简单清洗;
(1)停用词去除201中,我们通过停用词表将停用词进行过滤;
(2)特殊字符去除202中,我们将表情符号、标点符号、’@’等字符进行过滤;
3)分词模块300
分词模块300包括基于词典的分词模块301、基于统计的分词模块302以及合并去重303,该模块主要功能是对舆情数据进行分词,通过两种分词方法对于数据进行全方位准确切分;
(1)基于词典的分词模块301,该方法的原理是将文档中的字符串与词典中的词条逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分;该方法简单实用,实用性强,对于一些专有名词如人等、地名等非常实用,缺点则是词语的切分过渡依赖词典,对于一些网络新词无法识别;
(2)基于统计的分词模块302,该方法的原理是根据字符串在语料库中出现统计频率来决定其是否构成词语;词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词;因此字与字相邻共现的频率或概率能够较好地反映它们成为词的可信度;该方法在本系统中的应用主要是为了识别网络新词的出现,是对于基于词典的分词方法一个很好的补充;
(3)去重合并303,由于两种分词方法对于舆情数据进行拆分后,会出现一定量的重复词语,因此我们需要去重合并的步骤将两套拆分结果整合为一套;
4)分析建模模块400
分析建模模块400包括文本量化401、主题词检测402以及主题词聚类403三部分,该模块主要功能是对切分后的舆情数据进行分析建模,检测热门话题,该模块是系统的核心模块;
(1)文本量化401,舆情数据分词后变成一个词向量,对词语频率进行统计,用词频代替词语,将词向量变成向量;
(2)主题词检测402,根据词语增长的速度以及词语在整个舆情数据中所占的比例构造复合权值,对主题词进行排序;
(3)主题词聚类403,通过增量聚类的方法,将主题词进行聚类,得出热门话题;
5)结果展示模块500
结果展示模块500通过表格以及词云的方式来展现模型分析结果。
3、工作机理
数据采集模块100将互联网舆情数据采集后,解析存储到Hadoop大数据后台存储模块中,并将解析后的数据传送给预处理模块200;在预处理模块200中,通过停用词去除201和特殊字符去除202对舆情数据进行简单的过滤,然后将数据传送给分词模块300;分词模块300通过基于词典的分词模块301和基于统计的分词模块302得到两套分词结果,然后通过去重合并303将两套分词结果合并为一套,并传送给分析建模模块400;在分析建模模块400中,首先通过文本量化401将舆情数据转换为数字向量,接着通过主题词检测402得出主题词,最后通过主题词聚类403得出热门话题,并传送给结果展示模块500;在结果展示模块500中,通过表格以及词云的方式来展示模型分析的结果。
二、方法
1、步骤①
a、所述的舆情数据采集设备所采集的舆情数据是指某段时间内某个社交平台所有的内容,包括ID以及发布内容;
b、所述的将数据传输给后台大数据系统进行存储指的是将数据以ZIP包的形式传送到后台,后台数据采集模块进行解析过滤,将所需数据存储到Hbase中。
2、步骤②
a、停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据时会自动过滤的某些字或词。因此我们在处理数据之前会通过停用词词表将停用词去除;
b、在热门话题采集过程中,有些特殊字符,如表情符号、标点符号、’@’等字符,对于话题内容的描述可能性小,因此对这些词语进行过滤,以增加主题词检测的精度。
3、步骤③
a、基于词典的分词方法。该方法的原理是将文档中的字符串与词典中的词条逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分;该方法简单实用,实用性强,对于一些专有名词如人等、地名等非常实用,缺点则是词语的切分过渡依赖词典,对于一些网络新词无法识别;
b、基于统计的分词方法。该方法的原理是根据字符串在语料库中出现统计频率来决定其是否构成词语;词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词;因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度;该方法在本系统中的应用主要是为了识别网络新词的出现,是对于基于词典的分词方法一个很好的补充;
c、由于两种分词方法对于舆情数据进行拆分后,会出现一定量的重复词语,因此我们需要去重合并的步骤将两套拆分结果整合为一套。
4、步骤④
a、文本量化的具体做法是:对一个文本数据进行分词后,得到一个词向量,其中每个词都带有词性标注,不同词性的词对于主题表达的贡献度不同,其中对主题表达和辨识作用最大的是名词和动词,所以在文本量化中我们只考虑这两种词性词语;文本量化时,我们先将文本数据按照时间窗口划入到相同的时间窗口中,然后统计相同时间窗口内的词频,按比例保留频率最高的词语;
b、主题词检测的具体做法是:通过引入变量S作为词语i在时间窗口j中的增长速度,同时引入变量T作为词语i在时间窗口j中的频率,同时考虑增长速度与频率,构造一个复合的权值来评价一个词是主题词的程度;这个主题词表现出的特点是词语在本段时间内出现次数较多且之前时段内出现次数较少;
c、主题词聚类,根据主题词检测中主题词的权重对主题词进行降序排列,然后对排序后的词进行增量聚类:
输入:带有权重值的主题词
输出:簇列表
(1)以第一个词作为初始簇
(2)输入下一个词,判断它与每个已有簇的距离
(3)如果离它最近的簇的距离大于阈值,那么把这个词作为一个新簇,否则放入该簇
(4)继续输入下一个词,重复(2)到(4),直到所有词都处理完毕
(5)输出结果。
5、步骤⑤:
该步骤主要通过表格以及词云的方式来展现模型分析结果。

Claims (7)

1.一种基于新词识别的热门话题采集系统,其特征在于:
包括数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)和结果展示模块(500);
其交互关系是:
数据采集模块(100)、预处理模块(200)、分词模块(300)、分析建模模块(400)、结果展示模块(500)依次连通。
2.基于权利要求1所述系统的基于新词识别的热门话题采集方法,其特征在于包括下列步骤:
①数据采集模块(100)通过舆情数据采集设备将舆情数据进行捕获,将处理后的数据以ZIP压缩包的形式传输给后台Hadoop大数据系统进行存储,通过Hadoop大数据系统发送给预处理模块(200进)行数据清洗;
②预处理模块(200)包括停用词去除以及特殊字符去除两部分,该模块负责对舆情数据进行简单清洗,由于停用词以及特殊字符所含信息量少且难以根据上下文进行进一步分析,预处理模块200便将这部分词语字符进行清洗,在保证数据信息量的基础上对数据量进行缩减;
③分词模块(300)包括基于词典的分词模块、基于统计的分词模块以及去重合并三部分,该模块主要功能是对舆情数据进行分词,通过两种分词方法对于数据进行全方位准确切分;
④分析建模模块(400)包括文本量化、主题词检测以及主题词聚类三部分,该模块主要功能是对切分后的舆情数据进行分析建模,检测热门话题,该模块是系统的核心模块;
⑤结果展示模块(500)主要是对分析建模模块输出的结果通过图表的方式进行结果展示。
3.按权利要求2所述的基于新词识别的热门话题采集方法,其特征在于所述的步骤①:
a、所述的舆情数据采集设备所采集的舆情数据是指某段时间内某个社交平台所有的内容,包括ID以及发布内容;
b、所述的将数据传输给后台大数据系统进行存储指的是将数据以ZIP包的形式传送到后台,后台数据采集模块进行解析过滤,将所需数据存储到Hbase中。
4.按权利要求2所述的基于新词识别的热门话题采集方法,其特征在于所述的步骤②
a、停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据时会自动过滤的某些字或词;因此我们在处理数据之前会通过停用词词表将停用词去除;
b、在热门话题采集过程中,有些特殊字符,如表情符号、标点符号、’@’等字符,对于话题内容的描述可能性小,因此对这些词语进行过滤,以增加主题词检测的精度。
5.按权利要求2所述的基于新词识别的热门话题采集方法,其特征在于所述的步骤③:
a、基于词典的分词方法:该方法的原理是将文档中的字符串与词典中的词条逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分;该方法简单实用,实用性强,对于一些专有名词如人等、地名等非常实用,缺点则是词语的切分过渡依赖词典,对于一些网络新词无法识别;
b、基于统计的分词方法:该方法的原理是根据字符串在语料库中出现统计频率来决定其是否构成词语;词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词;因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度;该方法在本系统中的应用主要是为了识别网络新词的出现,是对于基于词典的分词方法一个很好的补充;
c、由于两种分词方法对于舆情数据进行拆分后,会出现一定量的重复词语,因此我们需要去重合并的步骤将两套拆分结果整合为一套。
6.按权利要求2所述的基于新词识别的热门话题采集方法,其特征在于所述的步骤④
a、文本量化的具体做法是:对一个文本数据进行分词后,得到一个词向量,其中每个词都带有词性标注,不同词性的词对于主题表达的贡献度不同,其中对主题表达和辨识作用最大的是名词和动词,所以在文本量化中我们只考虑这两种词性词语;文本量化时,我们先将文本数据按照时间窗口划入到相同的时间窗口中,然后统计相同时间窗口内的词频,按比例保留频率最高的词语;
b、主题词检测的具体做法是:通过引入变量S作为词语i在时间窗口j中的增长速度,同时引入变量T作为词语i在时间窗口j中的频率,同时考虑增长速度与频率,构造一个复合的权值来评价一个词是主题词的程度;这个主题词表现出的特点是词语在本段时间内出现次数较多且之前时段内出现次数较少;
c、主题词聚类,根据主题词检测中主题词的权重对主题词进行降序排列,然后对排序后的词进行增量聚类:
输入:带有权重值的主题词
输出:簇列表
(1)以第一个词作为初始簇
(2)输入下一个词,判断它与每个已有簇的距离
(3)如果离它最近的簇的距离大于阈值,那么把这个词作为一个新簇,否则放入该簇
(4)继续输入下一个词,重复(2)到(4),直到所有词都处理完毕
(5)输出结果。
7.按权利要求2所述的基于新词识别的热门话题采集方法,其特征在于所述的步骤⑤:
该步骤主要通过表格以及词云的方式来展现模型分析结果。
CN201810010781.0A 2018-01-05 2018-01-05 基于新词识别的热门话题采集系统及其方法 Withdrawn CN108563667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810010781.0A CN108563667A (zh) 2018-01-05 2018-01-05 基于新词识别的热门话题采集系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810010781.0A CN108563667A (zh) 2018-01-05 2018-01-05 基于新词识别的热门话题采集系统及其方法

Publications (1)

Publication Number Publication Date
CN108563667A true CN108563667A (zh) 2018-09-21

Family

ID=63529657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810010781.0A Withdrawn CN108563667A (zh) 2018-01-05 2018-01-05 基于新词识别的热门话题采集系统及其方法

Country Status (1)

Country Link
CN (1) CN108563667A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359857A (zh) * 2018-10-12 2019-02-19 网智天元科技集团股份有限公司 一种媒体影响力评估方法、装置及电子设备
CN110457595A (zh) * 2019-08-01 2019-11-15 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
CN111061866A (zh) * 2019-08-20 2020-04-24 河北工程大学 一种基于特征扩展和T-oBTM的弹幕文本聚类方法
CN111538893A (zh) * 2020-04-29 2020-08-14 四川大学 一种从非结构化数据中提取网络安全新词的方法
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN112541057A (zh) * 2019-09-04 2021-03-23 上海晶赞融宣科技有限公司 分布式新词发现方法、装置、计算机设备和存储介质
CN113609302A (zh) * 2021-06-21 2021-11-05 北京交通大学 基于非结构化数据的铁路事故根因识别系统及识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN104573016A (zh) * 2015-01-12 2015-04-29 武汉泰迪智慧科技有限公司 一种基于行业的垂直舆情分析系统及方法
CN104809252A (zh) * 2015-05-20 2015-07-29 成都布林特信息技术有限公司 互联网数据提取系统
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN104573016A (zh) * 2015-01-12 2015-04-29 武汉泰迪智慧科技有限公司 一种基于行业的垂直舆情分析系统及方法
CN104809252A (zh) * 2015-05-20 2015-07-29 成都布林特信息技术有限公司 互联网数据提取系统
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
@ICTCLAS张华平博士: "NLPIR/ICTCLAS 分词系统开发文档", 《HTTP://ICTCLAS.NLPIR.ORG/》 *
丁晟春等: "基于突发主题词和凝聚式层次聚类的微博突发事件检测研究", 《现代图书情报技术》 *
林思娟等: "一种基于词语能量值变化的微博热点话题发现方法研究", 《信息网络安全》 *
游丹丹等: "我国网络舆情热点话题发现研究综述", 《现代情报》 *
马慧芳等: "一种基于时序窗口的动态热点话题提取模型", 《高技术通讯》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359857A (zh) * 2018-10-12 2019-02-19 网智天元科技集团股份有限公司 一种媒体影响力评估方法、装置及电子设备
CN109359857B (zh) * 2018-10-12 2021-08-27 网智天元科技集团股份有限公司 一种媒体影响力评估方法、装置及电子设备
CN110457595A (zh) * 2019-08-01 2019-11-15 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
CN111061866A (zh) * 2019-08-20 2020-04-24 河北工程大学 一种基于特征扩展和T-oBTM的弹幕文本聚类方法
CN111061866B (zh) * 2019-08-20 2024-01-02 河北工程大学 一种基于特征扩展和T-oBTM的弹幕文本聚类方法
CN112541057A (zh) * 2019-09-04 2021-03-23 上海晶赞融宣科技有限公司 分布式新词发现方法、装置、计算机设备和存储介质
CN111538893A (zh) * 2020-04-29 2020-08-14 四川大学 一种从非结构化数据中提取网络安全新词的方法
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN113609302A (zh) * 2021-06-21 2021-11-05 北京交通大学 基于非结构化数据的铁路事故根因识别系统及识别方法
CN113609302B (zh) * 2021-06-21 2024-03-22 北京交通大学 基于非结构化数据的铁路事故根因识别系统及识别方法

Similar Documents

Publication Publication Date Title
CN108563667A (zh) 基于新词识别的热门话题采集系统及其方法
Elmadany et al. An arabic speech-act and sentiment corpus of tweets
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
Li et al. Filtering out the noise in short text topic modeling
Atkinson et al. Near real time information mining in multilingual news
Vadivukarassi et al. Sentimental analysis of tweets using Naive Bayes algorithm
KR101737887B1 (ko) 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
Chong et al. Natural language processing for sentiment analysis: an exploratory analysis on tweets
CN103268350B (zh) 一种互联网舆情信息监测系统及监测方法
CN104504150A (zh) 新闻舆情监测系统
CN103617290B (zh) 中文机器阅读系统
CN104216964B (zh) 一种面向微博的非分词突发话题检测方法
CN113407842B (zh) 模型训练方法、主题推荐理由的获取方法及系统、电子设备
Tembhurnikar et al. Topic detection using BNgram method and sentiment analysis on twitter dataset
CN110767211B (zh) 一种基于文本内容数据清洗的语音合成播报系统
Stojanovski et al. Emotion identification in FIFA world cup tweets using convolutional neural network
Andriotis et al. Smartphone message sentiment analysis
CN103580952A (zh) 一种网络监控系统
Alhashmi et al. Consensus-Based Ensemble Model for Arabic Cyberbullying Detection.
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
Wei et al. Analysis of information dissemination based on emotional and the evolution life cycle of public opinion
US20170293597A1 (en) Methods and systems for data processing
CN107291952B (zh) 一种提取有意义串的方法及装置
Khodabakhsh et al. PerBOLD: A Big Dataset of Persian Offensive language on Instagram Comments
KR101913284B1 (ko) 소셜 네트워크 서비스에서 스팸 탐지 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180921