CN108763210A - 一种基于自动化数据收集的情感分析与预测系统 - Google Patents

一种基于自动化数据收集的情感分析与预测系统 Download PDF

Info

Publication number
CN108763210A
CN108763210A CN201810496384.9A CN201810496384A CN108763210A CN 108763210 A CN108763210 A CN 108763210A CN 201810496384 A CN201810496384 A CN 201810496384A CN 108763210 A CN108763210 A CN 108763210A
Authority
CN
China
Prior art keywords
sentiment analysis
data
analysis
sentiment
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810496384.9A
Other languages
English (en)
Inventor
李瑞轩
文坤梅
昝杰
李玉华
辜希武
汤俊伟
刘长征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201810496384.9A priority Critical patent/CN108763210A/zh
Publication of CN108763210A publication Critical patent/CN108763210A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于自动化数据收集的情感分析与预测系统,包括:用户交互模块接收用户的输入的进行情感分析指令,并提供可视化界面供用户进行信息查看;数据管理模块用于对待进行情感分析的数据进行收集和管理,通过网页、API和URL三种爬虫实现预设条件下的历史文本信息或实时文本流的爬取并存储;情感分析模块用于对待进行情感分析的数据进行情感分析,包括词性标注、句法结构分析和情感倾向性分析,结合不同情感分析过程给出综合情感分析结果;情感预测模块用于根据一段时间内的综合情感分析结果对待进行情感分析的数据对应的情感倾向进行预测。本发明可以自动收集数据并在此过程中不断基于历史数据给出情感预测结果。

Description

一种基于自动化数据收集的情感分析与预测系统
技术领域
本发明涉及情感分析及情感预测技术领域,更具体地,涉及一种基于自动化数据收集的情感分析与预测系统。
背景技术
随着社交平台(Twitter、Facebook等)、电子商务平台(Amazon、淘宝等)以及点评网站(yelp、豆瓣等)等信息分享平台的快速发展。网络中各种非结构化的文本内容也呈爆炸式增长,故迫切需要通过自然语言处理(Natural Language Processing,NLP)技术对文本中表达的情感倾向进行分析判断,如判断文本情感的积极消极性或者分析文本中出现的悲伤、快乐和生气等情绪状态。在此基础上,情感分析(又称作评论挖掘或意见挖掘)的研究就应运而生。例如,从评论中识别出商品属性的情感信息,可为商家和其他用户提供决策支持;在舆情监控中,政府可及时了解民众对突发事件、社会现象的态度,引导舆论趋势。情感分析也可应用在其他自然语言处理任务中,例如在问答系统中,选取与问题最相关的答案,将更容易被其他用户采纳;在自动翻译系统中,对输入文本进行情感倾向判断,有助于更精准选择带有正面或负面的同义词进行翻译,提高翻译系统的准确率。
情感分析技术随着自然语言处理技术的不断发展得到了很大的发展,不同的情感分析方法也层出不穷,从传统的基于机器学习的方法和基于概率统计的情感词典方法到基于深度学习的情感方法都通过不同的思路和方法达到了较好的效果。但情感分析的准确度往往取决于训练模型时文本语料资源的丰富程度,一些情感预测的任务则需要基于大量历史的情感信息对未来的情感信息走势提出预测。现有的情感分析过程往往只集中在特定的一个任务,并具有以下不足之处:
(1)缺乏对于文本进行情感分析时不同方法分析结果的直观对比。
(2)情感分析任务的数据集往往都需要依据任务需求进行爬取或寻找合适的数据集而缺乏统一的文本资源管理平台。
(3)情感分析时的数据爬取及数据预处理往往都是耗时且重复的工作。
此外,现有的情感分析或预测系统往往只包含单一的数据集来源,或者爬取的数据不可以进行按需定制。且现有系统在情感分析方法上也不能提供不同情感分析方法的直观对比,并基于用户反馈对系统中的情感分析模型进行调整。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有情感分析不同方法的分析结果不能进行直观对比,缺乏统一文本资源管理平台,耗时多,数据源单一且爬取的数据不可以按需要定制,无法基于用户反馈调整情感分析模型等技术问题。
为实现上述目的,本发明提供一种基于自动化数据收集的情感分析与预测系统,包括:用户交互模块、数据管理模块、情感分析模块以及情感预测模块;
所述用户交互模块接收用户的输入的进行情感分析指令,并提供可视化界面供用户进行信息查看;所述数据管理模块用于对待进行情感分析的数据进行收集和管理,通过网页、API和URL三种爬虫实现预设条件下的历史文本信息或实时文本流的爬取并存储;所述情感分析模块用于对待进行情感分析的数据进行情感分析,包括词性标注、句法结构分析和情感倾向性分析,结合不同情感分析过程给出综合情感分析结果;所述情感预测模块用于根据一段时间内的综合情感分析结果对所述待进行情感分析的数据对应的情感倾向进行预测。
可选地,该情感分析与预测系统还包括:系统管理模块;所述系统管理模块用于对系统数据库中的数据集、系统中相关的爬取任务、情感分析任务、系统操作记录进行监控和管理。
可选地,所述数据管理模块的爬取内容包含待进行情感分析数据的文本内容、文本发表的时间、文本发表的地点、文本的转发信息、文本的发表者、文本的点赞数以及文本的转发数。
可选地,所述数据管理模块对于爬取的结果依据数据的结构提供基于关系型及非关系型数据库的数据存储,所述数据存储包括数据爬取结果的存储,以及情感分析相关公开数据集的存储,同时支持对于数据库中存储数据的高效检索。
可选地,所述用户交互模块接收用户对情感分析结果的标注;
所述情感分析模块依据用户的标注结果对系统中的情感分析算法进行调整,优化情感分析的精确度。
可选地,所述情感预测模块对一段时间后个人潜在的情感倾向及群体中的情感倾向占比情况进行预测。
可选地,所述情感分析与预测系统可根据对一段时间内用户对商品的评价信息分析得到的情感分析结果,预测一段时间后用户对该商品的情感倾向。
可选地,所述情感分析与预测系统可根据对一段时间内用户对热门事件的评价分析得到的情感分析结果,预测一段时间后用户对该热门事件的情感倾向。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
(1)完备的数据收集功能:一方面系统基于网页、API、URL三种方式基本可以获取互联网中的所有情感分析相关的文本资源,另一方面系统并且可以设定丰富的爬取条件。大大简化了情感分析过程中数据收集及数据清洗过程的复杂度。故本系统具有丰富的数据收集及管理功能,且系统可以导出数据收集结果。
(2)情感分析结果更加丰富和准确:现有情感分析系统往往只是特定方法情感分析结果的展示,本发明使用几种典型的情感分析方法分别给出情感分析结果,且可以对不同来源的数据集进行情感分析,增加了情感分析结果的可信度,且用户可以对分析结果进行标记、基于反馈系统可以对情感分析模型不断优化,提升情感分析的准确度。
(3)情感预测更方便和精确:由于系统的自动化数据收集过程可定制,所以对于给定的情感预测方法只要设定数据爬取的条件系统便可以自动收集数据并在此过程中不断基于历史数据给出情感预测结果。同时由于情感预测的准确度对数据集的大小及情感分析的准确性依赖较大,基于系统的高效的数据收集能力及准确的情感分析结果可以提升情感预测的精确度。
附图说明
图1为本发明提供的情感分析及预测系统的结构示意图;
图2为本发明提供的数据管理模块、情感分析模块和情感预测模块的具体结构示意图;
图3为本发明提供的数据管理模块的数据收集流程示意图;
图4为本发明提供的情感分析模块的情感分析流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出的基于自动化数据收集的情感分析与预测系统,包括用户交互模块、数据管理模块、情感分析模块、情感预测模块、系统管理模块。该系统能够实现对多种文本资源定制化的自动收集,同时基于系统收集的数据以及不同的情感分析方法进行文本的词性标注、句法分析以及情感分析,并基于大量的数据及情感分析结果预测特定时间的个体及群体情感信息。本发明设计提出的系统集成了可定制的数据自动化收集,简化了情感分析中的数据收集及处理过程,同时提供了多种情感分析方法的对比并基于反馈信息不断优化情感分析模型,提升了情感分析的准确度,优化了情感预测的复杂度及准确性。
具体地,用户交互模块提供可视化界面供用户进行信息查看,接收用户的输入或用户的其他请求后提交系统后台进行处理,以及将系统处理的结果生成界面展示给用户以接受用户的进一步操作。
数据管理模块用于对数据进行收集和管理,通过网页、API、URL三种爬虫实现特定条件下的历史文本信息或实时文本流的爬取。其中爬取内容不仅包含文本内容,还包括文本发表的时间、地点、转发信息、发表者、点赞数、转发数等相关信息。对于爬取的结果依据数据的结构提供基于关系型及非关系型数据库的数据存储功能。数据存储包括数据爬取结果的存储,以及情感分析相关公开数据集的存储(如Yelp、IMDB的公开数据集)。同时支持对于数据库中存储数据的高效检索。
情感分析模块用于对特定文本进行情感分析。包含但不限于词性标注、句法结构分析、情感倾向性分析。其中每一个情感分析过程分别使用不同的情感分析方法进行分析,同时给出综合不同情感分析过程的综合情感分析结果。用户还可以对情感分析的结果进行标注,系统依据用户的标注结果对系统中的情感分析算法进行调整,优化情感分析的精确度。
情感预测模块基于本系统数据库中一段时间内文本的情感倾向性分析结果,对一段时间后个人潜在的情感倾向及群体中的情感倾向占比情况进行预测。同时基于用户发表的一系列文本内容提供用户之间的相似性分析。
系统管理模块用于对系统数据库中的数据集、系统中相关的爬取任务、情感分析任务、系统操作记录等信息进行监控和管理。
上述结构的系统能够实现对多种文本资源定制化的自动收集,同时基于系统收集的数据以及不同的情感分析方法进行文本的词性标注、句法分析以及情感分析,并基于大量的数据及情感分析结果预测特定时间的个体及群体情感信息。且系统上述模块中各功能的实现方式不做具体限定。模块内同一功能可以同时存在多种实现方式。
本发明设计的系统具备的功能其中一种实现方式可以为:用户可以设置针对某一话题或者某一商家在某个特定时间段的微博等文本流信息进行获取,对该时间段的文本情感走势进行情感分析,用户查看某个特定时间段内针对某个话题的情感变化及未来的趋势,或者查看针对某个商家的情感变化。如用于对特定产品的评价指标观测、对于政策发布后的情感变化分析、对于商家的口碑感知等。
本发明所述的情感分析与预测系统的操作方式为用户在系统界面提交具体的操作请求,用户交互模块将用户的请求发送给系统后台进行处理,系统后台请求相应的模块进行相应的处理后将结果返回用户交互模块,用户交互模块将结果展示给用户以供用户进行下一步操作。本发明所述的情感分析与预测系统的具体实施方式如下:
如图1所示,本发明提供的基于自动化数据收集的情感分析与预测系统包括用户交互模块100、数据管理模块200、情感分析模块300、情感预测模块400和系统管理模块500。
用户交互模块100用于提供可视化界面供用户进行信息查看,接收用户的输入或用户的其他请求后提交系统后台进行处理,以及将系统处理的结果生成界面展示给用户以接受用户的进一步操作。
数据管理模块200用于对数据进行收集和管理,通过网页、API、URL三种爬虫实现特定条件下的历史文本信息或实时文本流的爬取。如爬取特定用户或关键词的推文,或特定话题的实时微博,同时可以设定公开数据集的下载链接及数据格式实现公开数据集的导入。对于爬取的结果依据数据的结构提供基于关系型及非关系型数据库的数据存储功能。数据存储包括数据爬取结果的存储,以及情感分析相关公开数据集的存储(如Yelp、IMDB的公开数据集)。同时支持对于数据库中存储数据的高效检索。
情感分析模块300用于对特定文本进行情感分析。包含但不限于词性标注、句法结构分析、情感倾向性分析。其中每一个情感分析过程分别使用不同的情感分析方法进行分析,同时给出综合不同情感分析过程的综合情感分析结果。用户还可以对情感分析的结果进行标注,系统依据用户的标注结果对系统中的情感分析算法进行调整,优化情感分析的精确度。
情感预测模块400基于本系统数据库中一段时间内文本的情感倾向性分析结果,对一段时间后个人潜在的情感倾向及群体中的情感倾向占比情况进行预测。同时基于用户发表的一系列文本内容提供用户之间的相似性分析。
系统管理模块500用于对系统数据库中的数据集、系统中相关的爬取任务、情感分析任务、系统操作记录等信息进行监控和管理。
基于上述的描述,图1所示为本发明实施提供的情感分析与预测系统结构示意图,图中表现了本实施方式各模块之间的关联关系:
用户交互模块100与系统管理模块500连接,用户交互模块100通过可视化界面的点击或输入操作可以提交修改和删除的任务给系统管理模块500,系统管理模块500则将系统响应操作的结果返回给用户交互模块100生成可视化界面供用户查看。数据管理模块200可以发送数据给情感分析模块300或情感预测模块400进行相应的分析处理,同时情感预测模块400也可以调用情感分析模块300和数据管理模块200进行数据的检索以及情感分析,并给出情感预测结果。
根据图1所示的情感分析与预测系统结构示意图本发明的一个具体实施方式如下:
用户交互模块100使用网站的形式提供给用户进行可视化操作,用户通过点击对系统下达命令,系统其他模块响应命令将结果返回给用户交互模块100。用户可以查看返回的结果并进行下一步操作。本发明的另一种实施方式可以使用客户端实现可视化。
图2为本发明提供的数据管理模块、情感分析模块和情感预测模块的具体结构示意图。如图2所示,数据管理模块200包括网页爬虫模块210、API爬虫模块220、URL爬虫模块230、数据存储模块240以及数据检索模块250。
网页爬虫模块210、API爬虫模块220、URL爬虫模块230用于实现对于数据的自动化收集。其中网页爬虫模块210可以爬取web网页并对网页中的文本信息进行解析,API爬虫模块220使用Twitter开发者提供的数据流接口进行爬取,URL爬虫模块230直接爬取给定下载链接的数据集,如可以提供公开数据集的数据结构以及链接地址,系统按照指定的数据格式爬取对应链接的文件资源并进行解析后提供给数据存储模块。其中每个模块可以启动多个线程进行工作,每个自动化数据收集任务可以设置一定的爬取条件,如设置任务一段时间后结束,爬取一定数量的文本内容后结束。本实施例可以对微博网页中的博文进行解析,同时接口爬取单元在爬取时可以设置需要爬取的特定用户群或需要爬取文本中包含特定的关键词。爬虫爬取的数据资源交付数据存储模块240进行存储。
具体地,数据自动化收集的流程如图3所示:
用户首先在用户交互模块100的爬虫界面选择要爬取的数据集,然后添加爬取时要满足的条件,比如爬取用户X最近发表的3000条推文、爬取未来三个月内的热门微博或设定要爬取的关键词。
用户提交爬取数据的请求后,系统分配资源给数据爬取模块并启动相应的若干线程对数据进行爬取。
系统管理模块500将用户提交的该数据收集任务具体的创建时间、爬取条件等信息添加到系统的日志记录中。
依据用户提交的请求在网页爬虫模块210、API爬虫模块220、URL爬虫模块230中选择合适的爬虫接口。若用户给定了一个URL链接请求下载则调用URL爬虫模块230,若需要爬取的数据源为Twitter则系统调用API爬虫模块220通过Twitter开发者接口爬取符合目标条件的数据。若以上情况都不符合则系统调用网页爬虫模块210通过模拟在对应网站的搜索操作,然后通过对搜索得到页面的内容进行解析实现数据的收集。上述收集数据的过程中同时依据爬取条件对爬取到的数据进行过滤筛选。
将数据依据数据的来源交付数据存储模块240选择特定的数据库、数据库中的表进行存储。
数据收集任务结束后,系统管理模块500依据执行结果(成功、失败、爬取的信息数目等)写入日志,通过系统管理模块用户可以查看系统爬虫的爬取进度及系统的操作日志
数据存储模块240用于对数据自动化收集结果以及情感分析相关公开数据集(如Yelp、IMDB的公开数据集)的存储,其中存取的方式依据数据量的大小及内容格式的不同分别采用关系型数据库及非关系型数据库,如MySQL和MongoDB。
数据检索模块250主要用于对数据存储模块240中的数据信息进行检索并对检索的结果进行缓存。数据检索时可以对数据库中的内容进行精确查找及模糊查找、单条件检索及联合条件查找,系统对数据库中的内容进行查找并返回最匹配的若干结果。如一个有效的检索条件为发表时间为2016年,文本长度大于10个单词,情感为积极的文本内容,系统依据输入的查询条件匹配若干相关结果返回给用户。缓存功能为对一段时间内的检索结果进行缓存,在检索时若存在缓存数据则直接返回缓存结果,缓存信息在相关数据发生改变后失效。
另外,如图2所示,情感分析模块300包括词性标注模块310、句法分析模块320、情感倾向分析模块330、用户情感分析模块340。
词性标注模块310首先对于文本进行分词处理并去掉文本中无法识别的特殊符号,然后分别使用NLPIR、Stanford Postagger、LTP三种词性标注工具进行词性标注,其中每种工具启动一个系统线程并发进行标注。
句法分析模块320依据词性标注模块310的标注结果分析句子的句法依存关系,对于每一种词性标注的结果均可以使用不同的句法分析工具对句中各词语间的依存关系进行分析。本实施例使用NLPIR、Stanford Parser、LTP三种工具进行句法分析。
情感倾向分析模块330对句子的情感倾向性进行分析,分别基于情感词典、机器学习、深度学习的方法给出分析结果(积极、消极、或其他),同时给出综合以上分析结果的最终情感分析结果。
用户情感分析模块340依据用户发表文本的习惯对情感分析的结果进行调整,若用户经常发表积极的内容,则该文本的情感分析结果会倾向于积极的判定结果。
具体地,本发明提供的情感分析的具体流程如图4所示:
输入待分析的文本内容。情感分析的输入内容可以是一个句子、一段话或一篇文章,也可以选择数据检索模块250检索得到的系统收录的爬取或公开数据集的相关文本内容作为待分析的文本。
基于词性标注模块310进行多路词性标注,使用NLPIR、Stanford Postagger、LTP三种词性标注工具得到三种词性标注结果。
基于句法分析模块320及三种词性标注结果进行多路句法分析,对于三种词性标注结果分别使用NLPIR、Stanford Parser、LTP三种工具得到三种句法分析结果。
判断词性标注结果中是否有词语标注为表情符号。若包含表情符号,则依据表情符号给出一种情感标注结果,判定依据为将包含:)、:)或:-)的文本标注为积极,将含有:(、:(或:-(的文本标注为消极,然后进行多路情感分析。若不包含则直接进行多路情感分析。
分别基于情感词典、机器学习、深度学习的方法给出分析结果(积极、消极、或其他),其中基于情感词典的方法利用词典中每个词语的打分计算句子所有单词的平均分,依据句子最终的得分判定句子的情感倾向性,若句中存在某些特定的句法结构则会依据句法依存关系对情感分析结果进行调整,比如存在否定句则会使情感分析结果置反。基于机器学习的方法使用贝叶斯分类的方法判定句子的情感倾向性。基于深度学习的方法利用卷积神经网络以词语的词向量作为输入判定句子的情感倾向性。本步骤得到待分析文本的三种情感分析结果。
判断待分析的文本内容是否来自于数据存储模块240且该文本具有对应的用户信息,若不满足该条件则直接输出分析结果。若存在相应的用户则基于卷积神经网络得到用户情感分析结果,其中卷积神经网络的输入为用户的特征向量及文本对应的词向量。其中用户的特征向量取用户发表所有词语词向量的平均值。
系统整合词性标注结果,句法分析结果以及情感分析结果,同时根据分析结果综合评定一个最终的情感分析结果返回给用户交互模块100供用户查看。
进一步地,用户通过用户交互模块100可以对上述的情感分析结果可以进行标记是否正确。若对特定文本分析结果标记不正确的次数超过一定阈值,则系统将该结果作为负反馈对系统的算法进行优化,系统对该文本的判定结果进行修改并以此调整系统中情感分析模型的参数。
如图2所示,情感预测模块400包括用户情感预测模块410、群体情感预测模块420、相似用户分析模块430。情感预测模块400的分析数据通过数据检索模块250按照一定条件检索后得到。若检索得到的数据中不含有情感分析结果则通过调用情感分析模块300进行情感分析获取。
用户情感预测模块410对于数据存储模块中特定发表的一系列带有时间戳的文本进行情感分析,并建立线性回归模型实现对未来特定时间情感倾向的预测,若该用户在数据存储模块中存在好友则对其好友发表的文本进行情感分析,依据个人及其好友之间的情感一致程度预测情感的走势。
群体情感预测模块420基于用户情感预测模块410预测某一段时间内积极和消极的在所有文本中的情感占比,首先对该段时间内发表文本的所有用户进行个人的情感预测,然后对预测结果做统计求得不同情感极性的占比情况即为群体的情感预测结果。
相似用户分析模块430基于系统中每个用户的特征向量进行分析、通过计算特征向量的余弦距离来判定用户之间的相似性,对于指定用户系统可以分析与该用户相似的若干用户并返回这些用户发表的文本以及用户的其他已知信息(如年龄、关注关系等)。
系统管理模块500主要用于对系统中存储的数据、日志信息以及任务信息进行管理。包括对数据存储模块240中存储的数据进行修改及删除操作。查看用户登陆系统以及对系统的数据、日志或爬虫任务进行操作时记录的日志信息。查看系统中存在的任务的执行状态,对于执行中的任务可以提交暂停或停止命令,对于待执行的数据收集任务可以修改任务的爬取条件等。
因此,通过本发明所述的情感分析与预测系统,可以提升数据集收集及管理的效率和简便性,并为情感分析任务提供语料丰富的情感数据集。本发明所述的系统的优点不仅在于情感分析数据集不断收集及完善,还在于情感分析相关技术的完善和对比,通过本系统可以进行多种情感分析方法下的情感分析结果对比,并基于大量的分析结果及用户反馈的结果对情感分析方法不断优化,由于情感预测的准确度与数据集的大小也有关联,所以基于大量的系统收集的数据集及其情感分析结果进一步提升了情感预测的准确性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于自动化数据收集的情感分析与预测系统,其特征在于,包括:用户交互模块、数据管理模块、情感分析模块以及情感预测模块;
所述用户交互模块接收用户的输入的进行情感分析指令,并提供可视化界面供用户进行信息查看;
所述数据管理模块用于对待进行情感分析的数据进行收集和管理,通过网页、API和URL三种爬虫实现预设条件下的历史文本信息或实时文本流的爬取并存储;
所述情感分析模块用于对待进行情感分析的数据进行情感分析,包括词性标注、句法结构分析和情感倾向性分析,结合不同情感分析过程给出综合情感分析结果;
所述情感预测模块用于根据一段时间内的综合情感分析结果对所述待进行情感分析的数据对应的情感倾向进行预测。
2.根据权利要求1所述的基于自动化数据收集的情感分析与预测系统,其特征在于,还包括:系统管理模块;
所述系统管理模块用于对系统数据库中的数据集、系统中相关的爬取任务、情感分析任务、系统操作记录进行监控和管理。
3.根据权利要求1或2所述的基于自动化数据收集的情感分析与预测系统,其特征在于,所述数据管理模块的爬取内容包含待进行情感分析数据的文本内容、文本发表的时间、文本发表的地点、文本的转发信息、文本的发表者、文本的点赞数以及文本的转发数。
4.根据权利要求3所述的基于自动化数据收集的情感分析与预测系统,其特征在于,所述数据管理模块对于爬取的结果依据数据的结构提供基于关系型及非关系型数据库的数据存储,所述数据存储包括数据爬取结果的存储,以及情感分析相关公开数据集的存储,同时支持对于数据库中存储数据的高效检索。
5.根据权利要求1所述的基于自动化数据收集的情感分析与预测系统,其特征在于,所述用户交互模块接收用户对情感分析结果的标注;
所述情感分析模块依据用户的标注结果对系统中的情感分析算法进行调整,优化情感分析的精确度。
6.根据权利要求1所述的基于自动化数据收集的情感分析与预测系统,其特征在于,所述情感预测模块对一段时间后个人潜在的情感倾向及群体中的情感倾向占比情况进行预测。
7.根据权利要求1或6所述的基于自动化数据收集的情感分析与预测系统,其特征在于,所述情感分析与预测系统可根据对一段时间内用户对商品的评价信息分析得到的情感分析结果,预测一段时间后用户对该商品的情感倾向。
8.根据权利要求1或6所述的基于自动化数据收集的情感分析与预测系统,其特征在于,所述情感分析与预测系统可根据对一段时间内用户对热门事件的评价分析得到的情感分析结果,预测一段时间后用户对该热门事件的情感倾向。
CN201810496384.9A 2018-05-22 2018-05-22 一种基于自动化数据收集的情感分析与预测系统 Pending CN108763210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810496384.9A CN108763210A (zh) 2018-05-22 2018-05-22 一种基于自动化数据收集的情感分析与预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810496384.9A CN108763210A (zh) 2018-05-22 2018-05-22 一种基于自动化数据收集的情感分析与预测系统

Publications (1)

Publication Number Publication Date
CN108763210A true CN108763210A (zh) 2018-11-06

Family

ID=64007750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810496384.9A Pending CN108763210A (zh) 2018-05-22 2018-05-22 一种基于自动化数据收集的情感分析与预测系统

Country Status (1)

Country Link
CN (1) CN108763210A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446378A (zh) * 2018-11-08 2019-03-08 北京奇艺世纪科技有限公司 信息推荐方法、情感倾向确定方法及装置和电子设备
CN111476373A (zh) * 2020-04-13 2020-07-31 中国科学院计算机网络信息中心 一种人工智能数据服务系统
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN117009524A (zh) * 2023-08-08 2023-11-07 宇哲融创科技(北京)有限公司 一种基于舆情情感分析的互联网大数据分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
WO2016164548A1 (en) * 2015-04-10 2016-10-13 Aetna Inc. Provider rating system
CN107632974A (zh) * 2017-08-08 2018-01-26 夏振宇 适用于多领域的中文分析平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
WO2016164548A1 (en) * 2015-04-10 2016-10-13 Aetna Inc. Provider rating system
CN107632974A (zh) * 2017-08-08 2018-01-26 夏振宇 适用于多领域的中文分析平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王欢欢: "网络评论文本的情感倾向性研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王鹏程: "基于BBS话题评论的网络舆情分析系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446378A (zh) * 2018-11-08 2019-03-08 北京奇艺世纪科技有限公司 信息推荐方法、情感倾向确定方法及装置和电子设备
CN111476373A (zh) * 2020-04-13 2020-07-31 中国科学院计算机网络信息中心 一种人工智能数据服务系统
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN117009524A (zh) * 2023-08-08 2023-11-07 宇哲融创科技(北京)有限公司 一种基于舆情情感分析的互联网大数据分析方法及系统
CN117009524B (zh) * 2023-08-08 2024-03-05 宇哲融创科技(北京)有限公司 一种基于舆情情感分析的互联网大数据分析方法及系统

Similar Documents

Publication Publication Date Title
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
CN105760417B (zh) 基于个性化用户模型和情境的认知交互式搜索的方法和系统
CN109408622B (zh) 语句处理方法及其装置、设备和存储介质
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN110298033A (zh) 关键词语料标注训练提取工具
CN108763210A (zh) 一种基于自动化数据收集的情感分析与预测系统
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN104484815A (zh) 基于模糊本体面向产品方面的情感分析方法及系统
Dhanith et al. A word embedding based approach for focused web crawling using the recurrent neural network
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN114817755A (zh) 一种用户互动内容管理方法、装置和存储介质
Khatter et al. Content curation algorithm on blog posts using hybrid computing
CN111767404B (zh) 一种事件挖掘方法和装置
CN113392195A (zh) 舆情监测方法及装置、电子设备及存储介质
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN116992010A (zh) 一种基于多模态大模型的内容分发和交互方法及系统
KR20230096932A (ko) Ai 기반의 소셜 네트워크 서비스 분석 장치
CN116414961A (zh) 基于军事领域知识图谱的问答方法和系统
CN106777124B (zh) 语义认知方法、装置及系统
CN115098773A (zh) 一种基于大数据的舆情监控与分析系统及方法
CN115510326A (zh) 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法
CN116541517A (zh) 文本信息处理方法、装置、设备、软件程序以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication