CN107016107B - 舆情分析方法及系统 - Google Patents

舆情分析方法及系统 Download PDF

Info

Publication number
CN107016107B
CN107016107B CN201710237462.9A CN201710237462A CN107016107B CN 107016107 B CN107016107 B CN 107016107B CN 201710237462 A CN201710237462 A CN 201710237462A CN 107016107 B CN107016107 B CN 107016107B
Authority
CN
China
Prior art keywords
preset
text information
emotional tendency
text
public opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710237462.9A
Other languages
English (en)
Other versions
CN107016107A (zh
Inventor
李存昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Evercreative Software Development Co ltd
Original Assignee
Sichuan Evercreative Software Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Evercreative Software Development Co ltd filed Critical Sichuan Evercreative Software Development Co ltd
Priority to CN201710237462.9A priority Critical patent/CN107016107B/zh
Publication of CN107016107A publication Critical patent/CN107016107A/zh
Application granted granted Critical
Publication of CN107016107B publication Critical patent/CN107016107B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提供一种舆情分析方法及系统,方法包括:每间隔预设时长从互联网获取包括第一预设特征词的文本信息;针对获取到的每一文本信息,提取该文本信息中的第二预设特征词,并统计得到一词频文档矩阵;根据所述词频文档矩阵在所述各第二预设特征词中选取合适的分类特征,并根据预设特征权重算法计算得到各分类特征的特征权重;将各分类特征的特征权重输入随机森林分类模型进行分类,得到该文本信息的情感倾向类别;在该文本信息的情感倾向类别为预设情感倾向类别时,将该文本信息推送至舆情展示终端;接收舆情展示终端发送的反馈信息,并根据反馈信息对第一预设特征词进行调整。

Description

舆情分析方法及系统
技术领域
本发明涉及数据分析技术领域,具体而言,涉及一种舆情分析方法及系统。
背景技术
自互联网时代开始,网络信息爆炸,在为人们带来便捷的同时,也为部分单位带来舆论困扰。大数据时代,舆情管理面临着巨大的挑战。目前尚未有针对全网舆论信息进行监控的系统。
发明内容
有鉴于此,本发明提供一种舆情分析方法及系统,以实现对全网舆情的监控和分析,将监控结果反馈至用户后可根据用户输入的反馈信息自适应地对分析方式进行更新和优化。
为了达到上述目的,本发明较佳实施例提供一种舆情分析方法,应用于舆情分析系统,所述舆情分析系统中存储有特征词库,所述特征词库中记录有多个特征词及每个特征词所属的情感倾向类别,所述情感倾向类别包括正向和负向;所述方法包括:
每间隔预设时长从互联网获取包括第一预设特征词的文本信息;
针对获取到的每一文本信息,提取该文本信息中的第二预设特征词,并统计该文本信息中不同第二预设特征词的出现频次以及各文本信息中不同第二预设特征词的出现频次,得到一词频文档矩阵;
根据所述词频文档矩阵在所述各第二预设特征词中选取合适的分类特征,并根据预设特征权重算法计算得到各分类特征的特征权重;
将所述各分类特征的特征权重输入基于所述各第一预设特征词构建的随机森林分类模型,对该文本信息的情感倾向进行分类;
选取随机森林分类模型各决策树的输出结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别,并在该文本信息的情感倾向类别为预设情感倾向类别时,将该文本信息推送至舆情展示终端;
接收所述舆情展示终端发送的反馈信息,并根据所述反馈信息对所述第一预设特征词进行调整。
优选地,所述方法还包括:
在指定时间段内监测到有新增词汇的出现频次达到第一预设数量时,将该新增词汇推送至用户终端;
接收所述用户终端发送的指令信息判断该新增词汇是否具有情感倾向类别;
在该新增词汇具有情感倾向类别时,将该新增词汇作为第一预设特征词,并存储到所述特征词库中。
优选地,所述方法还包括:
对包括预设关键词的各文本信息的情感倾向类别进行判别;
计算正向情感倾向类别的文本信息的数量与负向情感倾向类别的文本信息的数量之间的差值;
在所述差值达到第二预设数量时,对所述预设特征权重算法及第一预设特征词进行调整。
优选地,
所述随机森林分类模型通过以下步骤建立和测试:
获取文本集,所述文本集中包括多个文本信息,每个文本信息中包括至少一个所述第一预设特征词;
有放回地从所述文本集中随机抽取多个训练样本作为训练集,分别根据抽取出的每个训练样本生成决策树,从而得到多个决策树;
将所述文本集中除所述训练集外的各文本信息作为测试集,针对所述测试集中的每一文本信息,将该文本信息输入各决策树,得到多个决策结果;
选取所述多个决策结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别;
将所述测试集中各文本信息的判定结果与预存实际结果进行比对,并计算所述各判定结果的准确率,在所述准确率低于预设值时,对所述分类模型进行调整。
优选地,针对获取到的每一文本信息,提取该文本信息中的第二预设特征词的步骤,包括:
对获取到的各文本信息进行数据清洗;
针对数据清洗后的每一文本信息,提取该文本信息中的第二预设特征词。
优选地,所述预设特征权重算法为绝对词频计算方法、倒排文档频度计算方法或词频-倒排文档频度计算方法中的一种或其结合。
本发明较佳实施例还提供一种舆情分析系统,在所述舆情分析系统中存储有特征词库,所述特征词库中记录有多个特征词及每个特征词所属的情感倾向类别,所述情感倾向类别包括正向和负向;所述系统包括:
文本信息获取模块,用于每间隔预设时长从互联网获取包括第一预设特征词的文本信息;
出现频次统计模块,
用于针对获取到的每一文本信息,提取该文本信息中的第二预设特征词,并统计该文本信息中不同第二预设特征词的出现频次以及各文本信息中不同第二预设特征词的出现频次,得到一词频文档矩阵;
文本信息表示模块,用于根据所述词频文档矩阵在所述各第二预设特征词中选取合适的分类特征,并根据预设特征权重算法计算得到各分类特征的特征权重;
分类模块,用于将所述各分类特征的特征权重输入基于所述各第一预设特征词构建的随机森林分类模型,对该文本信息的情感倾向进行分类;
舆情展示模块,用于选取随机森林分类模型各决策树的输出结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别,并在该文本信息的情感倾向类别为预设情感倾向类别时,将该文本信息推送至舆情展示终端;
第一调整模块,用于接收所述舆情展示终端发送的反馈信息,并根据所述反馈信息对所述第一预设特征词进行调整。
优选地,所述系统还包括:
新增特征词监测模块,用于在指定时间段内监测到有新增词汇的出现频次达到第一预设数量时,将该新增词汇推送至用户终端;
情感倾向检测模块,用于接收所述用户终端发送的指令信息判断该新增词汇是否具有情感倾向类别;
特征词更新模块,用于在该新增词汇具有情感倾向类别时,将该新增词汇作为第一预设特征词,并存储到所述特征词库中。
优选地,所述系统还包括:
舆论倾向判别模块,用于对包括预设关键词的各文本信息的情感倾向类别进行判别;
舆论倾向统计模块,用于计算正向情感倾向类别的文本信息的数量与负向情感倾向类别的文本信息的数量之间的差值;
第二调整模块,用于在所述差值达到第二预设数量时,对所述预设特征权重算法及第一预设特征词进行调整。
优选地,所述系统还包括:
目标训练样本获取模块,用于获取目标训练样本集,所述目标训练样本集中包括多个文本信息,每个文本信息中包括至少一个所述第一预设特征词;
判定模块,用于将所述目标训练样本集中的每一文本信息输入所述随机森林分类模型进行情感倾向类别判定;
分类模型调整模块,用于将各文本信息的判定结果与预存实际结果进行比对,并计算所述各判定结果的准确率,在所述准确率低于预设值时,对所述分类模型进行调整。
本发明提供的舆情分析方法及系统,通过周期性地从互联网获取包括第一预设特征词的文本信息,根据所述文本信息中各第二预设特征词的出现频次选取合适的分类特征,并基于选取出的分类特征构建随机森林分类模型对文本信息的情感倾向进行分类。将情感倾向类别为预设类型的文本信息推送至舆情展示终端供用户查看,并根据用户输入的反馈信息,对第一预设特征词进行调整。如此,可以根据判别结果自适应地调整第一预设特征词,使得分类结果更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种电子设备的方框示意图。
图2为本发明实施例提供的一种舆情分析方法的流程示意图。
图3为图2所示步骤S102的子步骤示意图。
图4为本发明实施例提供的一种训练随机森林分类模型的子步骤示意图。
图5为本发明实施例提供的舆情分析方法的又一流程示意图。
图6为本发明实施例提供的舆情分析方法的又一流程示意图。
图7为本发明实施例提供的一种舆情分析系统的功能模块框图。
图8为本发明实施例提供的舆情分析系统的又一功能模块框图。
图9为本发明实施例提供的舆情分析系统的又一功能模块框图。
图10为本发明实施例提供的舆情分析系统的又一功能模块框图。
图标:100-电子设备;110-存储器;111-操作系统;120-处理器;130-通信单元;200-舆情分析系统;210-文本信息获取模块;220-出现频次统计模块;230-文本信息表示模块;240-分类模块;250-舆情展示模块;260-第一调整模块;270-新增特征词监测模块;280-情感倾向检测模块;290-特征词更新模块;2100-舆论倾向判别模块;2110-舆论倾向统计模块;2120-第二调整模块;2130-随机森林建立与训练模块;2131-文本集获取子模块;2132-随机森林建立子模块;2133-测试子模块;2134-判别子模块;2135-分类模型调整子模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参阅图1,是本发明较佳实施例提供的一种电子设备100的方框示意图。本发明实施例中的电子设备100可以是服务器、计算机、终端等具备数据处理能力的设备。如图1所示,电子设备100包括:存储器110、处理器120以及通信单元130。
所述存储器110、处理器120以及通信单元130相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器110中存储有舆情分析系统200,所述舆情分析系统200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块,所述处理器120通过运行存储在存储器110内的软件程序以及模块,如本发明实施例提供的舆情分析系统200,从而执行各种功能应用以及数据处理,即实现本发明实施例中的舆情分析方法。
其中,所述存储器110可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器110用于存储程序,所述存储器110内的软件程序以及模块还可包括操作系统111,其可包括各种用于管理系统任务(如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通讯,从而提供其他软件组件的运行环境。
所述处理器120可能是一种集成电路芯片,具有信号处理能力。上述处理器120可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。还可以是数字信号处理器(DSP))、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述通信单元130用于通过网络建立电子设备100与外部通信终端之间的通信连接,实现网络信号及数据的收发操作。上述网络信号可包括无线信号及有线信号。
可以理解,图1所示的结构仅为示意,电子设备100还可以包括比图1所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
如图2所示,是本发明实施例提供的一种舆情分析方法的流程示意图。所述方法应用于舆情分析系统200,所述舆情分析系统200中存储有特征词库,所述特征词库中记录有多个特征词及每个特征词所属的情感倾向类别,所述情感倾向类别包括正向和负向。
例如,所述特征词可以包括“安全”、“高效”、“新颖”、“质量好”、“喜欢”、“支持”、“不错”、“效率高”、“欢迎”、“太好”、“理解”、“保护”等具有正向情感倾向的词,也可以包括“质量差”、“不满”、“失望”、“效率低”、“不安全”、“破坏”、“伤害”、“恐怖”、“不对”、“危险”、“恶心”、“太差”、“不行”等具有负向情感倾向的词。
在实际应用中,所述舆情分析系统200可以被企业用户用于监控自身感兴趣或与自身利益相关的舆论情况。不同的企业感兴趣的内容有所不同,因此,可以根据实际需求对所述特征词库中的特征词进行更换,以使特征词库与当前企业用户的实际情况相匹配,从而能够准确地筛选出与该企业用户相关的舆论信息。
下面将结合图2对所述舆情分析方法的具体流程及步骤进行详细阐述。
步骤S101:每间隔预设时长从互联网获取包括第一预设特征词的文本信息。
其中,所述第一预设特征词为预先存储在所述特征词库中、符合当前企业用户需求的特征词。
实施时,所述舆情分析系统200周期性地在全网范围(例如,QQ、微博、论坛等)抓取包括所述第一预设特征词的文本信息,并通过对各文本信息的后续处理和分析得到各文本信息的发布者的情感倾向。
步骤S102:针对获取到的每一文本信息,提取该文本信息中的第二预设特征词,并统计该文本信息中不同第二预设特征词的出现频次以及各文本信息中不同第二预设特征词的出现频次,得到一词频文档矩阵。
其中,所述第二预设特征词为获取到的各文本信息中包含的属于第一预设特征词的词语。需要说明的是,在获取到各文本信息后,需要对每一文本信息做预处理,如文本分词等。
可选地,请参阅图3,步骤S102可以包括步骤S201和步骤S202两个子步骤。
步骤S201:对获取到的各文本信息进行数据清洗。
步骤S202:针对去重后的每一文本信息,提取该文本信息中的第二预设特征词。
其中,内容去除指去除所述各文本信息中出现的与各第一预设特征词不同的词语。数据清洗指去除文本信息中的标点、冗余内容及停用词等无法用于区分情感倾向的词。
步骤S103:根据所述词频文档矩阵在所述各第二预设特征词中选取合适的分类特征,并根据预设特征权重算法计算得到各分类特征的特征权重。
在本实施例中,确定分类特征的方法可以有多种,根据所选取的方法可以得到不同的所述预设范围。例如,可以采用基于文档频率(DF)的方法、信息增益法、x2x统计量(CHI)法和互信息(MI)法等对分类特征进行确定。
无论选用何种方法,其本质都是选取各第二预设特征词中对文档区分度最大的多个词语作为分类特征。
在本实施例中,所述预设特征权重算法也可以有多种,例如,绝对词频(IF)、倒排文档频度(IDF)、词频-倒排文档频度(TF-IDF)等。也即,针对区分度较高的第二预设特征词,赋予其较大的权重值,针对区分度较小的第二预设特征词,赋予其较小的权重值。如此,可以将各第二预设特征词用数据进行表示。
步骤S104:将所述各分类特征的特征权重输入基于所述各第一预设特征词构建的随机森林分类模型,对该文本信息的情感倾向进行分类。
其中,所述特征词库中的各第一预设特征词即为用于构建所述随机森林分类模型的原始数据。
在本实施例中,所述方法还包括对所述随机森林分类模型进行训练的步骤,如图4所示,在本实施例中,所述训练可以由以下步骤实现。
步骤S301:获取文本集,所述文本集中包括多个文本信息,每个文本信息中包括至少一个所述第一预设特征词。
步骤S302:有放回地从所述文本集中随机抽取多个训练样本作为训练集,分别根据抽取出的每个训练样本生成决策树,从而得到多个决策树。
其中,每个所述决策树的各节点的分裂特征从所述各第一预设特征中随机选取。
步骤S303:将所述文本集中除所述训练集外的各文本信息作为测试集,针对所述测试集中的每一文本信息,将该文本信息输入各决策树,得到多个决策结果。
步骤S304:选取所述多个决策结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别。
步骤S305:将所述测试集中各文本信息的判定结果与预存实际结果进行比对,并计算所述各判定结果的准确率,在所述准确率低于预设值时,对所述分类模型进行调整。
在本实施例中,所述预设值可以根据实际情况进行灵活调整。此外,还可以通过计算查全率、查准率、AUC、Lift值等对所述随机森林分类模型的分类效果进行评估,并在评估效果不达标时对分类模型进行调整。
步骤S105:选取随机森林分类模型输出的结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别,并在该文本信息的情感倾向类别为预设情感倾向类别时,将该文本信息推送至舆情展示终端。
例如,针对某一与企业用户相关的热点话题,当检测到负向类别的文本信息时,可以将该文本信息推送至舆情展示终端,以供用户查看。
步骤S106:接收所述舆情展示终端发送的反馈信息,并根据所述反馈信息对所述第一预设特征词进行调整。
实施时,企业用户可以对在舆情展示终端查看到的文本信息输入相应的反馈信息。可选地,所述舆情展示终端可以设置有多个选项标签,例如,“符合用户关注方向”、“不符合用户关注方向”等。如此,企业用户可以通过选取合适的选项标签来反馈该文本信息是否为自己关注的舆论信息。所述舆情分析系统200在接收到所述舆情展示终端发送回来的反馈信息时,可以根据所述反馈信息对第一预设特征词进行调整。
可选地,请参阅图5,所述方法还可以包括步骤S107、步骤S108和步骤S109三个步骤。
步骤S107:在指定时间段内监测到有新增词汇的出现频次达到第一预设数量时,将该新增词汇推送至用户终端。
步骤S108:接收所述用户终端发送的指令信息判断该新增词汇是否具有情感倾向类别。
步骤S109:在该新增词汇具有情感倾向类别时,将该新增词汇作为第一预设特征词,并存储到所述特征词库中。
在实际应用中,在某一时间段内网络上可能出现新的流行词汇,在该流行词汇具有明确的情感倾向类别时,可以将该流行词汇加入到特征词库中,作为第一预设特征词。
可选地,如图6所示,所述方法还可以包括步骤S110、步骤S111以及步骤S112三个步骤。
步骤S110:对包括预设关键词的各文本信息的情感倾向类别进行判别。
在实际应用中,随着大舆论环境的改变,舆论热点也会发生改变。不同的舆论热点具有不同的关键词,因此,可以从互联网中获取包括该舆论热点的关键词的文本信息,并对获取到的各文本信息的情感倾向进行判定。
步骤S111:计算正向情感倾向类别的文本信息的数量与负向情感倾向类别的文本信息的数量之间的差值。
其中,对获取到的各文本信息的情感倾向进行统计,可以得到当前大众对当前舆论热点的情感倾向。
步骤S112:在所述差值达到第二预设数量时,对所述预设特征权重算法及第一预设特征词进行调整。
其中,当正向情感倾向的文本信息与负向情感倾向的文本信息的数量之间的差值达到第二预设数量时,可以视作当前大众对当前舆论热点有明显的情感倾向,因此可以根据该种情感倾向调整第一预设特征词以文本信息表示的具体算法。
如图7所示,本发明实施例还提供一种舆情分析系统200,所述舆情分析系统200中存储有特征词库,所述特征词库中记录有多个特征词及每个特征词所属的情感倾向类别,所述情感倾向类别包括正向和负向。
所述舆情分析系统200包括文本信息获取模块210、出现频次统计模块220、文本信息表示模块230、分类模块240、舆情展示模块250以及第一调整模块260。
其中,所述文本信息获取模块210用于每间隔预设时长从互联网获取包括第一预设特征词的文本信息。在本实施例中,关于所述文本信息获取模块210的描述具体可参考对图2中所示的步骤S101的详细描述,也即,所述步骤S101可以由所述文本信息获取模块210执行。
所述出现频次统计模块220用于针对获取到的每一文本信息,提取该文本信息中的第二预设特征词,并统计该文本信息中不同第二预设特征词的出现频次以及各文本信息中不同第二预设特征词的出现频次,得到一词频文档矩阵。
在本实施例中,关于所述出现频次统计模块220的描述具体可参考对图2中所示的步骤S102的详细描述,也即,所述步骤S102可以由所述出现频次统计模块220执行。
所述文本信息表示模块230用于根据所述词频文档矩阵在所述各第二预设特征词中选取合适的分类特征,并根据预设特征权重算法计算得到各分类特征的特征权重。
在本实施例中,关于所述文本信息表示模块230的描述具体可参考对图2中所示的步骤S103的详细描述,也即,所述步骤S103可以由所述文本信息表示模块230执行。
所述分类模块240用于将所述各分类特征的特征权重输入基于所述各第一预设特征词构建的随机森林分类模型,对该文本信息的情感倾向进行分类。在本实施例中,关于所述分类模块240的描述具体可参考对图2中所示的步骤S104的详细描述,也即,所述步骤S104可以由所述分类模块240执行。
所述舆情展示模块250用于选取随机森林分类模型各决策树的输出结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别,并在该文本信息的情感倾向类别为预设情感倾向类别时,将该文本信息推送至舆情展示终端。
在本实施例中,关于所述舆情展示模块250的描述具体可参考对图2中所示的步骤S105的详细描述,也即,所述步骤S105可以由所述舆情展示模块250执行。
所述第一调整模块260用于接收所述舆情展示终端发送的反馈信息,并根据所述反馈信息对所述第一预设特征词进行调整。在本实施例中,关于所述第一调整模块260的描述具体可参考对图2中所示的步骤S106的详细描述,也即,所述步骤S106可以由所述第一调整模块260执行。
可选地,如图8所示,所述舆情分析系统200还可以包括新增特征词监测模块270、情感倾向检测模块280以及特征词更新模块290。
其中,所述新增特征词监测模块270用于在指定时间段内监测到有新增词汇的出现频次达到第一预设数量时,将该新增词汇推送至用户终端。在本实施例中,关于所述新增特征词监测模块270的描述具体可参考对图5所示的步骤S107的详细描述,也即,所述步骤S107可以由所述新增特征词监测模块270执行。
所述情感倾向检测模块280用于接收所述用户终端发送的指令信息判断该新增词汇是否具有情感倾向类别。在本实施例中,关于所述情感倾向检测模块280的描述具体可参考对图5中所示的步骤S108的详细描述,也即,所述步骤S108可以由所述情感倾向检测模块280执行。
所述特征词更新模块290用于在该新增词汇具有情感倾向类别时,将该新增词汇作为第一预设特征词,并存储到所述特征词库中。在本实施例中,关于所述特征词更新模块290的描述具体可参考对图5中所示的步骤S109的详细描述,也即,所述步骤S109可以由所述特征词更新模块290执行。
可选地,如图9所示,所述舆情分析系统200还可以包括舆论倾向判别模块2100、舆论倾向统计模块2110以及第二调整模块2120。
其中,所述舆论倾向判别模块2100用于对包括预设关键词的各文本信息的情感倾向类别进行判别。在本实施例中,关于所述舆论倾向判别模块2100的描述具体可参考对图6中所示的步骤S110的详细描述,也即,所述步骤S110可以由所述舆论倾向判别模块2100执行。
所述舆论倾向统计模块2110用于计算正向情感倾向类别的文本信息的数量与负向情感倾向类别的文本信息的数量之间的差值。在本实施例中,关于所述舆论倾向统计模块2110的描述具体可参考对图6中所示的步骤S111的详细描述,也即,所述步骤S111可以由所述舆论倾向统计模块2110执行。
所述第二调整模块2120用于在所述差值达到第二预设数量时,对所述预设特征权重算法及第一预设特征词进行调整。在本实施例中,关于所述第二调整模块2120的描述具体可参考对图6中所示的步骤S112的详细描述,也即,所述步骤S112可以由所述第二调整模块2120执行。
可选地,如图10所示,所述舆情分析系统200还可以包括随机森林建立与训练模块2130,所述随机森林建立与训练模块2130可以包括文本集获取子模块2131、随机森林建立子模块2132、测试子模块2133、判别子模块2134以及分类模型调整子模块2135。
其中,所述文本集获取子模块2131用于获取文本集,所述文本集中包括多个文本信息,每个文本信息中包括至少一个所述第一预设特征词。在本实施例中,关于所述文本集获取子模块2131的描述具体可参考对图4中所示的步骤S301的详细描述,也即,所述步骤S301可以由所述文本集获取子模块2131执行。
所述随机森林建立子模块2132用于有放回地从所述文本集中随机抽取多个训练样本作为训练集,分别根据抽取出的每个训练样本生成决策树,从而得到多个决策树。
在本实施例中,关于所述随机森林建立子模块2132的描述具体可参考对图4中所示的步骤S302的详细描述,也即,所述步骤S302可以由所述随机森林建立子模块2132执行。
所述测试子模块2133用于将所述文本集中除所述训练集外的各文本信息作为测试集,针对所述测试集中的每一文本信息,将该文本信息输入各决策树,得到多个决策结果。
在本实施例中,关于所述测试子模块2133的描述具体可参考对图4中所示的步骤S303的详细描述,也即,所述步骤S303可以由所述测试子模块2133执行。
所述判别子模块2134用于选取所述多个决策结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别。在本实施例中,关于所述判别子模块2134的描述具体可参考对图4中所示的步骤S304的详细描述,也即,所述步骤S304可以由所述判别子模块2134执行。
所述分类模型调整子模块2135用于将所述测试集中各文本信息的判定结果与预存实际结果进行比对,并计算所述各判定结果的准确率,在所述准确率低于预设值时,对所述分类模型进行调整。
在本实施例中,关于所述分类模型调整子模块2135的描述具体可参考对图4中所示的步骤S305的详细描述,也即,所述步骤S305可以由所述分类模型调整子模块2135执行。
综上所述,本发明提供的舆情分析方法及系统,通过周期性地从互联网获取包括第一预设特征词的文本信息,根据所述文本信息中各第二预设特征词的出现频次选取合适的分类特征,并基于选取出的分类特征构建随机森林分类模型对文本信息的情感倾向进行分类。将情感倾向类别为预设类型的文本信息推送至舆情展示终端供用户查看,并根据用户输入的反馈信息,对第一预设特征词进行调整。如此,可以根据判别结果自适应地调整第一预设特征词,使得分类结果更加准确。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种舆情分析方法,其特征在于,应用于舆情分析系统,所述舆情分析系统中存储有特征词库,所述特征词库中记录有多个特征词及每个特征词所属的情感倾向类别,所述情感倾向类别包括正向和负向;所述方法包括:
每间隔预设时长从互联网获取包括第一预设特征词的文本信息;
针对获取到的每一文本信息,提取该文本信息中的第二预设特征词,并统计该文本信息中不同第二预设特征词的出现频次以及各文本信息中不同第二预设特征词的出现频次,得到一词频文档矩阵;
根据所述词频文档矩阵在所述各第二预设特征词中选取合适的分类特征,并根据预设特征权重算法计算得到各分类特征的特征权重;
将所述各分类特征的特征权重输入基于所述各第一预设特征词构建的随机森林分类模型,对该文本信息的情感倾向进行分类;
选取随机森林分类模型各决策树的输出结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别,并在该文本信息的情感倾向类别为预设情感倾向类别时,将该文本信息推送至舆情展示终端;
接收所述舆情展示终端发送的反馈信息,并根据所述反馈信息对所述第一预设特征词进行调整。
2.根据权利要求1所述的舆情分析方法,其特征在于,所述方法还包括:
在指定时间段内监测到有新增词汇的出现频次达到第一预设数量时,将该新增词汇推送至用户终端;
接收所述用户终端发送的指令信息判断该新增词汇是否具有情感倾向类别;
在该新增词汇具有情感倾向类别时,将该新增词汇作为第一预设特征词,并存储到所述特征词库中。
3.根据权利要求1所述的舆情分析方法,其特征在于,所述方法还包括:
对包括预设关键词的各文本信息的情感倾向类别进行判别;
计算正向情感倾向类别的文本信息的数量与负向情感倾向类别的文本信息的数量之间的差值;
在所述差值达到第二预设数量时,对所述预设特征权重算法及第一预设特征词进行调整。
4.根据权利要求1所述的舆情分析方法,其特征在于,所述随机森林分类模型通过以下步骤建立和测试:
获取文本集,所述文本集中包括多个文本信息,每个文本信息中包括至少一个所述第一预设特征词;
有放回地从所述文本集中随机抽取多个训练样本作为训练集,分别根据抽取出的每个训练样本生成决策树,从而得到多个决策树;
将所述文本集中除所述训练集外的各文本信息作为测试集,针对所述测试集中的每一文本信息,将该文本信息输入各决策树,得到多个决策结果;
选取所述多个决策结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别;
将所述测试集中各文本信息的判定结果与预存实际结果进行比对,并计算所述各判定结果的准确率,在所述准确率低于预设值时,对所述分类模型进行调整。
5.根据权利要求1所述的舆情分析方法,其特征在于,针对获取到的每一文本信息,提取该文本信息中的第二预设特征词的步骤,包括:
对获取到的各文本信息进行数据清洗;
针对数据清洗后的每一文本信息,提取该文本信息中的第二预设特征词。
6.根据权利要求1~5任一项所述的舆情分析方法,其特征在于,所述预设特征权重算法为绝对词频计算方法、倒排文档频度计算方法或词频-倒排文档频度计算方法中的一种或其结合。
7.一种舆情分析系统,其特征在于,所述舆情分析系统中存储有特征词库,所述特征词库中记录有多个特征词及每个特征词所属的情感倾向类别,所述情感倾向类别包括正向和负向;所述系统包括:
文本信息获取模块,用于每间隔预设时长从互联网获取包括第一预设特征词的文本信息;
出现频次统计模块,用于针对获取到的每一文本信息,提取该文本信息中的第二预设特征词,并统计该文本信息中不同第二预设特征词的出现频次以及各文本信息中不同第二预设特征词的出现频次,得到一词频文档矩阵;
文本信息表示模块,用于根据所述词频文档矩阵在所述各第二预设特征词中选取合适的分类特征,并根据预设特征权重算法计算得到各分类特征的特征权重;
分类模块,用于将所述各分类特征的特征权重输入基于所述各第一预设特征词构建的随机森林分类模型,对该文本信息的情感倾向进行分类;
舆情展示模块,用于选取随机森林分类模型各决策树的输出结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别,并在该文本信息的情感倾向类别为预设情感倾向类别时,将该文本信息推送至舆情展示终端;
第一调整模块,用于接收所述舆情展示终端发送的反馈信息,并根据所述反馈信息对所述第一预设特征词进行调整。
8.根据权利要求7所述的舆情分析系统,其特征在于,所述系统还包括:
新增特征词监测模块,用于在指定时间段内监测到有新增词汇的出现频次达到第一预设数量时,将该新增词汇推送至用户终端;
情感倾向检测模块,用于接收所述用户终端发送的指令信息判断该新增词汇是否具有情感倾向类别;
特征词更新模块,用于在该新增词汇具有情感倾向类别时,将该新增词汇作为第一预设特征词,并存储到所述特征词库中。
9.根据权利要求7所述的舆情分析系统,其特征在于,所述系统还包括:
舆论倾向判别模块,用于对包括预设关键词的各文本信息的情感倾向类别进行判别;
舆论倾向统计模块,用于计算正向情感倾向类别的文本信息的数量与负向情感倾向类别的文本信息的数量之间的差值;
第二调整模块,用于在所述差值达到第二预设数量时,对所述预设特征权重算法及第一预设特征词进行调整。
10.根据权利要求7所述的舆情分析系统,其特征在于,所述系统还包括:
文本集获取子模块,用于获取文本集,所述文本集中包括多个文本信息,每个文本信息中包括至少一个所述第一预设特征词;
随机森林建立子模块,用于有放回地从所述文本集中随机抽取多个训练样本作为训练集,分别根据抽取出的每个训练样本生成决策树,从而得到多个决策树;
测试子模块,用于将所述文本集中除所述训练集外的各文本信息作为测试集,针对所述测试集中的每一文本信息,将该文本信息输入各决策树,得到多个决策结果;
判别子模块,用于选取所述多个决策结果中出现次数最多的情感倾向类别作为该文本信息的情感倾向类别;
分类模型调整子模块,用于将所述测试集中各文本信息的判定结果与预存实际结果进行比对,并计算所述各判定结果的准确率,在所述准确率低于预设值时,对所述分类模型进行调整。
CN201710237462.9A 2017-04-12 2017-04-12 舆情分析方法及系统 Expired - Fee Related CN107016107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710237462.9A CN107016107B (zh) 2017-04-12 2017-04-12 舆情分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710237462.9A CN107016107B (zh) 2017-04-12 2017-04-12 舆情分析方法及系统

Publications (2)

Publication Number Publication Date
CN107016107A CN107016107A (zh) 2017-08-04
CN107016107B true CN107016107B (zh) 2020-05-12

Family

ID=59446153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710237462.9A Expired - Fee Related CN107016107B (zh) 2017-04-12 2017-04-12 舆情分析方法及系统

Country Status (1)

Country Link
CN (1) CN107016107B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742256A (zh) * 2017-09-18 2018-02-27 中国农业大学 一种基于组合优化决策树的网络伪舆情识别方法
CN109582947B (zh) * 2017-09-28 2023-01-17 北京国双科技有限公司 Smo中情感判断的方法、装置、存储介质和处理器
CN108710654B (zh) * 2018-05-10 2021-03-26 新华智云科技有限公司 一种舆情数据可视化方法及设备
CN110881056A (zh) * 2018-09-05 2020-03-13 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109543186B (zh) * 2018-11-22 2023-12-19 奇安信科技集团股份有限公司 一种舆情信息处理方法、系统、电子设备和介质
CN109657137A (zh) * 2018-11-26 2019-04-19 平安科技(深圳)有限公司 舆情新闻分类模型构建方法、装置、计算机设备和存储介质
CN109740146B (zh) * 2018-12-10 2023-02-03 厦门市美亚柏科信息股份有限公司 一种舆情监测方法、终端及存储介质
CN109977225A (zh) * 2019-03-13 2019-07-05 咪咕文化科技有限公司 舆情分析方法及装置
CN112749269A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 实体舆情计算方法及系统
CN111125548A (zh) * 2019-12-31 2020-05-08 北京金堤科技有限公司 舆论监督方法和装置、电子设备和存储介质
CN112015989A (zh) * 2020-08-31 2020-12-01 北京百度网讯科技有限公司 用于推送信息的方法和装置
CN112364128A (zh) * 2020-11-06 2021-02-12 北京乐学帮网络技术有限公司 一种信息处理的方法、装置、计算机设备和存储介质
CN113643060A (zh) * 2021-08-12 2021-11-12 工银科技有限公司 产品价格的预测方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多方法融合的中文微博情感倾向性分析研究;邹梦宇;《中国优秀硕士学位论文全文数据库信息科技辑》;20160815(第08期);第11-55页 *

Also Published As

Publication number Publication date
CN107016107A (zh) 2017-08-04

Similar Documents

Publication Publication Date Title
CN107016107B (zh) 舆情分析方法及系统
Alberto et al. Tubespam: Comment spam filtering on youtube
CN106951925B (zh) 数据处理方法、装置、服务器及系统
AU2016261088B2 (en) Social media events detection and verification
US20230306289A1 (en) Machine learning and validation of account names, addresses, and/or identifiers
US10915824B2 (en) Trend basis and behavioral analytics system and methods
JP5990284B2 (ja) キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法
CN110458296B (zh) 目标事件的标记方法和装置、存储介质及电子装置
Rosa et al. Twitter topic fuzzy fingerprints
EP3648433B1 (en) System and method of training behavior labeling model
US11842156B2 (en) Systems and methods of artificially intelligent sentiment analysis
CN113836128A (zh) 一种异常数据识别方法、系统、设备及存储介质
EP3460704A1 (en) Virus database acquisition method and device, equipment, server and system
CN110830607A (zh) 域名分析方法、装置和电子设备
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
CN110414591B (zh) 一种数据处理方法以及设备
CN114780606B (zh) 一种大数据挖掘方法及系统
CN105989152B (zh) 搜索引擎服务质量的监控方法、装置和系统
CN114138968A (zh) 一种网络热点的挖掘方法、装置、设备及存储介质
CN111046082B (zh) 一种基于语义分析的报表数据源推荐方法与装置
Prilepok et al. Spam detection using data compression and signatures
KR101568800B1 (ko) 실시간 이슈 검색어 선별 방법 및 시스템
CN110674632A (zh) 一种确定安全级别的方法及装置、存储介质和设备
CN113886585A (zh) 物品推荐方法、计算机设备及计算机可读存储介质
KR101913284B1 (ko) 소셜 네트워크 서비스에서 스팸 탐지 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200512