CN108829811A - 健康舆情监测方法与系统 - Google Patents
健康舆情监测方法与系统 Download PDFInfo
- Publication number
- CN108829811A CN108829811A CN201810583094.8A CN201810583094A CN108829811A CN 108829811 A CN108829811 A CN 108829811A CN 201810583094 A CN201810583094 A CN 201810583094A CN 108829811 A CN108829811 A CN 108829811A
- Authority
- CN
- China
- Prior art keywords
- data
- public sentiment
- health
- analysis
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种健康舆情监测方法与系统,涉及信息技术领域,该健康舆情监测方法与系统针对医疗健康行业的特点,提出了一种面向医疗健康行业的舆情监测方法,通过对舆情本身进行分析,统计评论的情感极性、热度,计算舆情的预警等级,针对不同等级采用不同的处理方式,有针对性的对医疗健康行业的舆情进行监测,提高医疗健康行业的舆情分析分析效率。该健康舆情监测方法与系统有针对性的对医疗健康行业进行舆情监测;提高了医疗健康领域的舆情分析效率;增加了医疗健康领域舆情分析的多样性。
Description
技术领域
本发明涉及信息技术领域,具体来说,本发明涉及一种健康舆情监测方法与系统。
背景技术
随着互联网的快速发展,网络媒体做一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。医疗一直是舆论的焦点,各种突发疫情、医疗灾害等在网络上都能得到第一时间的传播。医疗相关信息通过网络媒体迅速传播放大,往往给公众心理、情绪与行为选择带来一定影响。
舆情监测及智能分析相关技术点正在如火如荼地研究与发展中。当前,已经有高校BBS舆情监测系统监控与引导网络舆情,进一步推进和谐校园建设;智能微博舆情监测系统帮助政府与群众“早发现”舆情,为早报告、早响应提供先机;除此之外,很多企业也利用相关的舆情监测技术处理销售业务、投标招标、锁定关键目标人群等问题,极大地提高了准确率和效率。医疗与健康信息及以相关信息存在众多的数据来源,并且有数据量大、涉及的系统多、数据质量无保证、数据结构差异大、访问频繁等特点,需要建立大数据整合平台,采集和预处理数据,为大数据分析与挖掘提供基础数据。现有的网络舆情监测方法没有对某个没有针对医疗健康领域的舆情检测与智能分析系统的解决方案,针对性不强,舆情分析的效率低下,对于医疗卫生行业的监测不到位。
发明内容
本发明所要解决的技术问题是提供一种健康舆情监测方法与系统,面向医疗卫生行业的健康数据垂直深度爬取技术,健康大数据智能分析预处理技术,面向政府的大数据分析与决策支持技术以及面向健康诊疗的大数据深度学习技术。
为实现上述目的,本发明提供以下的技术方案:
该健康舆情监测方法与系统包括支持PB级的数据存储与高效处理、面向医疗卫生行业的健康数据垂直深度爬取、健康大数据智能分析,其中:
(1)支持PB级的数据存储与高效处理:医疗健康数据有些是结构化的,而医学影像、报表、日志等数据的是半结构化或非结构化数据,对于结构化大数据,适于采用Hive数据仓库,对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的大数据适合用HBase,搭建Hadoop,利用HDFS,使用Hive和HBase管理大数据,使用高性能高容量存储服务器作为HDFS的DataNode,总容量可达到PB数量级,主节点NameNode则使用128GB高内存服务器,集群内网使用千兆网卡与连接线,保证节点之间的数据传输速率;
(2)面向医疗卫生行业的健康数据垂直深度爬取方案:根据Hadoop架构,实现分布式爬虫技术和布隆过滤去重技术,这部分主要由3个部分构成:数据采集模块,融合分析模块和快速索引模块,首先,信息采集模块从网络上抓取HTML文件,并将下载的文件保存到Hadoop的HDFS中,然后经过网页分析,并消除重复抓取的网页,接着,根据分析模块所提供的分词功能,将抓取的内容进行分次处理,并将分词后的词元序列给索引模块,索引模块根据抓取文本的分词结果进行倒排索引,并将索引存入Hadoop分布式文件系统上的索引库中供上层居民健康智能服务使用和访问;
(3)健康大数据智能分析:针对爬取到的健康大数据进行智能分析,给出分析结果。
数据采集模块采用简单分布式的框架实现不同类型网站的数据采集任务,同时采用云存储存架实现海量信息的分布式存储并保证数据一致性,每个爬虫以公用的Hbase内存数据库作为统一的URL调度器,以插件式的形式安装在爬虫客户端;实现分布式的部署,直接将相应程序jar包部署在每台机器上,启动运行即可,每个爬虫的具体URL调度将会由Hbase服务器进行集中式的管理,保证数据不重复爬取,具体步骤如下:
(1)建立分布式爬虫主从结构,设立爬行控制器和爬行终端,其中控制器(Master)控制全部爬行器的同步和中止命令,同时负责分配URL,保证集群中所有节点的负载均衡;终端(Slave)负责信息的采集,并将拓扑信息和内容信息反馈给控制器;
(2)建立中间件通信系统,保证主控和爬虫之间的高性能和可扩展性,同时保证各爬取进程各司其职,相互独立;
(3)建立Hadoop分布式存储系统,分别根据领域维度,数据类型维度,时间维度进行数据文件存储,减少小文件的产生,保证数据组织的完整性,其中,结构化数据采用Hbase进行存储,非结构化数据采用HDFS进行存储。
健康大数据智能分析的具体步骤如下:
(1)自然语言处理模块,对爬取到的文本数据进行处理,对文本本身进行分析,提取文本数据的关键词,摘要提取,进行情感分析,提取文本本身对于某个事件的描述信息;
(2)情感极性模块:根据文本的相关评论判断其是否为负面的舆情,反对正面评论的记为负面值,反对正面的记为负面值,反对、赞同中立的都记为中立值,设定舆情文本的负面情感等级;
(3)热度计算模块,根据文本数据的浏览量、评论数、以及互动数,以浏览量*1+评论数*2+互动数*2的公式计算文本的热度,传输给预警等级计算模块;
(4)地域分析模块,根据网友的地域信息,结合情感极性、热度分析以及时间对各个省市进行分析,从宏观上分析该舆情的传播速度以及方向;
(5)预警等级计算模块,根据获取的舆情文本的负面情感等级以及其对应的关注的热度计算相应舆情的综合预警数据,并与预设的预警等级进行比较,若对应某个预警等级,则采用对应该预警等级的措施对相应舆情进行监控预警,对于每一级预警等级,设定不同的数据采集频率,对于超过某一预警等级的舆情爬取与其相似的舆情内容,进行分析类比,计算预警等级,直到解除预警,对于热度低于预设阈值的舆情内容,降低爬虫频率,降低系统关注度。
采用以上技术方案的有益效果是:该健康舆情监测方法与系统针对医疗健康行业的特点,提出了一种面向医疗健康行业的舆情监测方法,通过对舆情本身进行分析,统计评论的情感极性、热度,计算舆情的预警等级,针对不同等级采用不同的处理方式,有针对性的对医疗健康行业的舆情进行监测,提高医疗健康行业的舆情分析分析效率。该健康舆情监测方法与系统有针对性的对医疗健康行业进行舆情监测;提高了医疗健康领域的舆情分析效率;增加了医疗健康领域舆情分析的多样性。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的描述。
图1是HDFS结构示意图;
图2是健康数据垂直深度爬取结构图;
图3是分布式爬虫架构图;
图4是分布式爬虫部署架构图。
具体实施方式
下面结合附图详细说明本发明健康舆情监测方法与系统的优选实施方式。
图1、图2、图3和图4出示本发明健康舆情监测方法与系统的具体实施方式:
该健康舆情监测方法与系统包括支持PB级的数据存储与高效处理、面向医疗卫生行业的健康数据垂直深度爬取、健康大数据智能分析,其中:
1、支持PB级的数据存储与高效处理:医疗健康数据有些是结构化的,而医学影像、报表、日志等数据的是半结构化或非结构化数据。对于结构化大数据,适于采用Hive数据仓库。对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的大数据适合用HBase。搭建Hadoop,利用HDFS,使用Hive和HBase管理大数据。使用高性能高容量存储服务器作为HDFS的DataNode,总容量可达到PB数量级。主节点NameNode则使用128GB高内存服务器。集群内网使用千兆网卡与连接线,保证节点之间的数据传输速率。
2、面向医疗卫生行业的健康数据垂直深度爬取方案:根据Hadoop架构,实现分布式爬虫技术和布隆过滤去重技术。这部分主要由3个部分构成:数据采集模块,融合分析模块和快速索引模块。首先,信息采集模块从网络上抓取HTML文件,并将下载的文件保存到Hadoop的HDFS中,然后经过网页分析,并消除重复抓取的网页。接着根据分析模块所提供的分词功能,将抓取的内容进行分次处理,并将分词后的词元序列给索引模块。索引模块根据抓取文本的分词结果进行倒排索引,并将索引存入Hadoop分布式文件系统上的索引库中供上层居民健康智能服务使用和访问。
数据采集模块采用简单分布式的框架实现不同类型网站的数据采集任务,同时采用云存储存架实现海量信息的分布式存储并保证数据一致性。分布式深度爬虫系统架构如图3所示。每个爬虫以公用的Hbase内存数据库作为统一的URL调度器,以插件式的形式安装在爬虫客户端;实现分布式的部署,直接将相应程序jar包部署在每台机器上,启动运行即可,分布式爬虫部署架构如图4所示。每个爬虫的具体URL调度将会由Hbase服务器进行集中式的管理,保证数据不重复爬取。
具体步骤如下:
1)建立分布式爬虫主从结构,设立爬行控制器和爬行终端,其中控制器(Master)控制全部爬行器的同步和中止命令,同时负责分配URL,保证集群中所有节点的负载均衡;终端(Slave)负责信息的采集,并将拓扑信息和内容信息反馈给控制器;
2)建立中间件通信系统,保证主控和爬虫之间的高性能和可扩展性,同时保证各爬取进程各司其职,相互独立;
3)建立Hadoop分布式存储系统,分别根据领域维度,数据类型维度,时间维度进行数据文件存储,减少小文件产生,保证数据组织完整性。其中,结构化数据采用Hbase进行存储,非结构化数据采用HDFS进行存储。
3、健康大数据智能分析:针对爬取到的健康大数据进行智能分析,给出分析结果。
1)自然语言处理模块,对爬取到的文本数据进行处理,对文本本身进行分析,提取文本数据的关键词,摘要提取,进行情感分析。提取文本本身对于某个事件的描述信息。
2)情感极性模块:根据文本的相关评论判断其是否为负面的舆情,计算方法如表1所示,反对正面评论的记为负面值,反对正面的记为负面值,反对、赞同中立的都记为中立值。设定舆情文本的负面情感等级。
3)热度计算模块,根据文本数据的浏览量、评论数、以及互动数,以浏览量*1+评论数*2+互动数*2的公式计算文本的热度,传输给预警等级计算模块。
4)地域分析模块,根据网友的地域信息,结合情感极性、热度分析以及时间对各省市进行分析,从宏观上分析该舆情的传播速度以及方向。
5)预警等级计算模块,根据获取的舆情文本的负面情感等级以及其对应的关注的热度计算相应舆情的综合预警数据,并与预设的预警等级进行比较,若对应某个预警等级,则采用对应该预警等级的措施对相应舆情进行监控预警。对于每一级预警等级,设定不同的数据采集频率,对于超过某一预警等级的舆情爬取与其相似的舆情内容,进行分析类比,计算预警等级,直到解除预警。对于热度低于预设阈值的舆情内容,降低爬虫频率,降低系统关注度。
表1情感极性判定标准
以上的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (3)
1.一种健康舆情监测方法与系统,其特征在于:所述健康舆情监测方法与系统包括支持PB级的数据存储与高效处理、面向医疗卫生行业的健康数据垂直深度爬取、健康大数据智能分析,其中:
(1)支持PB级的数据存储与高效处理:医疗健康数据有些是结构化的,而医学影像、报表、日志等数据的是半结构化或非结构化数据,对于结构化大数据,适于采用Hive数据仓库,对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的大数据适合用HBase,搭建Hadoop,利用HDFS,使用Hive和HBase管理大数据,使用高性能高容量存储服务器作为HDFS的DataNode,总容量可达到PB数量级,主节点NameNode则使用128GB高内存服务器,集群内网使用千兆网卡与连接线,保证节点之间的数据传输速率;
(2)面向医疗卫生行业的健康数据垂直深度爬取方案:根据Hadoop架构,实现分布式爬虫技术和布隆过滤去重技术,这部分主要由3个部分构成:数据采集模块,融合分析模块和快速索引模块,首先,信息采集模块从网络上抓取HTML文件,并将下载的文件保存到Hadoop的HDFS中,然后经过网页分析,并消除重复抓取的网页,接着,根据分析模块所提供的分词功能,将抓取的内容进行分次处理,并将分词后的词元序列给索引模块,索引模块根据抓取文本的分词结果进行倒排索引,并将索引存入Hadoop分布式文件系统上的索引库中供上层居民健康智能服务使用和访问;
(3)健康大数据智能分析:针对爬取到的健康大数据进行智能分析,给出分析结果。
2.根据权利要求1所述的健康舆情监测方法与系统,其特征在于:所述数据采集模块采用简单分布式的框架实现不同类型网站的数据采集任务,同时采用云存储存架实现海量信息的分布式存储并保证数据一致性,每个爬虫以公用的Hbase内存数据库作为统一的URL调度器,以插件式的形式安装在爬虫客户端;实现分布式的部署,直接将相应程序jar包部署在每台机器上,启动运行即可,每个爬虫的具体URL调度将会由Hbase服务器进行集中式的管理,保证数据不重复爬取,具体步骤如下:
(1)建立分布式爬虫主从结构,设立爬行控制器和爬行终端,其中控制器(Master)控制全部爬行器的同步和中止命令,同时负责分配URL,保证集群中所有节点的负载均衡;终端(Slave)负责信息的采集,并将拓扑信息和内容信息反馈给控制器;
(2)建立中间件通信系统,保证主控和爬虫之间的高性能和可扩展性,同时保证各爬取进程各司其职,相互独立;
(3)建立Hadoop分布式存储系统,分别根据领域维度,数据类型维度,时间维度进行数据文件存储,减少小文件的产生,保证数据组织的完整性,其中,结构化数据采用Hbase进行存储,非结构化数据采用HDFS进行存储。
3.根据权利要求1所述的健康舆情监测方法与系统,其特征在于:所述健康大数据智能分析的具体步骤如下:
(1)自然语言处理模块,对爬取到的文本数据进行处理,对文本本身进行分析,提取文本数据的关键词,摘要提取,进行情感分析,提取文本本身对于某个事件的描述信息;
(2)情感极性模块:根据文本的相关评论判断其是否为负面的舆情,反对正面评论的记为负面值,反对正面的记为负面值,反对、赞同中立的都记为中立值,设定舆情文本的负面情感等级;
(3)热度计算模块,根据文本数据的浏览量、评论数、以及互动数,以浏览量*1+评论数*2+互动数*2的公式计算文本的热度,传输给预警等级计算模块;
(4)地域分析模块,根据网友的地域信息,结合情感极性、热度分析以及时间对各个省市进行分析,从宏观上分析该舆情的传播速度以及方向;
(5)预警等级计算模块,根据获取的舆情文本的负面情感等级以及其对应的关注的热度计算相应舆情的综合预警数据,并与预设的预警等级进行比较,若对应某个预警等级,则采用对应该预警等级的措施对相应舆情进行监控预警,对于每一级预警等级,设定不同的数据采集频率,对于超过某一预警等级的舆情爬取与其相似的舆情内容,进行分析类比,计算预警等级,直到解除预警,对于热度低于预设阈值的舆情内容,降低爬虫频率,降低系统关注度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810583094.8A CN108829811A (zh) | 2018-06-08 | 2018-06-08 | 健康舆情监测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810583094.8A CN108829811A (zh) | 2018-06-08 | 2018-06-08 | 健康舆情监测方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108829811A true CN108829811A (zh) | 2018-11-16 |
Family
ID=64144653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810583094.8A Pending CN108829811A (zh) | 2018-06-08 | 2018-06-08 | 健康舆情监测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829811A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110225294A (zh) * | 2019-07-08 | 2019-09-10 | 四川长虹电子系统有限公司 | 自动化视频会议调度系统 |
CN110472119A (zh) * | 2019-07-17 | 2019-11-19 | 广东鼎义互联科技股份有限公司 | 一种应用于政务舆情分析平台 |
CN110533212A (zh) * | 2019-07-04 | 2019-12-03 | 西安理工大学 | 基于大数据的城市内涝舆情监测预警方法 |
CN111401074A (zh) * | 2020-04-03 | 2020-07-10 | 山东爱城市网信息技术有限公司 | 一种基于Hadoop的短文本情感倾向性分析方法、系统及装置 |
CN111666499A (zh) * | 2020-06-05 | 2020-09-15 | 镇江傲游网络科技有限公司 | 一种基于大数据的舆情监测云服务平台 |
CN111753172A (zh) * | 2020-06-04 | 2020-10-09 | 南京晓庄学院 | 一种互联网舆情信息采集和处理方法 |
CN112381317A (zh) * | 2020-11-26 | 2021-02-19 | 方是哲如管理咨询有限公司 | 一种组织行为分析和结果预测大数据平台 |
CN112860971A (zh) * | 2021-02-05 | 2021-05-28 | 浙江华坤道威数据科技有限公司 | 一种基于分布式多任务的社会负面舆情实时分析方法 |
-
2018
- 2018-06-08 CN CN201810583094.8A patent/CN108829811A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533212A (zh) * | 2019-07-04 | 2019-12-03 | 西安理工大学 | 基于大数据的城市内涝舆情监测预警方法 |
CN110225294A (zh) * | 2019-07-08 | 2019-09-10 | 四川长虹电子系统有限公司 | 自动化视频会议调度系统 |
CN110472119A (zh) * | 2019-07-17 | 2019-11-19 | 广东鼎义互联科技股份有限公司 | 一种应用于政务舆情分析平台 |
CN111401074A (zh) * | 2020-04-03 | 2020-07-10 | 山东爱城市网信息技术有限公司 | 一种基于Hadoop的短文本情感倾向性分析方法、系统及装置 |
CN111753172A (zh) * | 2020-06-04 | 2020-10-09 | 南京晓庄学院 | 一种互联网舆情信息采集和处理方法 |
CN111666499A (zh) * | 2020-06-05 | 2020-09-15 | 镇江傲游网络科技有限公司 | 一种基于大数据的舆情监测云服务平台 |
CN112381317A (zh) * | 2020-11-26 | 2021-02-19 | 方是哲如管理咨询有限公司 | 一种组织行为分析和结果预测大数据平台 |
CN112860971A (zh) * | 2021-02-05 | 2021-05-28 | 浙江华坤道威数据科技有限公司 | 一种基于分布式多任务的社会负面舆情实时分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829811A (zh) | 健康舆情监测方法与系统 | |
CN103116605B (zh) | 一种基于监测子网的微博热点事件实时检测方法及系统 | |
Sun et al. | Ddgcn: Dual dynamic graph convolutional networks for rumor detection on social media | |
CN104899324B (zh) | 一种基于idc有害信息监测系统的样本训练系统 | |
CN106911669A (zh) | 一种基于深度学习的ddos检测方法 | |
CN110362818A (zh) | 基于用户关系结构特征的微博谣言检测方法和系统 | |
Psomakelis et al. | Big IoT and social networking data for smart cities: Algorithmic improvements on Big Data Analysis in the context of RADICAL city applications | |
CN104216954A (zh) | 突发事件话题状态的预测装置及预测方法 | |
CN107291886A (zh) | 一种基于增量聚类算法的微博话题检测方法及系统 | |
CN103268350A (zh) | 一种互联网舆情信息监测系统及监测方法 | |
WO2014102569A1 (en) | Method and apparatus for motion description | |
Chen et al. | Inferring causal relationship in coordinated flight of pigeon flocks | |
CN104166726B (zh) | 一种面向微博文本流的突发关键词检测方法 | |
CN103885993A (zh) | 用于微博的舆情监控方法和装置 | |
Ramalingaiah et al. | Twitter bot detection using supervised machine learning | |
CN104572757A (zh) | 微博群体处理方法及装置 | |
CN114330510A (zh) | 模型训练方法、装置、电子设备和存储介质 | |
CN103747003A (zh) | 对等僵尸网络核心节点检测方法及检测装置 | |
CN107832344A (zh) | 一种基于storm流计算框架的食品安全网络舆情分析方法 | |
Wei et al. | Analysis of information dissemination based on emotional and the evolution life cycle of public opinion | |
Dai et al. | Information spread of emergency events: path searching on social networks | |
CN104063456B (zh) | 基于向量查询的自媒体传播图谱分析方法和装置 | |
Gün et al. | A hybrid approach for credibility detection in Twitter | |
CN110134688A (zh) | 一种在线社交网络中热点事件数据存储管理方法及系统 | |
Apoorva et al. | An approach to sentiment analysis in Twitter using expert tweets and retweeting hierarchy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181116 |
|
WD01 | Invention patent application deemed withdrawn after publication |