CN112948587A - 一种基于地震行业的微博舆情分析方法、装置及电子设备 - Google Patents

一种基于地震行业的微博舆情分析方法、装置及电子设备 Download PDF

Info

Publication number
CN112948587A
CN112948587A CN202110337955.6A CN202110337955A CN112948587A CN 112948587 A CN112948587 A CN 112948587A CN 202110337955 A CN202110337955 A CN 202110337955A CN 112948587 A CN112948587 A CN 112948587A
Authority
CN
China
Prior art keywords
microblog
earthquake
data
microblog data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110337955.6A
Other languages
English (en)
Inventor
赵粉玉
邱彦林
朱安安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xujian Science And Technology Co ltd
Original Assignee
Hangzhou Xujian Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xujian Science And Technology Co ltd filed Critical Hangzhou Xujian Science And Technology Co ltd
Priority to CN202110337955.6A priority Critical patent/CN112948587A/zh
Publication of CN112948587A publication Critical patent/CN112948587A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于地震行业的微博舆情分析方法,所述方法包括:获取实时微博数据;将所述实时微博数据输入微博分类模型中获得地震类微博数据和非地震类微博数据,将所述地震类微博数据输入情感倾向模型中获得所述地震类微博数据的情感倾向,其中,所述微博分类模型、所述情感倾向模型均基于深度学习模型Text‑CNN使用训练样本分类训练获得;基于TextRank算法获取所述地震类微博数据的关键词组;抽取所述地震类微博数据的地域信息,其中,所述地域信息通过统一的地区编码表示;将所述地震类微博数据的情感倾向、关键词组、地域信息存放至所述地震类微博数据的微博用户信息的用户信息表中;将所述用户信息表进行视图展示。

Description

一种基于地震行业的微博舆情分析方法、装置及电子设备
技术领域
本申请涉及人工智能领域,尤其涉及一种基于地震行业的微博舆情分析方法、装置及电子设备。
背景技术
随着互联网媒体的快速发展,防震减灾工作带来了新的挑战,一些大型地震过后,防震减灾、地震信息网络工作已成为社会舆论关注的焦点,由于互联网具有实时性、随意性、虚拟性等特点,一些网民随意的发布带有负面情感倾向的微博,给社会稳定和谐带来不利影响。而地震相关的负面网络舆论也会给地震工作带来很大冲击,给地震信息宣传、地震预报等工作带来巨大压力。
在飞速发展的网络时代,如何及时发现地震舆情,如何化压力为动力,成为众多防震减灾事业工作者必须要面对以及解决的问题,而目前的舆情监测大多是监测行业相关的关键词,然后对包含关键词的数据进行分析展示,此种方式会导致舆情检测不全面、不准确,进而导致数据分析结果有偏差等。
发明内容
本申请要解决的技术问题,在于提供一种基于地震行业的微博舆情分析方法、装置及电子设备,以解决现有针对地震舆情检测不全面、不准确,进而导致数据分析结果有偏差的技术问题。
为实现上述目的,本申请采用下述技术方案:
第一方面,本申请提供一种基于地震行业的微博舆情分析方法,所述方法包括:
获取实时微博数据,其中,所述微博数据包括微博信息、微博用户信息和微博评论信息,所述微博信息包括微博内容、微博ID、微博正文链接、点赞数、评论数、转发数、发文时间、发此条微博的用户昵称以及用户ID,所述微博评论信息包括微博ID、评论内容、评论时间、回复数以及点赞数,所述微博用户信息包括用户ID、微博数、粉丝数以及用户所在地区;
将所述实时微博数据输入微博分类模型中获得地震类微博数据和非地震类微博数据,将所述地震类微博数据输入情感倾向模型中获得所述地震类微博数据的情感倾向,其中,所述微博分类模型、所述情感倾向模型均基于深度学习模型Text-CNN使用训练样本分类训练获得;
基于TextRank 算法获取所述地震类微博数据的关键词组;
抽取所述地震类微博数据的地域信息,其中,所述地域信息通过统一的地区编码表示;
将所述地震类微博数据的情感倾向、关键词组、地域信息存放至所述地震类微博数据的微博用户信息的用户信息表中;
将所述用户信息表进行视图展示。
第二方面,本申请提供一种基于地震行业的微博舆情分析装置,所述装置包括:
第一获取单元,用于获取实时微博数据,其中,所述微博数据包括微博信息、微博用户信息和微博评论信息,所述微博信息包括微博内容、微博ID、微博正文链接、点赞数、评论数、转发数、发文时间、发此条微博的用户昵称以及用户ID,所述微博评论信息包括微博ID、评论内容、评论时间、回复数以及点赞数,所述微博用户信息包括用户ID、微博数、粉丝数以及用户所在地区;
第一分析单元,用于将所述实时微博数据输入微博分类模型中获得地震类微博数据和非地震类微博数据,将所述地震类微博数据输入情感倾向模型中获得所述地震类微博数据的情感倾向,其中,所述微博分类模型、所述情感倾向模型均基于深度学习模型Text-CNN使用训练样本分类训练获得;
第二获取单元,用于基于TextRank 算法获取所述地震类微博数据的关键词组;
第一抽取单元,用于抽取所述地震类微博数据的地域信息,其中,所述地域信息通过统一的地区编码表示;
第一存放单元,用于将所述地震类微博数据的情感倾向、关键词组、地域信息存放至所述地震类微博数据的微博用户信息的用户信息表中;
第一展示单元,用于将所述用户信息表进行视图展示。
第三方面,本申请提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由所述处理器执行以实现如上述第一方面所述的基于地震行业的微博舆情分析方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如上述第一方面所述的基于地震行业的微博舆情分析方法。
本申请的有益效果是:本申请提供一种基于地震行业的微博舆情分析方法、装置及电子设备,通过对微博数据的全面监测,快速准确的识别出微博中的地震类微博数据、地震类微博数据的情感倾向、关键词组和地域信息,并将分析结果进行视图展示,更好的为地震工作人员对舆论有效引导提供服务。
附图说明
图1为本申请一个实施例提供的一种基于地震行业的微博舆情分析方法的流程示意图;
图2为本申请一个实施例提供的获取所述地震类微博数据的关键词组的方法的流程示意图;
图3为本申请一个实施例提供的抽取所述地震类微博数据的地域信息的方法的流程示意图;
图4为本申请一个实施例提供的将所述用户信息表进行视图展示的方法的流程示意图;
图5为一个实施例提供的将所述实时微博数据输入微博分类模型的方法的流程示意图;
图6为一个实施例提供的一种基于地震行业的微博舆情分析装置的结构示意图;
图7为一个实施例提供的一种电子设备的结构示意图。
具体实施方式
下面通过具体实施例,并结合附图,对本申请的技术方案作进一步的具体描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
一些大型地震过后,防震减灾、地震信息网络工作已成为社会舆论关注的焦点,一些负面网络舆论会给地震工作者带来很大冲击,给地震信息宣传、地震预报等工作带来巨大压力。本申请提供一种基于地震行业的微博舆情分析方法、装置及电子设备,以解决现有针对地震舆情检测不全面、不准确,进而导致数据分析结果有偏差的技术问题。
以下结合附图,详细说明本申请中各实施例提供的技术方案。
请参阅附图1,其示出了本申请一个实施例提供的一种基于地震行业的微博舆情分析方法的流程示意图,所述方法包括:
S101,获取实时微博数据;
其中,所述微博数据包括微博信息、微博用户信息和微博评论信息,所述微博信息包括微博内容、微博ID、微博正文链接、点赞数、评论数、转发数、发文时间、发此条微博的用户昵称以及用户ID,所述微博评论信息包括微博ID、评论内容、评论时间、回复数以及点赞数,所述微博用户信息包括用户ID、微博数、粉丝数以及用户所在地区。
针对步骤S101,在一个实施例中,获取实时微博数据包括:通过爬虫、微博官方API获取实时微博数据,通过实时监测地震官方微博用户获取遗漏的地震类微博数据,防止获取的实时微博数据有所遗漏以及保证实时微博数据的实时性。
S102,将所述实时微博数据输入微博分类模型中获得地震类微博数据和非地震类微博数据,将所述地震类微博数据输入情感倾向模型中获得所述地震类微博数据的情感倾向;
其中,所述微博分类模型、所述情感倾向模型均基于深度学习模型Text-CNN使用训练样本分类训练获得。
针对步骤S102,训练所述微博分类模型、所述情感倾向模型包括:
S1021,标注样本:获取大量微博数据并人工设置标签作为分类模型的样本数据,第一份样本用以训练内容是否与地震相关,其中与地震相关标签设置为1,非相关标签设置为0。第二份样本用以训练情感倾向,其中正向情感标签设为1,正向情感包括但不限于文本主情感为积极向上、乐观、心情愉快的文本。负面情感标签设为-1,包括但不限于文本主情感为伤心、悲愤、愤怒的文本,中性情感标签设置为0,包括一些没有任何情感倾向的文本。因为微博数据涉及领域广泛,所以分类模型的样本数据量需求较大,样本数据规模可根据具体分类效果进行调整。
S1022,文本预处理:对标注的微博数据进行文本预处理,即去除文本中的停用词,如:地、并、的等没有实际含义的词、去除乱码字符、去除格式标记等,根据实际情况选择去除英文、特殊停用词、数字、表情符号等。
S1023,文本数值化:使用word2vec工具获取样本数据的词向量模型,将样本数据向量化。
S1024,模型训练:输入样本的向量化数据,使用深度学习模型Text-CNN模型进行分类训练,即通过卷积层提取语句的特征,将提取的特征输入到分类器中进行分类,训练完成后使用测试数据集对模型进行测试,将模型预测的结果与人工标注的结果进行比较,计算准确率,若准确率超过预期阈值,则完成了整个训练,若准确率没有达到要求,则回标数据继续训练。
S1025,输出模型:用以上步骤训练S0121中的两份样本数据,最终得到两个分类模型,微博分类模型用于判断微博数据是否与地震相关,情感倾向模型用于判断微博数据文本的情感倾向。
S103,基于TextRank 算法获取所述地震类微博数据的关键词组;
针对步骤S103,请参阅附图2,其示出了本申请一个实施例提供的获取所述地震类微博数据的关键词组的方法的流程示意图,所述方法包括:
S201,获取所述地震类微博数据的微博文本;
S202,对所述微博文本进行分词、预处理后,建立大小为n的窗口,对所述微博文本的每个单词进行迭代投票直到收敛,其中,每个单词对距离该单词不超过n/(2+1)内的前后单词进行投票;
S203,将所述微博文本中得票数量超过预设阈值的单词作为所述地震类微博数据关键词组。
S104,抽取所述地震类微博数据的地域信息,其中,所述地域信息通过统一的地区编码表示;
针对步骤S104,请参阅附图3,其示出了本申请一个实施例提供的抽取所述地震类微博数据的地域信息的方法的流程示意图,所述方法包括:
S301,预先将所有的省市名称加入jieba词典中;
其中,所述省市名称在jieba词典中的词性被标注为RE。
S302,对所述地震类微博数据使用jieba工具进行分词,抽取词性为RE的词并转化为统一的地区编码。
S105,将所述地震类微博数据的情感倾向、关键词组、地域信息存放至所述地震类微博数据的微博用户信息的用户信息表中;
针对步骤S105,通过订阅地震类微博数据中的不同类型的数据主题,存放至微博用户信息的用户信息表中。
S106,将所述用户信息表进行视图展示。
针对步骤S106,请参阅附图4,其示出了本申请一个实施例提供的将所述用户信息表进行视图展示的方法的流程示意图,所述方法包括:
S401,计算所述地震类微博数据的影响力值;
针对步骤S401,可以通过所述地震类微博数据的点赞数、评论数、发送所述地震类微博数据的微博用户的粉丝数等计算出影响力值,如影响力值=粉丝数*a+点赞数*b+评论数*c,本申请对公式系数不做限定。
S402,根据情感倾向为负面的所述地震类微博数据的影响力值制作敏感信息榜,根据地震官方微博数据的粉丝数量、评论数量制作曲线图,根据所述关键词组制作关键词云,根据所述地域信息制作地域分布图;
S403,将所述敏感信息榜、所述曲线图、所述关键词云、所述地域分布图进行视图展示。
请参阅附图5,其示出了本申请一个实施例提供的将所述实时微博数据输入微博分类模型的方法的流程示意图,所述方法包括:
S501,将所述实时微博数据发送至kafka相关主题;
S502,订阅所述kafka相关主题获得对应数据输入所述微博分类模型中。
例如,实时微博数据的主题为weibo_data、微博评论数据的主题为comments_data、微博用户信息的主题为usr_data,订阅相关主题获取到相对应的数据输入所述微博分类模型中对其进行分析。
在一个实施例中,将所述敏感信息榜中影响力值超过预设阈值的所述地震类微博数据以及所有所述地震类微博数据中的负面评论制作成告警信息发送至相关工作人员,以便工作人员快速做出回应以及引导。
请参阅附图6,其示出了本申请一个实施例提供的一种基于地震行业的微博舆情分析装置的结构示意图,其特征是,所述装置包括:
第一获取单元601,用于获取实时微博数据,其中,所述微博数据包括微博信息、微博用户信息和微博评论信息,所述微博信息包括微博内容、微博ID、微博正文链接、点赞数、评论数、转发数、发文时间、发此条微博的用户昵称以及用户ID,所述微博评论信息包括微博ID、评论内容、评论时间、回复数以及点赞数,所述微博用户信息包括用户ID、微博数、粉丝数以及用户所在地区;
第一分析单元602,用于将所述实时微博数据输入微博分类模型中获得地震类微博数据和非地震类微博数据,将所述地震类微博数据输入情感倾向模型中获得所述地震类微博数据的情感倾向,其中,所述微博分类模型、所述情感倾向模型均基于深度学习模型Text-CNN使用训练样本分类训练获得;
第二获取单元603,用于基于TextRank 算法获取所述地震类微博数据的关键词组;
第一抽取单元604,用于抽取所述地震类微博数据的地域信息,其中,所述地域信息通过统一的地区编码表示;
第一存放单元605,用于将所述地震类微博数据的情感倾向、关键词组、地域信息存放至所述地震类微博数据的微博用户信息的用户信息表中;
第一展示单元606,用于将所述用户信息表进行视图展示。
请参阅附图7,其示出了本申请一个实施例提供的一种电子设备的结构示意图,可以包括:至少一个网络接口702、存储器703和至少一个处理器701。电子设备中的各个组件通过总线系统704耦合在一起。可以理解,总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,但是为了清楚说明起见,在附图7中将各种总线都标为总线系统704。
在一些实施方式中,存储器703存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统7031和应用程序7032。
其中,操作系统7031,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种寄出业务以及处理基于硬件的任务。应用程序7032,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序中。
在上述实施例中,电子设备还包括:存储在存储器703上的至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集可由处理器701执行实现本申请实施例中所述任一基于地震行业的微博舆情分析方法的步骤。
在一个实施例中,本申请还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器执行时实现本申请实施例中所述任一基于地震行业的微博舆情分析方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的至少一条指令、至少一段程序、代码集或指令集可存储于一非易失性计算机可读取存储介质中,所述的至少一条指令、至少一段程序、代码集或指令集在执行时,可实现本申请实施例中所述任一地图绘制方法的步骤。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,这些均属于本申请的保护范围之内。

Claims (10)

1.一种基于地震行业的微博舆情分析方法,其特征是,所述方法包括:
获取实时微博数据,其中,所述微博数据包括微博信息、微博用户信息和微博评论信息,所述微博信息包括微博内容、微博ID、微博正文链接、点赞数、评论数、转发数、发文时间、发此条微博的用户昵称以及用户ID,所述微博评论信息包括微博ID、评论内容、评论时间、回复数以及点赞数,所述微博用户信息包括用户ID、微博数、粉丝数以及用户所在地区;
将所述实时微博数据输入微博分类模型中获得地震类微博数据和非地震类微博数据,将所述地震类微博数据输入情感倾向模型中获得所述地震类微博数据的情感倾向,其中,所述微博分类模型、所述情感倾向模型均基于深度学习模型Text-CNN使用训练样本分类训练获得;
基于TextRank 算法获取所述地震类微博数据的关键词组;
抽取所述地震类微博数据的地域信息,其中,所述地域信息通过统一的地区编码表示;
将所述地震类微博数据的情感倾向、关键词组、地域信息存放至所述地震类微博数据的微博用户信息的用户信息表中;
将所述用户信息表进行视图展示。
2.根据权利要求1所述的基于地震行业的微博舆情分析方法,其特征是,将所述实时微博数据输入微博分类模型中包括:
将所述实时微博数据发送至kafka相关主题;
订阅所述kafka相关主题获得对应数据输入所述微博分类模型中。
3.根据权利要求1所述的基于地震行业的微博舆情分析方法,其特征是,将所述用户信息表进行视图展示包括:
计算所述地震类微博数据的影响力值;
根据情感倾向为负面的所述地震类微博数据的影响力值制作敏感信息榜,根据地震官方微博数据的粉丝数量、评论数量制作曲线图,根据所述关键词组制作关键词云,根据所述地域信息制作地域分布图;
将所述敏感信息榜、所述曲线图、所述关键词云、所述地域分布图进行视图展示。
4.根据权利要求1所述的基于地震行业的微博舆情分析方法,其特征是,基于TextRank算法获取所述地震类微博数据的关键词组包括:
获取所述地震类微博数据的微博文本;
对所述微博文本进行分词、预处理后,建立大小为n的窗口,对所述微博文本的每个单词进行迭代投票直到收敛,其中,每个单词对距离该单词不超过n/(2+1)内的前后单词进行投票;
将所述微博文本中得票数量超过预设阈值的单词作为所述地震类微博数据关键词组。
5.根据权利要求1所述的基于地震行业的微博舆情分析方法,其特征是,抽取所述地震类微博数据的地域信息包括:
预先将所有的省市名称加入jieba词典中,其中,所述省市名称在jieba词典中的词性被标注为RE;
对所述地震类微博数据使用jieba工具进行分词,抽取词性为RE的词并转化为统一的地区编码。
6.根据权利要求3所述的基于地震行业的微博舆情分析方法,其特征是,所述方法还包括:
将所述敏感信息榜中影响力值超过预设阈值的所述地震类微博数据以及所有所述地震类微博数据中的负面评论制作成告警信息发送至相关工作人员。
7.根据权利要求1所述的基于地震行业的微博舆情分析方法,其特征是,获取
实时微博数据包括:通过爬虫、微博官方API获取实时微博数据,通过实时监测地震官方微博用户获取遗漏的地震类微博数据。
8.一种基于地震行业的微博舆情分析装置,其特征是,所述装置包括:
第一获取单元,用于获取实时微博数据,其中,所述微博数据包括微博信息、微博用户信息和微博评论信息,所述微博信息包括微博内容、微博ID、微博正文链接、点赞数、评论数、转发数、发文时间、发此条微博的用户昵称以及用户ID,所述微博评论信息包括微博ID、评论内容、评论时间、回复数以及点赞数,所述微博用户信息包括用户ID、微博数、粉丝数以及用户所在地区;
第一分析单元,用于将所述实时微博数据输入微博分类模型中获得地震类微博数据和非地震类微博数据,将所述地震类微博数据输入情感倾向模型中获得所述地震类微博数据的情感倾向,其中,所述微博分类模型、所述情感倾向模型均基于深度学习模型Text-CNN使用训练样本分类训练获得;
第二获取单元,用于基于TextRank 算法获取所述地震类微博数据的关键词组;
第一抽取单元,用于抽取所述地震类微博数据的地域信息,其中,所述地域信息通过统一的地区编码表示;
第一存放单元,用于将所述地震类微博数据的情感倾向、关键词组、地域信息存放至所述地震类微博数据的微博用户信息的用户信息表中;
第一展示单元,用于将所述用户信息表进行视图展示。
9.一种电子设备,其特征是,所述电子设备包括处理器和存储器,所述存储中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由所述处理器执行以实现如权利要求1-7任一项权利要求所述的基于地震行业的微博舆情分析方法。
10.一种计算机可读存储介质,其特征是,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如权利要求1-7任一项权利要求所述的基于地震行业的微博舆情分析方法。
CN202110337955.6A 2021-03-30 2021-03-30 一种基于地震行业的微博舆情分析方法、装置及电子设备 Pending CN112948587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337955.6A CN112948587A (zh) 2021-03-30 2021-03-30 一种基于地震行业的微博舆情分析方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337955.6A CN112948587A (zh) 2021-03-30 2021-03-30 一种基于地震行业的微博舆情分析方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112948587A true CN112948587A (zh) 2021-06-11

Family

ID=76228318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337955.6A Pending CN112948587A (zh) 2021-03-30 2021-03-30 一种基于地震行业的微博舆情分析方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112948587A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361463A (zh) * 2023-03-27 2023-06-30 应急管理部国家减灾中心(应急管理部卫星减灾应用中心) 一种地震灾情信息提取方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103385A1 (en) * 2011-10-24 2013-04-25 Riddhiman Ghosh Performing sentiment analysis
CN106874448A (zh) * 2017-02-10 2017-06-20 中国农业大学 一种从微博中挖掘地震主题词的方法和装置
CN107273496A (zh) * 2017-06-15 2017-10-20 淮海工学院 一种微博网络地域突发事件的检测方法
CN109271634A (zh) * 2018-09-17 2019-01-25 重庆理工大学 一种基于用户情感倾向感知的微博文本情感极性分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103385A1 (en) * 2011-10-24 2013-04-25 Riddhiman Ghosh Performing sentiment analysis
CN106874448A (zh) * 2017-02-10 2017-06-20 中国农业大学 一种从微博中挖掘地震主题词的方法和装置
CN107273496A (zh) * 2017-06-15 2017-10-20 淮海工学院 一种微博网络地域突发事件的检测方法
CN109271634A (zh) * 2018-09-17 2019-01-25 重庆理工大学 一种基于用户情感倾向感知的微博文本情感极性分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
星环科技人工智能平台团队: "《机器学习实战:基于Sophon平台的机器学习理论与实践》", 北京:机械工业出版社, pages: 147 - 148 *
李亚芳等: "基于新浪微博大数据的新疆伽师6.4级地震舆情分析及可视化研究", 《内陆地震》, 15 March 2020 (2020-03-15), pages 103 - 110 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361463A (zh) * 2023-03-27 2023-06-30 应急管理部国家减灾中心(应急管理部卫星减灾应用中心) 一种地震灾情信息提取方法、装置、设备及介质
CN116361463B (zh) * 2023-03-27 2023-12-08 应急管理部国家减灾中心(应急管理部卫星减灾应用中心) 一种地震灾情信息提取方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
RU2722571C1 (ru) Способ распознавания именованных сущностей в сетевом тексте на основе устранения неоднозначности вероятности в нейронной сети
US10169331B2 (en) Text mining for automatically determining semantic relatedness
CN106778878B (zh) 一种人物关系分类方法及装置
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
CN111259160A (zh) 知识图谱构建方法、装置、设备及存储介质
CN110880142A (zh) 一种风险实体获取方法及装置
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN116796726A (zh) 简历解析方法、装置、终端设备及介质
CN112948587A (zh) 一种基于地震行业的微博舆情分析方法、装置及电子设备
CN110020110B (zh) 媒体内容推荐方法、装置及存储介质
CN109460895A (zh) 构建社会单位画像的方法及系统
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN113553853B (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN113051455B (zh) 一种基于网络文本数据的水务舆情识别方法
CN115455198A (zh) 模型训练方法、法律诉讼信息对齐融合方法及其终端设备
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
CN112559739A (zh) 电力设备绝缘状态数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210611