CN112559844A - 自然灾害舆情分析方法和装置 - Google Patents

自然灾害舆情分析方法和装置 Download PDF

Info

Publication number
CN112559844A
CN112559844A CN202011494854.1A CN202011494854A CN112559844A CN 112559844 A CN112559844 A CN 112559844A CN 202011494854 A CN202011494854 A CN 202011494854A CN 112559844 A CN112559844 A CN 112559844A
Authority
CN
China
Prior art keywords
social
disaster
information
message
natural disaster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011494854.1A
Other languages
English (en)
Other versions
CN112559844B (zh
Inventor
邵蓥侠
刘辉
王海江
廖健翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011494854.1A priority Critical patent/CN112559844B/zh
Publication of CN112559844A publication Critical patent/CN112559844A/zh
Application granted granted Critical
Publication of CN112559844B publication Critical patent/CN112559844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种自然灾害舆情分析方法和装置,所述方法包括:创建爬虫实时收集自然灾害相关的社交消息数据;对收集到的数据进行社交媒体消息的属性信息与自然灾害描述信息的抽取,基于抽取结果得到各社交消息对应的自然灾害实体数据;设置自然灾害信息表和社交消息缓存表分别记录各自然灾害和各社交消息,根据所述自然灾害实体数据按照各自然灾害事件对社交消息进行聚类,以生成聚类结果,并基于聚类结果进行自然灾害舆情分析。本发明实施例的自然灾害舆情分析方法和装置,能够大大提高多源社交媒体的自然灾害舆情分析效率。

Description

自然灾害舆情分析方法和装置
技术领域
本发明涉及社交媒体舆情分析领域,更具体而言,本发明涉及一种基于多源社交媒体实时聚类的自然灾害舆情分析方法和装置。
背景技术
近些年来我国自然频发,给人们的生命安全和财产安全都造成了巨大威胁,对经济的发展带来了不利影响。我国自然灾害具有种类多、分布地域广、发生频率高、造成损失重的特点,这使得灾害发生前预警尤其重要。若灾害发生前预警不及时,会导致灾害附近人员无准备工作,最终造成不必要的经济甚至生命损失,若灾害发生后消息传递不及时,会影响到对受到自然灾害地区的救援效率,因此自然灾害分析与实时检测技术愈发重要。
近年来,随着经济的发展我国社交媒体也得到了蓬勃发展,在社交媒体上存储了大量的舆论信息,当前结合社交媒体进行自然灾害舆情分析俨然已经成为一个热门的研究方向,但社交媒体种类多,信息量巨大,信息复杂,多类型多次自然灾害舆论信息混合在一起,难以进行区分。当前基于社交媒体的自然灾害舆情分析工作大多基于单源社交媒体上某种类型(如台风、地震、暴雨等)的某一次或几次自然灾害进行手动采集数据。信息收集来源单一必然会导致舆情分析过于片面,难以对自然灾害进行更广泛的舆情分析与更高效的灾害检测,且该工作建立在大量的人力资源上,需要较多的人工参与来进行数据的采集,人工采集必然会导致效率低下,结果缺乏实时性。若想基于社交媒体针对某类型自然灾害的每一次灾害详情进行舆情分析,采用上述方法需要花费更多的人力,使该方法缺乏自动性、实用性且效率低下的缺点更加明显。
如何基于多源社交媒体实时聚类自动、高效地实现自然灾害舆情的分析,是一个亟待解决的问题。
发明内容
鉴于此,本发明提出了一种自然灾害舆情分析方法和装置,以消除或改善现有技术中存在的一个或更多个缺陷。
根据本发明的一方面,提出了一种自然灾害舆情分析方法,该方法包括以下步骤:
创建多源社交媒体数据爬虫,通过输入数据采集条件参数进行数据采集,得到自然灾害相关的社交消息数据,所述数据采集条件参数包括:自然灾害类型关键词、采集自然灾害信息的多源社交媒体类型和社交媒体字段信息;
对爬虫采集到的社交消息数据进行实体获取,以从采集到的社交消息数据中抽取各社交消息对应的社交媒体消息的属性信息和初始的自然灾害描述信息,并基于抽取结果得到各社交消息对应的自然灾害实体数据,所述自然灾害实体数据包括社交媒体消息的属性信息和标准格式化的自然灾害描述信息;
设置自然灾害信息表和社交消息缓存表分别记录各自然灾害和各社交消息,根据所述自然灾害实体数据按照各自然灾害事件对社交消息进行聚类,以生成聚类结果;
基于聚类结果进行自然灾害舆情分析。
在本发明一些实施例中,所述方法还包括:可视化展示自然灾害舆情分析的结果。
在本发明一些实施例中,所述社交媒体消息的属性信息包括以下信息中的一种或多种:发布时间、发布内容、转发数量、评论数量和用户信息;所述初始自然灾害描述信息包括:自然灾害发生地信息、自然灾害发生时间信息和自然灾害等级信息。
在本发明一些实施例中,所述创建多源社交媒体数据爬虫,通过输入数据采集条件参数进行数据采集,得到自然灾害相关的社交消息数据,包括:创建多源社交媒体数据爬虫,通过输入数据采集条件参数进行数据采集;使用分词技术对爬虫采集到的数据进行分词处理,去掉停用词;对采集到的数据中的无用文本数据进行过滤,和/或将采集的数据中特定社交媒体类型发布的社交消息进行过滤,从而得到自然灾害相关的社交消息数据。
在本发明一些实施例中,所述对爬虫采集到的社交消息数据进行实体获取的步骤包括:从采集到的社交消息数据中抽取各社交消息对应的社交媒体消息的属性信息和初始的自然灾害描述信息,在抽取结果中包含自然灾害发生地信息、自然灾害发生时间信息和自然灾害等级信息的情况下,基于抽取结果得到标准格式化的自然灾害描述信息:在抽取结果中不包含自然灾害发生地信息情况下,将对应社交消息的发布地点标准化为标准格式化的自然灾害发生地信息,填充并进行标记;在抽取结果中不包含自然灾害发生时间信息的情况下,将对应社交消息的发布时间标准化为标准格式化的自然灾害发生时间信息,填充并进行标记;在抽取结果中不包含自然灾害等级信息的情况下,将自然灾害等级范围之外的特殊等级标识值作为标准格式化的自然灾害等级信息填充。
在本发明一些实施例中,所述自然灾害信息表内容包括:灾害编号、灾害发生时间、灾害发生地点和灾害等级;所述灾害编号为新灾害信息填入时的自动编号;所述社交消息缓存表内容包括:社交消息编号、当前社交消息中的灾害发生时间信息、当前社交消息中到的灾害地点信息和当前社交消息中到的灾害等级信息;采集到的社交消息数据,进行实体获取后存入社交消息缓存表中,所述社交消息编号为新社交消息填入时的自动编号。
在本发明一些实施例中,所述利用自然灾害信息表和社交消息缓存表分别记录各自然灾害和各社交消息,根据所述自然灾害实体数据按照各自然灾害事件对社交消息进行聚类,以生成聚类结果,包括:
第一聚类方式,如果当前社交消息为转发其他用户所发布的消息,并且当前消息所转发的原始消息在消息聚类结果存储表中存在,则将当前消息标记与原始消息相同的灾害编号,存入消息聚类结果存储表;
第二聚类方式,在确认当前社交消息的发布媒体为权威社交媒体的情况下,如果当前自然灾害信息表中不存在判定相似的记录,则在自然灾害信息表中增加当前社交消息包含的灾害记录,并将当前社交消息和社交消息缓存表中与当前消息判定相似的所有社交消息的消息编号填入消息聚类结果存储表中,并将此次存储表填入的社交消息编号对应的灾害编号标记为此次自然灾害信息表新增加记录对应的灾害编号;
第三聚类方式,对于不满足上述第一聚类方式和第二聚类方式的社交消息,如果社交消息中可抽取到自然灾害发生地信息,则按时间倒序遍历灾害信息存储表,如果存在与当前社交消息判定相似的记录,则将当前社交消息的社交消息编号在消息聚类结果存储表中保存,且对应的灾害编号标记为该记录的相似记录对应的灾害编号;如果社交消息中以对应社交消息的发布地点作为自然灾害发生地信息,或可抽取到自然灾害发生地信息,按时间倒序遍历灾害信息存储表后不存在与当前社交消息判定相似的记录,则将当前社交消息与社交消息缓存表中社交消息的相似度进行判定,若判定相似且参与判定的消息中自然灾害发生地信息为非填充获得的消息数量大于预先设置的帖子数量阈值,将社交消息缓存表中与当前消息判定相似的所有消息构建消息簇,抽取除填充数据外簇中出现最多的自然灾害发生地信息与自然灾害等级信息,作为簇的自然灾害发生地信息与自然灾害等级信息,簇中最早的自然灾害发生时间作为整个簇的自然灾害发生时间,在灾害信息存储表中增加一条新灾害记录,灾害记录字段内容为簇的相应字段内容,并将簇中所有社交消息编号存入消息聚类结果存储表中,该簇中社交消息编号对应的灾害编号为新灾害记录的灾害编号;
消息聚类结果存储表中各社交消息编号对应的灾害编号即消息的聚类结果。
在本发明一些实施例中,基于如下方式判定社交消息是否相似:针对每一灾害设定特定的灾害持续周期,输入灾害信息储存表中的某条记录与当前数据记录;若当前消息记录的时间与灾害发生时间作差大于灾害持续周期,则判定二者不相似;若当前消息记录得到的灾害地点中特定区域信息与灾害发生地点中特定区域信息不相符,则判定二者不相似;否则判定二者相似。
根据本发明的另一方面,还提供了一种多源社交媒体的信息采集装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明的又一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述方法的步骤。
本发明实施例的自然灾害舆情分析方法和装置,通过创建多源社交媒体数据爬虫进行实时数据采集,并将获取的数据包含的信息进行实时聚类,基于聚类完成的数据进行舆情分析,使用可视化工具进行可视化展示,提高了自然灾害舆情分析的效率,达到实时监测发生灾害的效果。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例中自然灾害舆情分析方法的流程示意图。
图2为本发明另一实施例中自然灾害舆情分析方法的流程示意图。
图3为本发明一实施例中自然灾害舆情分析方法的实体获取流程示意图。
图4为本发明一实施例中自然灾害舆情分析方法的实时聚类流程示意图。
图5为本发明一实施例中自然灾害舆情分析方法的相似度判定流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
如今社交媒体具有种类繁多、信息量巨大和信息复杂的特点,基于单源社交媒体上的某种灾害类型(如台风、地震、暴雨等)的某一次或几次发生的灾害进行人工数据采集与研究,已不适用于如今社交媒体种类繁多、信息量巨大和信息复杂的情况,也即已无法适应现有的社交媒体环境与未来的发展趋势。若基于社交媒体针对某类型自然灾害的每一次灾害详情进行舆论分析,现有的上述数据采集方式更需要花费大量人力,且无法达到实时检测灾害的效果。以现有社交媒体种类为例,微博、帖吧等多种社交平台均存在大量的活跃用户,并且用户数量还在不断增长,建立在人工基础上进行舆情分析愈发困难。由于自然灾害事件时有发生,且用户针对发生的灾害事件,讨论其内容的时间、地点、灾害强度等情况相对统一,故按照一定规则抓取用户发布的相关内容帖与帖的发布信息,并将其按特定规则进行聚类操作,可有效解决当前在多源社交媒体上对各类自然灾害舆论信息采集分析困难的问题,对自然灾害舆论信息的收集效率的提高与分析时间的缩短起到促进作用。
因此,针对现有技术存在的问题,本发明提出了一种基于多源社交媒体实时聚类的自然灾害舆情分析方法,通过输入的灾害类型关键词实时采集多源社交媒体的舆论消息,并对采集到的社交舆论消息实时进行聚类,将关于同一类型同一次自然灾害的舆论信息聚为同一类,使自然灾害舆情得到更高效、更具实时性的分析,解决了当前在多源社交媒体上对某类型每一次自然灾害舆论信息进行采集分析较为困难的问题。与此同时,可实现基于多源社交媒体对灾害的实时检测。
本发明实施例中,通过将获取的帖子中灾害信息进行实时聚类,分析自然灾害舆情,对结果进行分析并进行可视化展示。更具体地来说,首先通过创建爬虫实时对多源社交媒体进行灾害信息收集,过滤无用信息并将收集到的信息进行实体获取。通过将获取的帖子中包含的各项信息进行实时聚类,将聚类完成的帖子进行相关灾害的舆情分析,分析结果进行准确性评估并进行可视化展示。本发明相比当前通过人工对舆情信息进行收集与分析的方法更具实时性,且效率更高,还能根据舆情信息实时聚类的实时特性,达到实时检测灾害的目的。
图1为本发明一实施例中自然灾害舆情分析方法的概括示意图。如图1所示,该方法包括步骤S110~S140,其中步骤S110为数据采集步骤,步骤S120~S130为实体获取和聚类步骤,步骤S140为基于聚类结果进行舆情分析的步骤。
步骤S110,输入初始数据采集条件参数,创建多源社交媒体数据爬虫实时采集自然灾害相关的社交消息数据。
本步骤为数据采集步骤。本步骤中,初始数据采集条件参数例如可以是自然灾害类型关键词、待采集的多源社交媒体类型、待采集的社交媒体字段信息和其他相关数据采集条件参数。自然灾害类型关键词例如可以是地震、台风、洪水等自然灾害短文本词汇,自然灾害类型关键词可事先被采集到数据采集条件参数中。多源社交媒体类型例如可以是微博、推特、脸书、帖吧等社交媒体平台,多源社交媒体类型可事先被采集到数据采集条件参数中。社交媒体字段信息例如可以是发布时间、发布内容、转发数量、评论数量、用户信息等发布帖属性信息,社交媒体字段信息可事先被采集到的数据采集条件参数中。
本发明实施例中,可通过相关爬虫框架和分布式任务调度框架,依据输入的数据采集条件参数创建多源社交媒体实时爬虫来实现数据采集。作为示例,可使用Scrapy爬虫框架和Celery分布式任务调度框架对多源社交媒体进行数据采集。
步骤S120,对收集到的数据进行社交媒体消息(简称社交消息,或帖子)的属性信息与自然灾害描述信息的抽取,基于抽取结果得到各社交消息对应的自然灾害实体数据。
本步骤为实体抽取步骤,所谓实体抽取,是指从文本数据中抽取预先定义的实体信息。本发明实施例中,抽取的实体信息可包括社交媒体消息的属性信息与自然灾害描述信息,其中,社交媒体消息的属性信息例如可以包括以下信息中的一种或多种:发布时间、发布内容、转发数量、评论数量和用户信息。自然灾害描述信息例如可以包括:自然灾害发生地信息、自然灾害发生时间信息和自然灾害等级信息。在此,社交媒体消息的属性信息和自然灾害描述信息仅为举例,本发明并不限于此。
基于抽取结果可以得到各社交消息对应的自然灾害实体数据,自然灾害实体数据可包括社交媒体消息的属性信息和标准格式化的自然灾害描述信息。
步骤S130,设置自然灾害信息表和社交消息缓存表分别记录各自然灾害和各社交消息,根据自然灾害实体数据按照各自然灾害事件对社交消息进行聚类,以生成聚类结果。
本步骤为聚类步骤,用于根据自然灾害实体数据中的社交媒体消息的属性信息和自然灾害描述信息对社交消息进行实时聚类,例如,可根据抽取的实体数据中包含的灾害发生地点、灾害发生时间、灾害等级信息和发帖人的相关信息等进行帖子的实时聚类,并存储帖子的聚类结果。
在本发明实施例中,可构建自然灾害信息表和社交消息缓存表,用于分别记录各自然灾害和各社交消息,此外,还可构建聚类结果存储表,用于存储基于自然灾害信息表和社交消息缓存表的得到的聚类结果。
在本发明一些实施方式中,自然灾害信息表内容可包括:灾害编号、灾害发生时间、灾害发生地点和灾害等级。灾害编号可为新灾害信息填入时进行的自动编号。
社交消息缓存表内容可包括:社交消息编号、当前社交消息中的灾害发生时间信息、当前社交消息中到的灾害地点信息和当前社交消息中到的灾害等级信息;采集到的社交消息数据,进行实体获取后存入社交消息缓存表中,所述社交消息编号为新社交消息填入时进行的自动编号。
根据自然灾害实体数据按照各自然灾害事件对社交消息进行聚类,以生成聚类结果可具体包括:
第一聚类方式,如果当前社交消息为转发其他用户所发布的消息,并且当前消息所转发的原始消息在消息聚类结果存储表中存在,则将当前消息标记与原始消息相同的灾害编号,存入消息聚类结果存储表;
第二聚类方式,在确认当前社交消息的发布媒体为权威社交媒体的情况下,如果当前自然灾害信息表中不存在判定相似的记录,则在自然灾害信息表中增加当前社交消息包含的灾害记录,并将当前社交消息和社交消息缓存表中与当前消息判定相似的所有社交消息的消息编号填入消息聚类结果存储表中,并将此次存储表填入的社交消息编号对应的灾害编号标记为此次自然灾害信息表新增加记录对应的灾害编号;
第三聚类方式,对于不满足上述第一聚类方式和第二聚类方式的社交消息,如果社交消息中可抽取到自然灾害发生地信息,则按时间倒序遍历灾害信息存储表,如果存在与当前社交消息判定相似的记录,则将当前社交消息的社交消息编号在消息聚类结果存储表中保存,且对应的灾害编号标记为该记录的相似记录对应的灾害编号;如果社交消息中以对应社交消息的发布地点作为自然灾害发生地信息,或可抽取到自然灾害发生地信息,按时间倒序遍历灾害信息存储表后不存在与当前社交消息判定相似的记录,则将当前社交消息与社交消息缓存表中社交消息的相似度进行判定,若判定相似且参与判定的消息中自然灾害发生地信息为非填充获得的消息数量大于预先设置的帖子数量阈值,将社交消息缓存表中与当前消息判定相似的所有消息构建消息簇,抽取除填充数据外簇中出现最多的自然灾害发生地信息与自然灾害等级信息,作为簇的自然灾害发生地信息与自然灾害等级信息,簇中最早的自然灾害发生时间作为整个簇的自然灾害发生时间,在灾害信息存储表中增加一条新灾害记录,灾害记录字段内容为簇的相应字段内容,并将簇中所有社交消息编号存入消息聚类结果存储表中,该簇中社交消息编号对应的灾害编号为新灾害记录的灾害编号;
消息聚类结果存储表中各社交消息编号对应的灾害编号即消息的聚类结果。
在相似度判定过程中,可基于如下方式判定社交消息是否相似:
针对每一灾害设定特定的灾害持续周期,输入灾害信息储存表中的某条记录与当前数据记录,若当前消息记录的时间与灾害发生时间作差大于灾害持续周期,则判定前社交消息与社交消息缓存表中社交消息不相似;若当前消息记录得到的灾害地点中特定区域信息与灾害发生地点中特定区域信息不相符,则判定前社交消息与社交消息缓存表中社交消息不相似;如上上述不相似条件均不满足,则判定二者相似。
在此,特定区域信息可以是省份信息、市信息和区信息中的至少一种,可以根据具体灾害影响范围确定是否需要市与区信息来判定前社交消息与社交消息缓存表中社交消息是否一致。
步骤S140,基于聚类结果进行自然灾害舆情分析。
在本发明实施例中,基于聚类结果可进行相关灾害舆情分析,如生成本次灾害重大事件线、对本次灾害损失进行实时评估、对本次灾害舆情信息进行实时情感检测等。
更进一步地,可对灾害舆情分析的结果进行准确率评估,并可使用echarts图等相关工具将舆情分析结果进行可视化展示。
下面结合更具体的示例对本发明实施例进行描述。
图2为本发明另一实施例中自然灾害舆情分析方法的流程示意图,如图2所示,数据采集步骤S110可具体包括数据采集参数初始化步骤、创建爬虫实时采集数据的步骤和垃圾过滤步骤。
也即,在数据采集步骤中,可先初始化数据采集参数,例如,预先设定自然灾害类型关键词、待采集的多源社交媒体类型、待采集的社交媒体字段信息和其他相关数据采集条件参数。作为示例,初始化数据采集参数步骤中,可输入自然灾害类型关键字如地震、台风、洪水等,待采集的多源社交媒体类型如微博、贴吧等,待采集的社交媒体字段信息如发布时间、发布内容、转发数量、评论数量、用户信息等和/或其他相关数据采集条件参数。
在输入初始数据采集条件参数后,可创建多源社交媒体数据爬虫,通过输入数据采集条件参数进行数据采集;随后使用分词技术对爬虫采集到的数据进行分词处理,去掉停用词,并对采集到的数据中的无用文本数据进行过滤,和/或将采集的数据中特定社交媒体类型(如僵尸号)发布的社交消息进行过滤,从而得到自然灾害相关的社交消息数据。
更具体地,可使用爬虫框架(如Scrapy爬虫框架)创建多源社交媒体数据爬虫并利用分布式任务调度框架(如Celery分布式任务调度框架)进行实时数据采集。随后,对垃圾信息进行过滤来实现数据采集过程。垃圾信息过滤可包括:通过jieba分词工具实现自然灾害相关文本数据的分词处理,去掉停用词;进一步可采用TextCNN或朴素贝叶斯垃圾识别模型对广告数据、娱乐新闻数据等无用文本数据进行过滤。另外,还可通过用于检测社交媒体僵尸号的不相关算法将僵尸号发布的数据进行过滤。
通过垃圾过滤步骤可除去停用词与不相关的无用文本数据,消除无用数据对后续实时聚类与舆情分析带来的影响,从而可提高采集到的数据与期望数据之间的相关度,增强后续实时聚类与舆情分析的效果。
本发明实施例提出的实时收集社交媒体灾害信息数据,其数据内容收集范围可调,且消除了人工收集数据时无法对社交媒体僵尸号进行排除的影响,为数据的实时聚类与分析奠定了基础。
如图2所示,实体获取和实时聚类步骤(对应图1中的步骤S120和步骤S130)可包括实体获取和帖子聚类(实时聚类)两个过程,实时聚类后的舆情分析和可视化步骤可包括灾害舆情分析以及分析结果评估及可视化两个过程。
图3为本发明一实施例自然灾害舆情分析方法中实体获取流程图。本发明实例对社交媒体消息数据中包含的社交媒体消息的属性信息和自然灾害描述信息进行针对性获取,例如,在社交媒体消息数据中包含自然灾害发生地信息、自然灾害发生时间信息和自然灾害等级信息的情况下,可直接对这些信息(如灾害发生地点、灾害发生时间和灾害等级等)进行实体抽取,并将对应抽取到的信息标准化为统一的标准格式化信息。在社交媒体消息数据中不包含自然灾害发生地信息和/或自然灾害发生时间信息和/或自然灾害等级信息时,缺失的数据可通过对应的社交消息发布地点、社交消息发布时间或自然灾害等级范围外的特殊标识进行实体填充并进行标记。
作为示例,首先对获取的帖子中文本数据进行灾害发生时间、地点与灾害等级的实体获取。对可抽取到的数据,直接进行统一格式的规范化表示,若帖子的文本数据不含相应信息,则按照设定规则进行实体填充,采用与实体获取到的数据相同的格式进行规范化表示。
例如,对于灾害发生地点,可采用如CRF+BiLSTM或正则表达式等相关命名实体识别方法抽取帖子中与灾害关键词文本位置最近的地名作为灾害发生地点,并将抽取到的地点标准化为XX省XX市XX县的格式,若未在帖子中抽取到灾害发生地信息,则将用户的发帖地点以相同的地点标准化格式填充到灾害发生地信息中,并做相应标记。
对于发生时间的抽取,可采用如正则表达式等相关时间实体识别方法抽取帖子中与灾害关键词文本位置最近的时间实体作为灾害发生时间,并将抽取到的时间实体标准化为XXXX年XX月XX日XX时XX分XX秒的格式,如果未在帖子中抽取到灾害发生时间信息,则将用户的发帖时间以相同的时间标准化格式填充到发生时间信息中,并做相应标记。
对于灾害等级的抽取,可以抽取帖子中与灾害关键词文本位置最近的等级文本作为灾害等级,并将抽取到的等级文本依据不同灾害类型进行标准化,如对于暴雨类灾害,可以分为暴雨、大暴雨、特大暴雨,台风类灾害可以分为台风、强台风、超强台风等,如果未在帖子中抽取到灾害等级信息,则将一特定标记如-100填充到灾害等级信息中。
在实体获取之后,可将从社交媒体消息(帖子)中获取到的灾害发生地点、灾害发生时间、灾害等级信息和帖子的属性信息(如发帖人信息)等数据填入构建的社交消息缓存表中以用于进行分析,将分析得到的每个自然灾害事件可填入构建的自然灾害信息表,根据表中数据对帖子进行实时聚类,并储存帖子的聚类结果。
作为示例,在聚类之前或聚类过程中,可构建三个相关数据存储表,分别为灾害信息存储表(DisasterInformationTable)、帖子信息缓存表(PostInformationCache)以及帖子聚类结果存储表(PostClusterTable)。
其中,灾害信息存储表用以存储灾害标号(disasterNumber)、灾害发生时间(disasterTime)、灾害发生地点(disasterLocation)以及灾害等级(disasterGrade)等信息。帖子信息缓存表用以存储帖子编号(postNumber)、帖子中抽取到的灾害发生时间信息(postTime)、帖子中抽取到的灾害地点信息(postLocation)以及帖子中抽取到的灾害等级信息(postGrade)。帖子聚类结果存储表用以存储帖子编号(postNumber)以及与当前帖子讨论内容相关的灾害编号(disasterNumber),与当前帖子讨论内容相关的灾害编号也即帖子的聚类结果,其中,帖子编号postNumber为帖子信息录入帖子信息缓存表时自动编号的用于对帖子进行区分的帖子编号;disasterNumber为灾害信息录入灾害信息存储表时自动编号的用于标识灾害的编号。
随后,可根据灾害的相关特性初始化灾害持续周期(disasterCycle)参数,如地震的灾害持续周期可以初始化为20天,暴雨的灾害持续周期可初始化为10天等;灾害持续周期参数可用于后续的帖子相似度判断。然后可设置帖子数量阈值参数(postNum),其例如可以设置为100条,帖子数量阈值参数可以用于在聚类过程中生成帖子簇并基于帖子簇进行聚类,后面讲详细描述。
网络上的社交媒体消息中,有的是原帖,有的是转贴,有的帖子发布媒体为权威媒体(如官方媒体),有的帖子发布媒体为非权威媒体,有的帖子与灾害信息存储表中已有的帖子相似度很高。在这些情况下,本发明实施例在进行聚类操作时,可将帖子基于具体情况进行分类,例如:将当前帖子为转发且当前帖子所转发的原始帖在帖子聚类结果存储表中存在的帖子分为一类;将当前帖子发布媒体为权威社交媒体,且灾害信息存储表中不存在判定相似的帖子分为一类;将其余帖子分为一类。为了便于描述,可将属于前两种分类的帖子归类为特殊帖子,最后一类帖子归类为普通帖子。
为了进行更精确的聚类,本发明实施例可以针对如上分类基于不同的聚类方式进行聚类操作。
图4为本发明一实施例中自然灾害舆情分析方法的实时聚类流程图,通过判断帖子类型选择不同的聚类方式进行聚类操作。
具体来说,对于特殊帖子类型中的转帖且其原帖在帖子聚类结果存储表中存在,则将该帖子的disasterNumber标记为与其原帖相同,并将该帖的postNumber与disasterNumber写入帖子聚类结果存储表,此次聚类结束。
对于特殊帖子类型中的权威媒体发布的帖子(如官方媒体发布帖),并且在灾害信息存储表中不存在与其相似度满足相似判断条件(如相似度为1)的记录,则在灾害信息存储表中增加一条新的灾害记录,其内容为当前帖子包含的信息内容,并将当前帖子和帖子信息缓存表中与当前帖子相似度为1的所有帖子的disasterNumber标记为新灾害记录的disasterNumber,将相应数据一同写入帖子聚类结果存储表中,此次聚类结束。在此,相似度为1为表示帖子相似,在此仅为示例,还可以有其他表示方式。
图5为本发明一实施例中自然灾害舆情分析方法的相似度判定流程图,本示例后续聚类方法均可通过如图5所示方法对帖子相似度进行计算。该判断流程中,首先输入灾害信息储存表中的某条记录的时间、地点信息与当前帖子记录的时间、地点信息,若当前帖子记录的时间与灾害信息储存表中记录的时间作差大于灾害持续周期,则判定两条记录相似度为0,即不相似,否则继续判断当前帖子记录与灾害信息储存表中记录的省份是否一致,若不一致,判定两条记录相似度为0(即不相似),若一致,判断当前帖子记录与灾害信息储存表中记录的市是否一致,若不一致,判定两条记录相似度为0(即不相似),若一致,判断当前帖子记录与灾害信息储存表中记录的区是否一致,若一致,则判定两条记录相似度为1(即相似),否则判定相似度为0。具体可根据灾害类型和影响范围选择是否需要判断灾害信息储存表中的记录与当前帖子记录的地区中的市、区是否一致。
对于普通帖子的聚类方法,如果帖子抽取到的灾害地点信息不是填充信息,按时间顺序倒序遍历灾害信息存储表的每一条记录,如果灾害信息存储表中存在与当前帖子相似度为1的记录,则将当前帖子disasterNumber标记为相似度为1的这条灾害记录的disasterNumber,并将该帖的postNumber与disasterNumber写入帖子聚类结果存储表中,此次聚类结束。如果帖子抽取到的灾害信息是填充信息,或虽不是填充信息,但遍历灾害信息存储表后不存在相似度为1的帖子,则将帖子相关信息放入帖子信息缓存表,如果帖子信息缓存表中与当前帖子相似度为1且postLocation字段不为填充而来的帖子的数量大于postNum,则将帖子信息缓存表中与当前帖子相似度为1的所有帖子取出形成新的帖子簇,抽取除了填充数据外在帖子簇中出现最多的postLocation、postGrade分别作为帖子簇的postLocation、postGrade,帖子簇中的最小postTime作为帖子簇的postTime,在灾害信息存储表中增加一条新的灾害记录,灾害记录字段内容对应帖子簇中相应字段,并将帖子簇中所有帖子的disasterNumber标记为新灾害记录的disasterNumber,相应数据写入帖子聚类结果存储表中,此次聚类结束。
本发明实施例的自然灾害舆情分析方法的实时聚类过程,为整个多源社交媒体实时聚类的自然灾害舆情分析方法的核心部分,通过在社交消息中获取实体信息,或在社交消息的属性信息中提取该信息中包含可能与自然灾害相关的潜在信息,扩充了社交消息的聚类样本,便于充分挖掘各社交消息所描述的自然灾害信息与舆论情况。
另一方面,在灾害信息存储表中,进行多源社交媒体实时聚类的过程会实时留下灾害发生的时间、地点与灾害等级,针对灾害信息存储表进行实时维护,提取灾害信息,可实现对灾害进行实时检测的功能。
基于聚类完成的数据进行相关灾害深入分析,分析结果使用数据可视化工具进行可视化展示,并可以对分析结果进行准确性评估。例如,可以利用准确率和召回率指标,或者可以把聚类结果直接展示出来,若得到了某一次的灾害信息,如时间地点等级,可以直接展示这一次灾害的所有相关帖子。
作为示例,首先对实时聚类完成的帖子进行相关灾害舆情分析,包括但不限于通过聚类的帖子理出本次灾害重大事件线、通过实时聚类对本次灾害对目前及未来的损失进行实时评估、通过对多源社交媒体中的灾害舆情信息的解析分析实时进行情感检测等。
对灾害舆情分析的结果通过echarts等相关工进行可视化展示,并对分析结果进行准确率评估。
本发明实施例提出创建多源社交媒体数据爬虫,通过预设初始数据采集条件参数对多源社交媒体数据进行实时采集,过滤无用文本数据与无用帖后对收集到的帖子进行数据的实体获取,建立储存表并对获取到的数据进行存放,对帖子进行分类,每种类型帖子采用特定方法进行聚类处理,并将聚类结果进行存储。对实时聚类完成的帖子进行相关灾害舆情分析,聚类结果通过相关工具进行可视化处理,并对结果进行准确度评估。本发明实施例可以自动在多源社交媒体上采集指定时间段内某类型每一次自然灾害的舆情信息进行实时聚类,从而实现高效的自然灾害舆情分析。
本发明可以自动在多源社交媒体(如微博、今日头条等)上采集指定时间段内某类型每一次自然灾害的舆情信息进行分析,相较于当前手工输入参数筛选采集某类型每一次自然灾害的舆情信息进行分析相比更具有自动性,且效率更高。此外,本发明具备实时性,一次部署永久使用。另一方面,通过对灾害信息存储表的实时维护,可对此方法进行功能扩展,达到实时检测灾害的目的。
本发明实施例仅以帖子作为收集分析与实时聚类的对象,但是本发明并不限于此,也可以将本发明应用在更广泛的多源社交媒体进行实时聚类,并对自然灾害进行舆情分析。
与前述方法相应地,还提供一种多源社交媒体的信息的采集装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
实现本发明实施例的软件可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的有形存储介质中。
相应地,本公开还涉及如上存储介质,其上可以存储有计算机程序代码,当程序代码被执行时可以实现本发明的方法的各种实施例。
需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述了一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种自然灾害舆情分析方法,其特征在于,该方法包括以下步骤:
创建多源社交媒体数据爬虫,通过输入数据采集条件参数进行数据采集,得到自然灾害相关的社交消息数据,所述数据采集条件参数包括:自然灾害类型关键词、采集自然灾害信息的多源社交媒体类型和社交媒体字段信息;
对爬虫采集到的社交消息数据进行实体获取,以从采集到的社交消息数据中抽取各社交消息对应的社交媒体消息的属性信息和初始的自然灾害描述信息,并基于抽取结果得到各社交消息对应的自然灾害实体数据,所述自然灾害实体数据包括社交媒体消息的属性信息和标准格式化的自然灾害描述信息;
设置自然灾害信息表和社交消息缓存表分别记录各自然灾害和各社交消息,根据所述自然灾害实体数据按照各自然灾害事件对社交消息进行聚类,以生成聚类结果;
基于聚类结果进行自然灾害舆情分析。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
可视化展示自然灾害舆情分析的结果;
通过实时维护自然灾害信息表实时检测自然灾害。
3.根据权利要求1所述的方法,其特征在于,
所述社交媒体消息的属性信息包括以下信息中的一种或多种:发布时间、发布内容、转发数量、评论数量和用户信息;
所述初始自然灾害描述信息包括:自然灾害发生地信息、自然灾害发生时间信息和自然灾害等级信息。
4.根据权利要求1所述的方法,其特征在于,所述创建多源社交媒体数据爬虫,通过输入数据采集条件参数进行数据采集,得到自然灾害相关的社交消息数据,包括:
创建多源社交媒体数据爬虫,通过输入数据采集条件参数进行数据采集;
使用分词技术对爬虫采集到的数据进行分词处理,去掉停用词;
对采集到的数据中的无用文本数据进行过滤,和/或将采集的数据中特定社交媒体类型发布的社交消息进行过滤,从而得到自然灾害相关的社交消息数据。
5.根据权利要求1所述的方法,其特征在于,所述对爬虫采集到的社交消息数据进行实体获取的步骤包括:
从采集到的社交消息数据中抽取各社交消息对应的社交媒体消息的属性信息和初始的自然灾害描述信息,在抽取结果中包含自然灾害发生地信息、自然灾害发生时间信息和自然灾害等级信息的情况下,基于抽取结果得到标准格式化的自然灾害描述信息:
在抽取结果中不包含自然灾害发生地信息情况下,将对应社交消息的发布地点标准化为标准格式化的自然灾害发生地信息,填充并进行标记;
在抽取结果中不包含自然灾害发生时间信息的情况下,将对应社交消息的发布时间标准化为标准格式化的自然灾害发生时间信息,填充并进行标记;
在抽取结果中不包含自然灾害等级信息的情况下,将自然灾害等级范围之外的特殊等级标识值作为标准格式化的自然灾害等级信息填充。
6.根据权利要求1所述的方法,其特征在于,
所述自然灾害信息表内容包括:灾害编号、灾害发生时间、灾害发生地点和灾害等级;所述灾害编号为新灾害信息填入时进行的自动编号;
所述社交消息缓存表内容包括:社交消息编号、当前社交消息中的灾害发生时间信息、当前社交消息中到的灾害地点信息和当前社交消息中到的灾害等级信息;采集到的社交消息数据,进行实体获取后存入社交消息缓存表中,所述社交消息编号为新社交消息填入时进行的自动编号。
7.根据权利要求6所述的方法,其特征在于,
所述利用自然灾害信息表和社交消息缓存表分别记录各自然灾害和各社交消息,根据所述自然灾害实体数据按照各自然灾害事件对社交消息进行聚类,以生成聚类结果,包括:
第一聚类方式,如果当前社交消息为转发其他用户所发布的消息,并且当前消息所转发的原始消息在消息聚类结果存储表中存在,则将当前消息标记与原始消息相同的灾害编号,存入消息聚类结果存储表;
第二聚类方式,在确认当前社交消息的发布媒体为权威社交媒体的情况下,如果当前自然灾害信息表中不存在判定相似的记录,则在自然灾害信息表中增加当前社交消息包含的灾害记录,并将当前社交消息和社交消息缓存表中与当前消息判定相似的所有社交消息的消息编号填入消息聚类结果存储表中,并将此次存储表填入的社交消息编号对应的灾害编号标记为此次自然灾害信息表新增加记录对应的灾害编号;
第三聚类方式,对于不满足上述第一聚类方式和第二聚类方式的社交消息,如果社交消息中可抽取到自然灾害发生地信息,则按时间倒序遍历灾害信息存储表,如果存在与当前社交消息判定相似的记录,则将当前社交消息的社交消息编号在消息聚类结果存储表中保存,且对应的灾害编号标记为该记录的相似记录对应的灾害编号;如果社交消息中以对应社交消息的发布地点作为自然灾害发生地信息,或可抽取到自然灾害发生地信息,按时间倒序遍历灾害信息存储表后不存在与当前社交消息判定相似的记录,则将当前社交消息与社交消息缓存表中社交消息的相似度进行判定,若判定相似且参与判定的消息中自然灾害发生地信息为非填充获得的消息数量大于预先设置的帖子数量阈值,将社交消息缓存表中与当前消息判定相似的所有消息构建消息簇,抽取除填充数据外簇中出现最多的自然灾害发生地信息与自然灾害等级信息,作为簇的自然灾害发生地信息与自然灾害等级信息,簇中最早的自然灾害发生时间作为整个簇的自然灾害发生时间,在灾害信息存储表中增加一条新灾害记录,灾害记录字段内容为簇的相应字段内容,并将簇中所有社交消息编号存入消息聚类结果存储表中,该簇中社交消息编号对应的灾害编号为新灾害记录的灾害编号;
消息聚类结果存储表中各社交消息编号对应的灾害编号即消息的聚类结果。
8.根据权利要求7所述的方法,其特征在于,基于如下方式判定前社交消息与社交消息缓存表中社交消息是否相似:
针对每一灾害设定特定的灾害持续周期,输入灾害信息储存表中的某条记录与当前数据记录,若当前消息记录的时间与灾害发生时间作差大于灾害持续周期,则判定前社交消息与社交消息缓存表中社交消息不相似;若当前消息记录得到的灾害地点中特定区域信息与灾害发生地点中特定区域信息不相符,则判定前社交消息与社交消息缓存表中社交消息不相似;否则判定前社交消息与社交消息缓存表中社交消息相似。
9.一种多源社交媒体的信息采集装置,该装置包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现权利要求1-8中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任意一项所述方法的步骤。
CN202011494854.1A 2020-12-17 2020-12-17 自然灾害舆情分析方法和装置 Active CN112559844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011494854.1A CN112559844B (zh) 2020-12-17 2020-12-17 自然灾害舆情分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011494854.1A CN112559844B (zh) 2020-12-17 2020-12-17 自然灾害舆情分析方法和装置

Publications (2)

Publication Number Publication Date
CN112559844A true CN112559844A (zh) 2021-03-26
CN112559844B CN112559844B (zh) 2021-08-31

Family

ID=75062894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011494854.1A Active CN112559844B (zh) 2020-12-17 2020-12-17 自然灾害舆情分析方法和装置

Country Status (1)

Country Link
CN (1) CN112559844B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317376A1 (en) * 2014-05-01 2015-11-05 International Business Machines Corporation Method, system and computer program product for automating expertise management using social and enterprise data
CN107229712A (zh) * 2017-05-27 2017-10-03 中南大学 一种面向公共安全事件信息获取的时空聚类方法
CN109697214A (zh) * 2018-11-30 2019-04-30 武汉烽火众智数字技术有限责任公司 一种旅游数据分析系统及方法
CN110263857A (zh) * 2019-03-27 2019-09-20 中国海洋大学 一种基于时空聚类和多模型融合的群体行为分析和预测方法
CN110516138A (zh) * 2019-08-31 2019-11-29 武汉理工大学 一种基于多源自更新威胁情报库的食品安全事件预警系统
US20200159961A1 (en) * 2017-12-28 2020-05-21 Ned M. Smith Privacy-preserving sanitization for visual computing queries
CN111723136A (zh) * 2019-11-20 2020-09-29 中共南通市委政法委员会 一种面向网格事件分类分级处置的单维聚类分析方法
CN111797101A (zh) * 2020-07-06 2020-10-20 薛大伟 一种基于大数据的档案管理系统及其存储方法
CN111914087A (zh) * 2020-07-30 2020-11-10 广州城市信息研究所有限公司 一种舆情分析方法
CN111914096A (zh) * 2020-07-06 2020-11-10 同济大学 基于舆情知识图谱的公共交通乘客满意度评价方法及系统
CN111950273A (zh) * 2020-07-31 2020-11-17 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317376A1 (en) * 2014-05-01 2015-11-05 International Business Machines Corporation Method, system and computer program product for automating expertise management using social and enterprise data
CN107229712A (zh) * 2017-05-27 2017-10-03 中南大学 一种面向公共安全事件信息获取的时空聚类方法
US20200159961A1 (en) * 2017-12-28 2020-05-21 Ned M. Smith Privacy-preserving sanitization for visual computing queries
CN109697214A (zh) * 2018-11-30 2019-04-30 武汉烽火众智数字技术有限责任公司 一种旅游数据分析系统及方法
CN110263857A (zh) * 2019-03-27 2019-09-20 中国海洋大学 一种基于时空聚类和多模型融合的群体行为分析和预测方法
CN110516138A (zh) * 2019-08-31 2019-11-29 武汉理工大学 一种基于多源自更新威胁情报库的食品安全事件预警系统
CN111723136A (zh) * 2019-11-20 2020-09-29 中共南通市委政法委员会 一种面向网格事件分类分级处置的单维聚类分析方法
CN111797101A (zh) * 2020-07-06 2020-10-20 薛大伟 一种基于大数据的档案管理系统及其存储方法
CN111914096A (zh) * 2020-07-06 2020-11-10 同济大学 基于舆情知识图谱的公共交通乘客满意度评价方法及系统
CN111914087A (zh) * 2020-07-30 2020-11-10 广州城市信息研究所有限公司 一种舆情分析方法
CN111950273A (zh) * 2020-07-31 2020-11-17 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOOHO KIM等: "Social network analysis: Characteristics of online social networks after a disaster", <INTERNATIONAL JOURNAL OF INFORMATION MANAGEMENT> *
丁学君 等: "突发公共卫生事件网络舆情研究现状及评述", 《电子政务》 *
竺佳芳: "顾及时空主题特征的分布式灾害舆情信息获取与分析方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 *

Also Published As

Publication number Publication date
CN112559844B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN104933093B (zh) 基于大数据的地区舆情监控及决策辅助系统和方法
KR101612423B1 (ko) 소셜미디어를 이용한 재난 감지 시스템
Thom et al. Spatiotemporal anomaly detection through visual analysis of geolocated twitter messages
CN110020433B (zh) 一种基于企业关联关系的工商高管人名消歧方法
CN112288247B (zh) 一种基于空间交互关系的土壤重金属风险识别方法
CN110109908B (zh) 基于社会基础信息挖掘人物潜在关系的分析系统及方法
KR20170025454A (ko) 소셜 미디어 데이터의 시공간 분석 시스템 및 방법
CN115759640B (zh) 一种智慧城市的公共服务信息处理系统及方法
KR102124935B1 (ko) 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램
CN108038441A (zh) 一种基于图像识别的系统与方法
CN112559844B (zh) 自然灾害舆情分析方法和装置
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN110232160B (zh) 兴趣点变迁事件检测方法、装置及存储介质
CN110837593A (zh) 一种基于聚焦爬虫技术的旅游跟踪系统
Heravi et al. Tweet location detection
Pohl et al. Online processing of social media data for emergency management
CN114463053A (zh) 一种企业归属分类的方法及系统
CN111291376B (zh) 一种基于众包和机器学习的web漏洞验证方法
CN110532158B (zh) 操作数据的安全评估方法、装置、设备及可读存储介质
CN113609842A (zh) 一种获取景区评论数据、旅行体验评价的方法
CN111507868A (zh) 一种网络维权系统和方法
JP6496952B2 (ja) データ処理装置、データ処理システム、データ処理方法及びプログラム
KR20210086833A (ko) Sns 데이터를 이용한 재난 정보 제공 시스템 및 그 방법
KR102365429B1 (ko) 불성실응답자를 판별하는 인공지능을 이용한 온라인 모바일 설문조사 플랫폼
KR102246712B1 (ko) 수집된 웹 데이터에 대한 적극적 필터링과 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant