CN112328794A - 台风事件信息聚合方法 - Google Patents
台风事件信息聚合方法 Download PDFInfo
- Publication number
- CN112328794A CN112328794A CN202011245204.3A CN202011245204A CN112328794A CN 112328794 A CN112328794 A CN 112328794A CN 202011245204 A CN202011245204 A CN 202011245204A CN 112328794 A CN112328794 A CN 112328794A
- Authority
- CN
- China
- Prior art keywords
- information
- attribute
- aggregation
- behavior
- typhoon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 105
- 238000004220 aggregation Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000008569 process Effects 0.000 claims abstract description 39
- 230000004931 aggregating effect Effects 0.000 claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 abstract description 3
- 230000008520 organization Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 235000021384 green leafy vegetables Nutrition 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种台风事件信息聚合方法,主要步骤如下:步骤1、采集社交媒体中与台风事件相关的消息文本,并从中抽取台风事件信息,并转换为结构化的信息元组形式;步骤2、基于多特征相似度的对象信息聚合;步骤3、基于时空特征的状态信息聚合;步骤4、基于状态的过程信息聚合:在对象信息聚合结果中筛选符合时间和位置范围要求的时空节点信息,对这些时空节点分别进行状态信息聚合,并将多个状态信息聚合结果进行排序,形成体现动态特性的过程信息聚合结果。本发明的台风事件信息聚合方法,对社交媒体中来源分散的台风事件信息进行筛选、组织和整合,为探测台风事件过程的发展阶段和态势提供有序化的信息基础。
Description
技术领域
本发明属于大数据挖掘领域,具体涉及一种台风事件信息聚合方法。
背景技术
台风会对自然生态、社会经济甚至人类可持续发展造成十分严重的破坏性影响,及时地获取台风事件演化过程的相关信息,成为灾害应急响应的重要依据和参考。在当前大数据环境下,社交媒体凭借其高效的更新频率、多源的传播渠道和广泛的参与程度,在灾害管理中显示出巨大的应用潜力,并逐渐发展为获取台风事件信息的新途径。然而,由于社交媒体本身的短文本特性,也存在信息破碎度高、表达形式复杂多样、信息粒度多样化等特点。庞杂散乱的社交媒体信息不仅难以反映台风事件演化的全貌,也阻碍了用户对于台风事件过程的有效探测。
信息聚合方法通过对信息资源的有效描述,来提高信息组织的合理性并优化访问效率,以满足用户获取有效信息资源的需求和便利性。面向灾害事件的信息聚合方式主要包括基于统计的方法、基于主题模型的方法和基于知识元的方法:(1)统计方法是利用词频、TF-IDF、N-gram、互信息等统计特征计算信息单元中的关键词权重,从中选取最具代表性的关键词并基于此进行聚合。该类方法简单主观、易于理解,但由于关键词筛选精度不高,一般需要结合辅助信息进行二次筛选。(2)概率主题模型假设每个文档在所有主题词上都存在一个潜在分布,可以利用主题词概率分布表示信息单元中的主题。然而,该类方法的效果依赖于主题个数的确定,在现实中社交媒体中不同主题一直处于动态变化。社交媒体的同一条消息中可能包含多个主题的内容,也使得主题词的可解释性存在较大争议。(3)知识元是对不同概念间的逻辑关系和层次结构进行定义,常见知识元形式有本体、语义网络、关联数据等。基于知识元的聚合是以知识元理论为基础,通过构建描述灾害事件结构的概念模型,根据模型中定义的语义关系进行信息重新序化和组织,以揭示信息特征及其关联。
目前,基于统计和主题模型的方法是进行灾害事件信息聚合最常用的方式。然而,这两类方法聚合结果的信息粒度较粗,通常只是将与灾害事件有关的各类信息集中在一起。相比较而言,基于知识元的聚合方法能够依据灾害领域的概念体系对原始资源进行分解和重组,获得具有一定知识结构的深度聚合结果。但是现有的台风事件知识建模多关注于台风事件中各个概念的层次结构与关联关系,忽略了对于台风事件动态过程的描述与表达。面对海量且类型复杂的社交媒体资源分散分布的状况,有必要构建信息聚合方法,依据事件的演化过程对台风事件信息进行有序化整合。
发明内容
本发明的目的在于提供一种台风事件信息聚合方法,对社交媒体中来源分散的台风事件信息进行筛选、组织和整合,为探测台风事件过程的发展阶段和态势提供有序化的信息基础,也有利于应急管理中社交媒体资源服务能力的提升。
为实现上述目的,本发明提供如下技术方案:
台风事件信息聚合方法,主要步骤如下:
步骤1、采集社交媒体中与台风事件相关的消息文本,并从中抽取台风事件信息,并转换为结构化的信息元组形式;
步骤2、基于多特征相似度的对象信息聚合:依据对象名称间的相似度判断其是否属于同一对象的信息元组,需要将描述同一对象的信息元组进行聚合;
步骤3、基于时空特征的状态信息聚合:在对象信息聚合结果中筛选符合单一时间和位置条件要求的属性值和行为值,时间信息、位置信息与筛选出的属性值和行为值共同构成对象在特定时空下的状态信息聚合结果;
步骤4、基于状态的过程信息聚合:在对象信息聚合结果中筛选符合时间和位置范围要求的时空节点信息,对这些时空节点分别进行状态信息聚合,并将多个状态信息聚合结果进行排序,形成体现动态特性的过程信息聚合结果。
优选地,在步骤1中,所述台风事件信息包括对象名称、时间信息、位置信息、属性信息和行为信息。
优选地,在步骤2中,对于描述同一对象的不同信息元组,其中相同类型的属性项和行为项也需要进行进一步聚合。
优选地,在步骤1中,台风事件信息抽取至少包括信息要素识别和信息要素关联两个部分:
信息要素识别:明确台风事件的组成对象并构建分类体系,从社交媒体文本中抽取描述不同类型对象的名称与特征信息,其中特征信息包括时间、位置、属性和行为。属性信息可以进一步分为属性项和属性值,属性项表示属性的类型,而属性值为该类型属性具有的数据或数据量。行为信息与属性信息相类似;
信息要素关联:在同一篇社交媒体文本中,将特征信息依据其表征对象与名称进行关联,形成On=<T,L,A,B>形式的信息元组。其中,On为对象名称,T为时间信息,L为位置信息,A为属性信息,B为行为信息。
优选地,在步骤2中,采用词向量相似度判断对象名称、属性项和行为项之间相似性,包括以下步骤:
S1、将全部社交媒体文本数据进行分词;
S2、将分词结果作为训练集,利用Skip-gram模型进行词向量训练;
S3、设定对象名称On1、On2,属性项A1、A2,行为项B1、B2,依据训练过的词向量模型分别获得On1、On2、A1、A2、B1、B2的词向量E(On1)、E(On2)、E(A1)、E(A2)、E(B1)、E(B2);
S4、利用余弦相似度分别计算E(On1)与E(On2)、E(A1)与E(A2)、E(B1)与E(B2)之间的相似度值simn、sima和simb。若simn≥εn,sima≥εa,simb≥εb,其中εn、εa、εb是阈值,则表明On1与On2、A1与A2、B1与B2是相同的对象名称、属性项和行为项,可以进行相应的信息聚合。
优选地,在步骤4中,对多个状态信息聚合结果进行排序时,包括以下步骤:
A1、依据状态的时间信息,遵循顺序或倒序的方式进行排序;
A2、依据状态的位置信息,遵循尺度由大到小或由小到大的方式进行排序;
A3、依据状态的属性信息和行为信息,可以依据特征值的大小或等级排序,也可以依据与用户聚合条件的相似度进行排序。
采用以上技术方案,能够实现以下技术效果:
本发明构建了基于社交媒体的台风事件过程信息聚合方法,在识别出社交媒体文本中与台风事件相关的不同对象信息元组基础上,分别从“对象-状态-过程”阐述了多层次的聚合模式。首先,在对象层中依据多维特征的相似度,将同一对象各类分散的特征信息进行聚合;其次,在状态层中将对象中符合特定时空特征的属性信息和行为信息进行聚合,实现信息时空粒度的统一;最后,在过程层中将多个状态依据时空关系进行排序,达到信息有序化组织的效果。这种聚合模式针对了社交媒体中信息分散化、多粒度和无序化的描述特点,也充分顾及了台风事件的动态演化特性,可以获取任一时空节点上不同对象的特征信息,并形成体现台风事件过程特性的有序化信息。在实际应用场景中,对于满足政府机构的应急任务需求和社会公众的事理认知需求都可以发挥重要作用。
附图说明
图1为多层次的台风事件过程信息聚合模式;
图2为社交媒体中构建的时空语义单元;
图3为社交媒体中台风事件信息抽取结果示例;
图4为对象信息聚合结果的组织结构及示例;
图5为状态信息聚合结果的组织结构及示例;
图6为过程信息聚合的不同阶段;
图7为过程信息聚合结果的组织结构及示例。
具体实施方式
以下结合附图和具体实施例,对本发明做进一步说明。
实施例
本发明公开了基于社交媒体的台风事件过程信息聚合方法,包括:
步骤1、采集社交媒体中与台风事件相关的消息文本,并从中抽取台风事件信息,包括对象名称、时间信息、位置信息、属性信息和行为信息,并转换为结构化的信息元组形式。
步骤2、基于多特征相似度的对象信息聚合。依据对象名称间的相似度判断其是否属于同一对象的信息元组,需要将描述同一对象的信息元组进行聚合。对于描述同一对象的不同信息元组,其中相同类型的属性项和行为项也需要进行进一步聚合。
步骤3、基于时空特征的状态信息聚合。在对象信息聚合结果中筛选符合单一时间和位置条件要求的属性值和行为值,时间信息、位置信息与筛选出的属性值和行为值共同构成对象在特定时空下的状态信息聚合结果。
步骤4、基于状态的过程信息聚合。在对象信息聚合结果中筛选符合时间和位置范围要求的时空节点信息,对这些时空节点分别进行状态信息聚合,并将多个状态聚合结果进行排序,形成体现动态特性的过程信息聚合结果。
作为一种优选的技术方案,步骤1中台风事件信息抽取包括:
1、明确台风事件的组成对象并构建分类体系,从社交媒体文本中抽取描述不同类型对象的名称与特征信息,其中特征信息包括时间、位置、属性和行为。属性信息可以进一步分为属性项和属性值,属性项表示属性的类型,而属性值为该类型属性具有的数据或数据量。行为信息与属性信息相类似。
2、在同一篇社交媒体文本中,将特征信息依据其表征对象与名称进行关联,形成On=<T,L,A,B>形式的信息元组。其中,On为对象名称,T为时间信息,L为位置信息,A为属性信息,B为行为信息。
作为一种优选的技术方案,台风事件组成对象分为主体对象和客体对象。气旋作为致灾因子就是事件中的主体对象,而受到气旋破坏、作用、影响的其他对象都是事件中的客体对象。依据客体对象的不同性质可以分别归类,主要包括人物、基础设施、交通设施、社会活动等类型。需要说明的是,不同对象可以借鉴相关领域分类方法,依据实际需要进行更加详细的类型划分(表1)。
表1台风事件中主要的对象类型
作为一种优选的技术方案,从社交媒体文本中对描述不同类型对象的名称与特征信息进行抽取包括:
S1、构建社交媒体文本台风事件信息标注语料库,标注的内容包括描述不同类型对象的名称、时间、位置、属性和行为信息要素。
S2、依据标注语料库,基于条件随机场模型构建时间信息抽取模型,对社交媒体文本中的时间信息进行自动识别。
S3、依据标注语料库,基于深度信念网络构建位置信息抽取模型,对社交媒体文本中的位置信息进行自动识别。
S4、依据标注语料库,总结对象名称、属性信息和行为信息的规则模型,包括触发词词典与句法模式,对社交媒体文本中的对象名称、属性信息和行为信息进行自动识别。
作为一种优选的技术方案,对于从社交媒体中抽取出的各类信息要素需要进行关联包括:
S1、时空语义单元构建。字、词、短语、子句、句或段落等都是文本中的语言单位,不同语言单位间通过语义关系形成文本的基本结构。若部分语言单位或将不同语言单位组合后,能够表达出完整的语义内涵,即为语义单元。当语义单元中包含了时间信息和空间信息,能够明确表达出语义单元中阐述内容存在的时空特征,本方法中将此语义单元定义为时空语义单元。
对蕴含台风事件的社交媒体文本进行分析,时空语义单元的分布大致可以分为三类:(1)只描述了同一时间和位置的对象信息,此类文本占据社交媒体文本的大部分;(2)描述了同一时间不同位置的对象信息,此类文本数量相对较少;(3)将多个时间和位置的对象信息进行列举并进行比较,属于综合性报道,此类文本数量很少。
利用时空信息可以跟踪文本中对象特征的变化情况。因此,本方法基于提取出的时空信息,将社交媒体文本划分为不同的时空语义单元(图2)。以时空信息在文本中的存在位置,作为划分为时空语义单元的依据,具体包括:
(1)对于第一类情况,由于仅存在唯一的时间、位置信息,将文本整体划分为1个时空语义单元。
(2)对于第二类和第三类情况,先依据时间信息划分文本为多个时间单元。当时间单元中存在多个位置信息时,则利用位置信息进一步划分,划分出时空语义单元共享时间单元中的时间信息。
S2、对象名称与特征信息的关联规则。在将社交媒体文本划分为了多个时空语义单元的基础上,识别出的对象名称以及各类特征信息分布在不同的单元内。因此,可以依据各个信息要素所隶属的单元进行结构化组织。在每个时空语义单元中,依次按照以下步骤进行不同信息要素的关联:
(1)特征触发词与特征值的关联。特征触发词与特征值共同构成对象的特征信息,此时专指属性特征和行为特征,特征触发词表示属性项和行为项,特征值表示属性值和行为值。特征触发词与特征值在表达时遵循邻近规律,形成“特征触发词-特征值”的结构。通过统计属性值前三位词语的词频,出现特征触发词的频率超过99%。因此,将特征值与其位置前最接近的特征触发词相关联。
(2)属性、行为信息与对象名称的关联。在中文的基本表述习惯中,通常会先提及对象名称,再分别阐述对象具有的各类特征。因此,在同一个时空语义单元中,将属性信息和行为信息分别与其位置前最接近的对象名称相关联。
(3)对象名称与时间、位置信息的关联。对于对象名称所在的时空语义单元,将其时间信息和位置信息分别与对象名称相关联。
对依次建立关联关系的对象名称与各类特征信息,按照On=<T,L,A,B>的元组形式进行填充(图3)。需要说明的是,一个时空语义单元中对于台风事件的描述可能仅限于某一方面,构建对象信息元组时可以存在属性和行为其中一项缺失的情况。
作为一种优选的技术方案,步骤2中对象信息聚合包括:
1、基于对象名称的聚合。设定聚合条件的对象名称为N,依次判断On名称与N的相似度simn。若simn≥εn,εn是对象相似度阈值,则表明是同一个对象,对于同一对象的信息元组进行合并。
对于判断对象名称相似度的度量方法,采用词向量相似度法。词向量相似度法在利用Skip-gram模型训练出词向量模型的基础上,首先将对象名称映射为一个多维空间的向量,通过相似度算法判断不同向量间在多维空间中的方向是否一致,并采用余弦相似度进行度量。
例如,O(台风)=<2019年8月10日1:45,浙江省温岭市,风力:16级,登陆>,O(热带气旋)=<2019年8月11日20:50,山东省青岛市,风力:9级,登陆>为社交媒体中抽取出的信息元组。设定聚合条件的对象名称为“台风”,分别对信息元组中的对象名称“台风”和“热带气旋”进行相似度判断,其语义都是表达气旋本体,则将这两项信息元组作为聚合结果。
2、结合对象特征的聚合。在对同一对象的信息元组聚合后,会出现多项相同类型的属性和行为特征信息,可以进一步聚合出符合特定特征的对象信息。在基于对象名称聚合结果的基础上,设定聚合条件的对象属性特征A和行为特征B。对于属性特征的聚合,采用词向量相似度法判断On属性项与A的相似度sima。若sima≥εa,εa是属性相似度阈值,则表明属性项相同,可以进行信息聚合,并且在聚合后同样保留各个属性值及时空特征;否则为描述同一对象的不同属性项,不进行属性项的聚合。
对于行为特征的聚合,词向量相似度法判断On行为项与B的相似度simb。若simb≥εb,εb是行为相似度阈值,则表明行为项相同,可以进行信息聚合,并且在聚合后同样保留各个行为信息及时空特征;否则为描述同一对象的不同行为项,不进行行为项的聚合。
例如,基于上述的O(台风)和O(热带气旋)对象信息元组,进一步聚合台风的“风力”属性特征信息。O(台风)和O(热带气旋)中都有符合相似度阈值的属性项“风力”,因此将<2019年8月10日1:45,浙江省温岭市,风力:16级>和<2019年8月11日20:50,山东省青岛市,风力:9级>作为对象特征的聚合结果。
3、对象聚合结果的信息组织。对象信息聚合结果的组织形式可以表达为图4。其中,O(N)表示聚合的对象,Al是聚合获得的对象的属性项,als是具体的属性值,Bn是聚合获得的对象的行为项,bnu是具体的行为值,<T,S>是属性值或行为值发生的时间和地点。可以看出,原本分散的信息碎片都与其描述的对象相关联,对象中相同的属性项和行为项也合并在一起,而每个属性和行为项中都包含了多个时空条件下表现出的不同特征值。
作为一种优选的技术方案,步骤3中状态信息聚合包括:
1、时空基准统一。时空框架是状态存在的基础,在状态信息聚合中需要建立统一的时空基准。本文的时间基准中将日期设置为公历纪元,时间设置为北京时间,空间基准采用CGCS2000坐标系。
2、时空信息规范化。时间信息和位置信息是判定与之关联的属性信息和行为信息是否为描述特定时空条件下对象状态特征的依据。对于时间信息,按照目前人们日常的使用习惯,使用公历纪年、日历时间和时钟时间进行规范化描述。时间规范化形式定义为“日期+时间”的格式“YYYY-MM-DD HH:MM:SS”,例如:“2019-08-10 12:00:00”。位置信息应按照统一空间基准转换为规范化的表示形式,包括地名、地址和空间坐标等描述内容。其中,地名可以参照在特定时间国家发布的标准名称、编码和类别,而地址中包含的地址要素类型和要素组合方式可以参考国家或行业发布的标准规范,空间坐标应遵循空间基准的要求进行相应的坐标转换。
3、面向状态的聚合。设定聚合的时间特征t和位置特征l,基于对象层信息聚合结果O(N),在O(N)的每个属性项和行为项中,判断是否存在T=t且S=l的特征值(属性值和行为值),若存在则将此特征值作为聚合信息。否则继续判断是否存在S=l,T<t且与t最接近的特征值,若存在也将此特征值作为聚合信息。若不存在,继续判断是否存在S与l临近,T<t且与t最接近的特征值,若存在同样将此特征值作为聚合信息。若依然不存在,则此属性项或行为项不进行聚合。通过对O(N)中所有属性项和行为项的遍历,每个属性项和行为项中会筛选出最多1项最符合时空特征的特征值。将这些属性信息和行为信息进行聚合,共同形成对象在特定时空条件下的状态信息聚合结果。
例如:社交媒体中有消息记录在8月10日1:45气旋风力在浙江省温岭市达到16级,当聚合(2:00,温岭市)的气旋状态时,由于1:45-2:00之间没有关于风力的信息更新,因此将“风力16级”作为气旋对象在(2:00,温岭市)状态的1项属性特征。通过这种聚合机制,对于获取的任一时空节点上的聚合结果,状态信息不仅限于被明确提及属于当前时空下的对象特征,还包含之前所有时间中全部对象特征截至目前的最新进展,保证了聚合结果的全面性与完整性。
4、状态聚合结果的信息组织。状态信息聚合结果的组织形式可以表达为图5。其中,S表示对象O(N)在时间t和位置l上存在的状态,Al和als描述状态的属性特征,Bn和bnu是描述状态的行为特征,<T,S>则是属性和行为特征产生的时间和位置。
作为一种优选的技术方案,步骤4中过程信息聚合包括状态序列聚合和事件过程聚合两个部分。过程是不同状态在时空上的连接,并通过状态中属性信息和行为信息的变化体现出过程的动态性。台风事件包含了在事件发生期间多个对象的演化过程,台风事件的过程是由多个对象的不同状态共同构成。因此,在进行过程层信息聚合时采用逐级分解方式,将状态信息到过程信息的连接分级抽象为对象状态、状态序列和事件过程三个阶段(图6)。其中,对象状态聚合了某一时空下对象的属性信息和行为信息;状态序列是记录同一对象的演变历程,需要将同一对象的不同状态进行聚合;事件过程则是多个对象共同的演变历程,由多个状态序列共同构成。
作为一种优选的技术方案,进行状态序列聚合包括:
S1、设定聚合的时间范围tr和空间范围sr,基于对象信息聚合结果O(N),依次遍历O(N)中全部的属性项和行为项。在每个属性项和行为项中,判断是否存在和的属性值或行为值,将全部符合tr与sr范围的<T,S>形成时空节点集合。对于集合中全部的时空节点,分别基于步骤3的方法聚合获得多个状态聚合结果。
S2、对全部状态聚合结果进行排序,首先依据状态的时间信息,遵循顺序或倒序的方式进行排序;其次依据状态的位置信息,遵循尺度由大到小或由小到大的方式进行排序;最后依据状态的属性信息和行为信息,可以依据特征值的大小或等级排序,也可以依据与用户聚合条件的相似度进行排序。按照三维条件排列的状态序列即为单一对象的过程聚合结果。
S3、状态序列聚合结果的信息组织。状态序列信息聚合结果的组织形式可以表达为图5。其中,P表示对象O(N)在时间范围tr和空间范围sr上经历的过程,S表示在时空节点<tn,ln>上的对象状态。
作为一种优选的技术方案,进行事件过程聚合包括:
S1、设定聚合的时间范围tr和空间范围sr,基于多项对象信息聚合结果O(Ns)-O(Nt),先遍历O(Ns)中全部的属性项和行为项,获得符合tr与sr范围的<T,S>。再继续遍历O(Ns+1),直至遍历完O(Nt)。将全部符合tr与sr范围的<T,S>形成时空节点集合。
S2、对于多个对象状态序列还需要采取相同的排序机制,以保证聚合结果整体次序的一致性。对于面向事件过程的聚合结果,通过比较过程前后不同时间节点的状态特征,可以分析出空间特征的移动,以及属性、行为特征的差异,显式地记录整个台风事件的动态过程(图7)。
以上已对本发明创造的较佳实施例进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明创造精神的前提下还可做出种种的等同的变型或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围。
Claims (6)
1.台风事件信息聚合方法,其特征在于,主要步骤如下:
步骤1、采集社交媒体中与台风事件相关的消息文本,并从中抽取台风事件信息,并转换为结构化的信息元组形式;
步骤2、基于多特征相似度的对象信息聚合:依据对象名称间的相似度判断其是否属于同一对象的信息元组,需要将描述同一对象的信息元组进行聚合;
步骤3、基于时空特征的状态信息聚合:在对象信息聚合结果中筛选符合单一时间和位置条件要求的属性值和行为值,时间信息、位置信息与筛选出的属性值和行为值共同构成对象在特定时空下的状态信息聚合结果;
步骤4、基于状态的过程信息聚合:在对象信息聚合结果中筛选符合时间和位置范围要求的时空节点信息,对这些时空节点分别进行状态信息聚合,并将多个状态信息聚合结果进行排序,形成体现动态特性的过程信息聚合结果。
2.根据权利要求1所述的台风事件信息聚合方法,其特征在于,在步骤1中,所述台风事件信息包括对象名称、时间信息、位置信息、属性信息和行为信息。
3.根据权利要求1所述的台风事件信息聚合方法,其特征在于,在步骤2中,对于描述同一对象的不同信息元组,其中相同类型的属性项和行为项也需要进行进一步聚合。
4.根据权利要求1所述的台风事件信息聚合方法,其特征在于,在步骤1中,台风事件信息抽取至少包括信息要素识别和信息要素关联两个部分:
信息要素识别:明确台风事件的组成对象并构建分类体系,从社交媒体文本中抽取描述不同类型对象的名称与特征信息,其中特征信息包括时间、位置、属性和行为。属性信息可以进一步分为属性项和属性值,属性项表示属性的类型,而属性值为该类型属性具有的数据或数据量。行为信息与属性信息相类似;
信息要素关联:在同一篇社交媒体文本中,将特征信息依据其表征对象与名称进行关联,形成On=<T,L,A,B>形式的信息元组。其中,On为对象名称,T为时间信息,L为位置信息,A为属性信息,B为行为信息。
5.根据权利要求1所述的台风事件信息聚合方法,其特征在于,在步骤2中,采用词向量相似度判断对象名称、属性项和行为项之间相似性,包括以下步骤:
S1、将全部社交媒体文本数据进行分词;
S2、将分词结果作为训练集,利用Skip-gram模型进行词向量训练;
S3、设定对象名称On1、On2,属性项A1、A2,行为项B1、B2,依据训练过的词向量模型分别获得On1、On2、A1、A2、B1、B2的词向量E(On1)、E(On2)、E(A1)、E(A2)、E(B1)、E(B2);
S4、利用余弦相似度分别计算E(On1)与E(On2)、E(A1)与E(A2)、E(B1)与E(B2)之间的相似度值simn、sima和simb。若simn≥εn,sima≥εa,simb≥εb,其中εn、εa、εb是阈值,则表明On1与On2、A1与A2、B1与B2是相同的对象名称、属性项和行为项,可以进行相应的信息聚合。
6.根据权利要求1所述的台风事件信息聚合方法,其特征在于,在步骤4中,对多个状态信息聚合结果进行排序时,包括以下步骤:
A1、依据状态的时间信息,遵循顺序或倒序的方式进行排序;
A2、依据状态的位置信息,遵循尺度由大到小或由小到大的方式进行排序;
A3、依据状态的属性信息和行为信息,可以依据特征值的大小或等级排序,也可以依据与用户聚合条件的相似度进行排序。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011245204.3A CN112328794B (zh) | 2020-11-10 | 2020-11-10 | 台风事件信息聚合方法 |
JP2022505249A JP2023504961A (ja) | 2020-11-10 | 2021-01-20 | 台風事件情報収束方法 |
PCT/CN2021/072796 WO2022099927A1 (zh) | 2020-11-10 | 2021-01-20 | 台风事件信息聚合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011245204.3A CN112328794B (zh) | 2020-11-10 | 2020-11-10 | 台风事件信息聚合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328794A true CN112328794A (zh) | 2021-02-05 |
CN112328794B CN112328794B (zh) | 2021-08-24 |
Family
ID=74317863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011245204.3A Active CN112328794B (zh) | 2020-11-10 | 2020-11-10 | 台风事件信息聚合方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2023504961A (zh) |
CN (1) | CN112328794B (zh) |
WO (1) | WO2022099927A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903238A (zh) * | 2021-09-23 | 2022-01-07 | 成都信息工程大学 | 一种台风虚拟仿真实验教学系统及方法 |
CN114003646A (zh) * | 2021-12-30 | 2022-02-01 | 南京师范大学 | 一种高并发实时多属性聚合地图集群服务系统 |
CN114282534A (zh) * | 2021-12-30 | 2022-04-05 | 南京大峡谷信息科技有限公司 | 一种基于要素信息抽取的气象灾害事件聚合方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880498B (zh) * | 2022-07-11 | 2022-11-29 | 北京百度网讯科技有限公司 | 事件信息展示方法及装置、设备和介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110264881A1 (en) * | 2008-07-02 | 2011-10-27 | Hitachi, Ltd. | Storage system and remote copy recovery method |
CN102541886A (zh) * | 2010-12-20 | 2012-07-04 | 郝敬涛 | 一种识别用户群和用户之间关系的系统和方法 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN107220286A (zh) * | 2017-04-24 | 2017-09-29 | 深圳市龙岗远望软件技术有限公司 | 应急指挥信息呈现方法和应急指挥系统平台及服务器 |
CN110008355A (zh) * | 2019-04-11 | 2019-07-12 | 华北科技学院 | 基于知识图谱的灾害场景信息融合方法及装置 |
CN110009158A (zh) * | 2019-04-11 | 2019-07-12 | 中国水利水电科学研究院 | 台风暴雨洪水灾害全生命周期监测方法及系统 |
CN111241311A (zh) * | 2020-01-09 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 媒体信息推荐方法、装置、电子设备及存储介质 |
CN111708879A (zh) * | 2020-05-11 | 2020-09-25 | 北京明略软件系统有限公司 | 针对事件的文本聚合方法、装置及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229193B2 (en) * | 2016-10-03 | 2019-03-12 | Sap Se | Collecting event related tweets |
KR20210086833A (ko) * | 2019-12-30 | 2021-07-09 | 동국대학교 산학협력단 | Sns 데이터를 이용한 재난 정보 제공 시스템 및 그 방법 |
-
2020
- 2020-11-10 CN CN202011245204.3A patent/CN112328794B/zh active Active
-
2021
- 2021-01-20 WO PCT/CN2021/072796 patent/WO2022099927A1/zh active Application Filing
- 2021-01-20 JP JP2022505249A patent/JP2023504961A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110264881A1 (en) * | 2008-07-02 | 2011-10-27 | Hitachi, Ltd. | Storage system and remote copy recovery method |
CN102541886A (zh) * | 2010-12-20 | 2012-07-04 | 郝敬涛 | 一种识别用户群和用户之间关系的系统和方法 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN107220286A (zh) * | 2017-04-24 | 2017-09-29 | 深圳市龙岗远望软件技术有限公司 | 应急指挥信息呈现方法和应急指挥系统平台及服务器 |
CN110008355A (zh) * | 2019-04-11 | 2019-07-12 | 华北科技学院 | 基于知识图谱的灾害场景信息融合方法及装置 |
CN110009158A (zh) * | 2019-04-11 | 2019-07-12 | 中国水利水电科学研究院 | 台风暴雨洪水灾害全生命周期监测方法及系统 |
CN111241311A (zh) * | 2020-01-09 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 媒体信息推荐方法、装置、电子设备及存储介质 |
CN111708879A (zh) * | 2020-05-11 | 2020-09-25 | 北京明略软件系统有限公司 | 针对事件的文本聚合方法、装置及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
PENG YE等: "TKRM: A Formal Knowledge Representation Method for Typhoon Events", 《SUSTAINABILITY》 * |
张春菊: "中文文本中事件时空与属性信息解析方法研究", 《中国博士学位论文全文数据库 基础科学辑》 * |
杨腾飞等: "微博中蕴含台风灾害损失信息识别和分类方法", 《地球信息科学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903238A (zh) * | 2021-09-23 | 2022-01-07 | 成都信息工程大学 | 一种台风虚拟仿真实验教学系统及方法 |
CN113903238B (zh) * | 2021-09-23 | 2023-10-03 | 成都信息工程大学 | 一种台风虚拟仿真实验教学系统及方法 |
CN114003646A (zh) * | 2021-12-30 | 2022-02-01 | 南京师范大学 | 一种高并发实时多属性聚合地图集群服务系统 |
CN114282534A (zh) * | 2021-12-30 | 2022-04-05 | 南京大峡谷信息科技有限公司 | 一种基于要素信息抽取的气象灾害事件聚合方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022099927A1 (zh) | 2022-05-19 |
JP2023504961A (ja) | 2023-02-08 |
CN112328794B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112328794B (zh) | 台风事件信息聚合方法 | |
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
Ozdikis et al. | Semantic expansion of tweet contents for enhanced event detection in twitter | |
Pervin et al. | Fast, scalable, and context-sensitive detection of trending topics in microblog post streams | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
Ma et al. | Natural disaster topic extraction in sina microblogging based on graph analysis | |
Lubis et al. | A framework of utilizing big data of social media to find out the habits of users using keyword | |
CN111382276A (zh) | 一种事件发展脉络图生成方法 | |
CN113239111A (zh) | 一种基于知识图谱的网络舆情可视化分析方法及系统 | |
Larriba-Pey et al. | Introduction to graph databases | |
CN114996549A (zh) | 基于活动对象信息挖掘的智能追踪方法与系统 | |
Qiu et al. | Research on micro-blog text presentation model based on word2vec and tf-idf | |
Campbell et al. | Content+ context networks for user classification in twitter | |
JP2012043294A (ja) | 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置 | |
CN109871429B (zh) | 融合Wikipedia分类及显式语义特征的短文本检索方法 | |
ElGindy et al. | Enriching user profiles using geo-social place semantics in geo-folksonomies | |
Arslan et al. | Modeling virtual knowledge graphs using relevant news data by NLP methods for business analysis | |
Zhang et al. | A text mining based method for policy recommendation | |
Kim et al. | Mining news events from comparable news corpora: a multi-attribute proximity network modeling approach | |
Wang et al. | Text mining for educational literature on big data with Hadoop | |
KR20210117038A (ko) | 소셜 네트워크에서 연관 문서 분석을 통한 지역 이벤트 검출 시스템 및 방법 | |
She et al. | WS-Sim: A web service simulation toolset with realistic data support | |
Nelson et al. | Modeling Microtext with higher order learning | |
Dashdorj et al. | High‐level event identification in social media | |
ElGindy et al. | Capturing place semantics on the geosocial web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |