CN108595582A

CN108595582A - 一种基于社会信号的灾害性气象热点事件识别方法

Info

Publication number: CN108595582A
Application number: CN201810345881.9A
Authority: CN
Inventors: 牛振东; 朱凡; 朱一凡; 陆浩; 时恺泽
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2018-09-28
Anticipated expiration: 2038-04-17
Also published as: CN108595582B

Abstract

本发明的目的是提出一种基于聚类特征模型的灾害性气象热点事件识别方法。具体步骤为：步骤一、构建灾害性气象关键词典。步骤二、对社会信号数据库中的数据进行预处理和特征提取。步骤三、发现与识别灾害性气象事件。本发明提出的基于聚类特征模型的灾害性气象热点事件识别方法与已有技术相比较，其优点在于：①在当前没有公认的气象相关关键词词典的环境下构建面向实际环境的关键词词典。②通过针对互联网中社会信号的处理，从“公众最关心”的角度发现识别气象事件，实现了基于社会的公众热点和基于自然的气象观测与预报之间的统一。③针对气象领域的特征进行了提取和聚类，从而相较于传统的通用事件发现方法提高了事件识别的准确率。

Description

一种基于社会信号的灾害性气象热点事件识别方法

技术领域

本发明属于社会计算领域，涉及一种基于社会信号的灾害性气象热点事件识别方法，具体涉及一种使用计算机通过互联网信息作为数据源，自动分析并识别当前互联网环境中广泛关注并热议的灾害性气象事件的方法。

背景技术

当今社会已成为信息爆炸时代，互联网的迅猛发展，使得中国已经具有6亿多网民群体。社交网络(social network)的出现，为广大网民提供了更加自由和宽广的表现舞台。社交网络的核心价值在于用户之间的信息交换，即用户可以自由地创作内容并发布在一个或多个社交网络站点(social network sites,SNS)，并经由它的观众通过转发等方式进行传播。另一方面，尽管传统的气象预报预警技术已经能够实现精确的灾害性气象的预报和预警，但是基于气候和气象学的天气预报预警与社会的实际反映和关注可能存在偏差。以2012年7月下旬北京强降水导致的内涝灾害为例，气象部门已经对强降水引发的潜在风险进行了预报和预警，但是民众对此灾害的发生仍然准备不足。不仅如此，之后在社交网络中(如新浪微博、天涯社区、微信公众号等)对该事件的关注程度也远远超出了强降雨这一气象灾害本身。因此可以发现，公众对于某一灾害性气象的关注度与参与度不仅仅与气象灾害的自身的强度有关。

目前已有相关的科学研究和发明聚焦于社会信号的采集与分析被用于其他某个或者多个领域。然而，这些通用的社会信号采集和分析技术不能有效地针对气象这一领域的某些独有特征进行利用，从而导致了识别效率低下甚至无法识别的问题。不仅如此，当前尚未有公认的针对气象社会信号的采集关键词典，从而使得原始信息的采集更加困难，最终导致后续的处理分析失败。

本发明采取半自动构建灾害性气象相关搜索词典并结合气象事件特征模型，提取互联网中的新闻、微博记录，并通过构建记录聚合方法最终实现对社会信号下的灾害性气象事件的发现与识别，该方法有效的解决了互联网中灾害性气象记录由于地理、内容和渠道等因素离散分布从而导致的聚合困难的问题，大幅提高了社会灾害性气象事件发现和识别的准确率。

发明内容

本发明的目的是为解决由于互联网中的灾害性气象相关记录离散分布，采用现有互联网事件发现机制识别时，会产生的准确度过低问题，提出一种基于聚类特征模型的灾害性气象热点事件识别方法。

本发明的目的是通过下述技术方案实现的。

本发明的一种基于聚类特征模型的灾害性气象热点事件识别方法，其特征在于：其具体实现步骤包括：

步骤一、构建灾害性气象关键词典。

步骤1.1：从网络系统中获取包含气象信息的新闻和微博文本，构成训练语料库，用符号ArticleSet表示。

步骤1.2：选取国家标准《GB/T 27962-2011气象灾害预警信号图标》规定的14种气象灾害名称，作为灾害性气象关键词基础词集，用符号KeywordDict_init表示。KeywordDict_init＝{台风，暴雨，暴雪，寒潮，大风，沙尘暴，高温，干旱，雷电，雹，霜冻，大雾，霾，道路结冰}。

表1 GB/T 27962-2011中规定的灾害性气象分类及预警级别

步骤1.3：确定训练语料库，用符号ArticleSet表示；并对训练语料库ArticleSet进行分词处理，得到分词语料库，用符号ArticleSet_S表示。

步骤1.4：使用Word2vec方法对分词语料库ArticleSet_S中的词语进行空间坐标化，得到词语与空间坐标一一对应的词语向量化模型。所述词语向量化模型的作用是：向词语向量化模型输入一个词语就能得到与之对应的向量值。

步骤1.5：构建灾害性气象关键词扩展词集，用符号KeywordDict表示。具体操作为：

步骤1.5.1：使用步骤1.4得到的词语向量化模型得到分词语料库ArticleSet_S中所有词语对应的词语向量。

步骤1.5.2：设置灾害性气象关键词扩展词集KeywordDict的初始值与灾害性气象关键词基础词集KeywordDict_init相同。

步骤1.5.3：遍历灾害性气象关键词扩展词集KeywordDict中的每一个词，用符号kw_p表示；依次计算词语kw_p分别与分词语料库ArticleSet_S中除kw_p以外的任意一个词语(用符号kw_p表示)之间的坐标距离(用符号Dis(kw_p,kw_j)表示)，其中p,j为正整数，且p≠j。然后选取坐标距离Dis(kw_p,kw_j)中最小的前n个词语作为灾害性气象扩展关键词，填充入灾害性气象关键词扩展词集KeywordDict中,n为人为设定值，n为正整数。

所述计算分词语料库ArticleSet_S中任意两个词语向量之间的坐标距离Dis(kw_p,kw_j)的方法包括：余弦距离、欧几里得距离、曼哈顿距离。

步骤1.5.4：将步骤1.5.1至步骤1.5.3重复m次，得到灾害性气象关键词扩展词集KeywordDict；m为人为设定值，m为正整数。

经过上述步骤的操作，得到灾害性气象关键词扩展词集KeywordDict。

步骤1.6采集动态社会信号。具体为：依次使用步骤1.5得到的灾害性气象关键词扩展词集KeywordDict作为检索关键词，使用爬虫程序按照预先设定的时间间隔，动态采集网络中含有所述检索关键词的新闻和微博文本，构建社会信号数据库。所述社会信号数据库包括检索关键词、新闻和微博文本、时间标签。

步骤二、对社会信号数据库中的数据进行预处理和特征提取；具体操作为：

步骤2.1：对社会信号数据库中的数据进行正向或反向过滤，得到清洗后的社会信号数据库。

步骤2.2：用符号s_i表示社会信号数据库中的任意一条记录，其中，i∈[1,m],其中m表示社会信号数据库中的总记录数。

步骤2.3根据目标区域的地理行政划分，构建地名词库PN。使用符号pn_K表示地名词库PN中的任意一地理名词。

所述地名坐标库包括：目标区域内的地理名称以及各地理名称所对应的经度和纬度。用符号Lat_K表示地理名词pn_K对应的纬度，Lng_K为地理名词pn_K对应的经度。

步骤2.4对社会信号数据库中的每一条记录s_i进行分词，形成词序列，用符号s_i′表示。s_i′＝w_i1w_i2...w_iq；其中w_i1,w_i2…w_iq分别表示词序列s_i′中的q个词，q为正整数。

步骤2.5抽取社会信号数据库中的每一条记录s_i的空间特征(用符号f_i表示)；具体步骤如下：

步骤2.5.1：对每一条记录s_i对应的词序列s_i′，使用地名词库PN提取其包含的所有地名。用符号pn_k表示使用地名词库PN在序列s_i′中提取出来的任一地理名词。

步骤2.5.2使用公式(1)计算在社会信号数据库中记录s_i对应的检索关键词(用符号kw表示)与步骤2.5.1得到的所有地名在词序列s_i′上的语义距离，用符号Ds(pn_k,kw)表示。

其中，idx(pn_k)和idx(kw)分别表示词语pn_k和kw在词序列s_i′中的绝对位置；d＝1或2；m′表示词序列s_i′中所包含词语的个数。

步骤2.5.3对每条记录s_i，选取使得语义距离最小的词语pn_k对应的经、纬度坐标作为社会信号数据库中记录s_i的空间特征f_i，f_i＝(Lat_i,Lng_i)，Lat_i和Lng_i分别表示使得语义距离最小的词语pn_k对应的经、纬度坐标。

步骤2.6：抽取每条记录s_i的时间特征，用符号t_i表示。

所述记录s_i的时间特征为记录s_i在社会信号数据库中对应的时间标签。

步骤2.7抽取每条记录s_i的气象特征,用符号wt_i表示。

所述记录s_i的气象特征为记录s_i在社会信号数据库中对应的检索关键词在灾害性气象关键词词典中所属的分类。

步骤2.8：使用每条记录s_i的空间特征f_i、时间特征t_i和气象特征wt_i构建信号空间数据库。

通过上述步骤，完成对社会信号数据库中的数据的预处理和特征提取。

步骤三、发现与识别灾害性气象事件。

在步骤二的基础上，发现与识别灾害性气象事件。具体操作步骤为：

步骤3.1社会信号聚类。具体步骤如下：

步骤3.1.1确定起始时间和终止时间，分别用符号t_start和t_end表示。

步骤3.1.2确定并构建信号点集(用符号PSet表示)。

根据起始时间t_start和终止时间t_end，选取步骤2.6中得到的信号空间数据库中满足在上述两个时间之间的全部记录。根据记录的空间特征、时间特征和气象特征，将每条记录映射到聚类空间中一个点，用符号(Lat_i,Lng_i,t_i,wt_i)表示。

步骤3.1.3通过公式(3)对待聚类点集PSet中每个点的时间特征t_i做正则化处理，得到正则化处理后的时间特征坐标，用符号表示。

其中，w为压缩参数，b为平移参数,w和b均为实数，由人为设定。

步骤3.1.4用符号P₁和P₂表示待聚类点集PSet中的任意两点，计算待聚类点集PSet中任意两点P₁和P₂之间的距离，用符号Dis_pt(P₁,P₂)表示。

所述计算任意待聚类点集PSet中任意两点之间的距离的方法包括：余弦距离、欧几里得距离和曼哈顿距离。

步骤3.2对待聚类点集PSet中的点根据两点之间的距离Dis_pt(P₁，P₂)进行聚类，得到对待聚类点集PSet的一个划分：且满足

所述聚类的方法包括：k均值聚类、密度聚类。

通过上述步骤的操作，得到对社会信号点集PSet的聚类结果。

步骤3.3：将每一个SubPSet_r识别为一个候选灾害性气象事件,并计算每个SubPSet_r中包含的点的数量(用符号N_r表示)和SubPSet_r中任意两点之间最长的距离(用符号LD_r表示)。

步骤3.4：对每一个候选灾害性气象事件SubPSet_r，通过公式(4)计算其热度(用符号H_r表示)。

步骤3.5：取H_i值最高的前N个候选灾害性气象事件作为灾害性气象热点事件进行展示；N为人为设定值，N为正整数。

有意效果

本发明提出的基于社会信号的灾害性气象热点事件识别与已有技术相比较，其优点在于：

(1)本发明方法提出了一种采集灾害性气象相关社会信号的关键词词典自动构建的方法，可以在当前没有公认的气象相关关键词词典的环境下构建面向实际环境的关键词词典。

(2)本发明方法通过针对互联网中社会信号的处理，从“公众最关心”的角度发现识别气象事件，从而实现了基于社会的公众热点和基于自然的气象观测与预报之间的统一，从而有助于改良对灾害性气象预报预警的侧重程度。

(3)本发明方法针对气象领域的特征进行了提取和聚类，从而相较于传统的通用事件发现方法提高了事件识别的准确率，最终实现了较为精准的基于社会信号的灾害性气象事件发现与识别。

附图说明

图1为本发明具体实施方式中基于社会信号的灾害性气象热点事件识别方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明提供的基于社会信号的灾害性气象热点事件识别方法作详细地说明。

本发实施例中的基于社会信号的灾害性气象热点事件识别方法，其操作流程如图1所示，具体实现步骤为：

步骤一、构建灾害性气象关键词典。

表2 GB/T 27962-2011中规定的灾害性气象分类及预警级别

分类	预警级别
		台风	蓝、黄、橙、红
暴雨	蓝、黄、橙、红
		暴雪	蓝、黄、橙、红
寒潮	蓝、黄、橙、红
		大风	蓝、黄、橙、红
沙尘暴	黄、橙、红
		高温	黄、橙、红
干旱	橙、红
		雷电	黄、橙、红
雹	橙、红
		霜冻	蓝、黄、橙
大雾	黄、橙、红
		霾	黄、橙
道路结冰	黄、橙、红

步骤1.3：确定训练语料库ArticleSet。本实施例中，选取中国天气网、新华网、人民网、网易新闻、凤凰新闻中涉及天气、气象的新闻和新浪微博中涉及天气的微博构成训练语料库ArticleSet，共计含有文本数130,000条。

然后，对训练语料库ArticleSet，使用开源工具结巴分词对ArticleSet中的所有文本进行分词处理，得到分词后的语料库ArticleSet_S。

步骤1.4：使用Word2vec方法对分词语料库ArticleSet_S中的词语进行空间坐标化，得到词语与空间坐标一一对应的词语向量化模型。所述词语向量化模型的作用是：向词语向量化模型输入一个词语就能得到与之对应的向量值。具体为：

选取Word2vec模型的空间维数为200，滑动窗口大小为5，训练过程中的每批次大小为50条，训练总轮数为10轮。经过训练操作，得到词语与空间坐标一一对应的词语向量化模型。训练完成后得到的坐标空间包含130,000条向量。

通过上述步骤得到灾害性天气词语向量化模型。

步骤1.5.3：遍历灾害性气象关键词扩展词集KeywordDict中的每一个词，用符号kw_p表示；依次计算词语kw_p分别与分词语料库ArticleSet_S中除kw_p以外的任意一个词语kw_p之间的坐标距离Dis(kw_p,kw_j)。然后选取坐标距离Dis(kw_p,kw_j)中最小的前n个词语作为灾害性气象扩展关键词，n＝5，填充入灾害性气象关键词扩展词集KeywordDict中。

本实施例中，计算分词语料库ArticleSet_S中任意两个词语向量之间的坐标距离Dis(kw_p,kw_j)的方法为余弦距离。

步骤1.5.4：将步骤1.5.1至步骤1.5.3重复m次，m＝3，得到灾害性气象关键词扩展词集KeywordDict，如表2所示。

表2灾害性气象关键词词典

在本实施例中，动态社会信号的来源分为新闻、微博和微信公众号，爬虫程序动态采集网络中含有所述检索关键词的新闻和微博文本，构建社会信号数据库，并存入Oracle(版本11g)数据库中。

在本实施例中,对社会信号数据库中的数据进行反向过滤。采用词典过滤的方式，反向过滤词典的结构和内容如表3所示。当某一社会信号的完整文本中同时出现了反向过滤词典中某一条词组，则该社会信号被删除。

表3反向过滤词典

步骤2.2：用符号s_i表示社会信号数据库中的任意一条记录，其中，i∈[1,m],m＝95,641。

本实施例中，选择中国大陆地区的全部的直辖市、副省级市、地级市，与香港、澳门和台湾省的9市11县的名称构建地名词库PN。

步骤2.4对社会信号数据库中的每一条记录s_i进行分词，形成词序列，用符号s_i′表示。s_i′＝w_i1w_i2...w_iq；其中w_i1,w_i2…w_iq分别表示词序列s_i′中的q个词，q为正整数。本实施例中，选择经过扩充的结巴分词工具作为分词手段。

例如，选取中国天气网中的一段新闻语料经分词后节选如下：s_i′＝“…大风/唿啸/下/，/今天/北京/气温/降/幅/较/大/，/最高/气温/将/重新/跌/至/冰点/以下/。/北京市气象台/预计/，/今天/白天/晴/，/北风/四五/级/(/阵风/七/级/左右/)/转/二/三级/，/最高/气温/-1℃/；/夜间/晴/，/北风/二级/左右/，/最低/气温/-9℃/。/白天/风力/大/，/风寒/效应/明显/，/公众/出行/请/注意/防风/防寒/，/傍晚/风力/将/逐渐/减/小/。/”。

其中，idx(pn_k)和idx(kw)分别表示词语pn_k和kw在词序列s_i′中的绝对位置；d＝2；m′表示词序列s_i′中所包含词语的个数。

以步骤2.4中的文本为例，kw为“大风”，pn_k为“北京”，通过公式(1)计算得到Ds(pn_k,kw)＝5/82。

由于没有其它地名的出现，因此地名“北京”与检索关键词“大风”的距离最近，故记录s_i的空间特征f_i＝“北京”。

步骤2.6：抽取每条记录s_i的时间特征，用符号t_i表示。

步骤2.7抽取每条记录s_i的气象特征,用符号wt_i表示。

所述记录s_i的气象特征为记录s_i在社会信号数据库中对应的检索关键词在灾害性气象关键词词典中所属的分类。在本实施例中，以s_v为例，记录s_i的气象特征wt_i为“大风”。

步骤三、发现与识别灾害性气象事件。

步骤3.1社会信号聚类。具体步骤如下：

本实施例中，以2017年8月25日到2017年8月30日间采集到的社会信号为例，对上述时间段内的社会信号进行统计，得到13,486个具备全部维度的点组成PSet。

步骤3.1.2确定并构建信号点集(用符号PSet表示)。

本实施例中，选取w＝0.00002,b＝-1,500,000,000,并更新PSet。

步骤3.1.4用符号P₁和P₂表示待聚类点集PSet中的任意两点，计算待聚类点集PSet中任意两点P₁和P₂之间的距离，用符号Dis_pt(P₁，P₂)表示。

本实施例中，选取欧几里得距离作为任意两点之间距离的计算方法。

步骤3.2：对待聚类点集PSet中的点根据两点之间的距离Dis_pt(P₁，P₂)进行聚类，得到对待聚类点集PSet的一个划分：且满足

本实施例中采用密度聚类方法,具体操作如下：

步骤3.2.1：输入:PSet(包含13486个点)，选取半径为0.442,最少类数目为2；

步骤3.2.2：重复步骤a至步骤c，直至所有的点都被处理。

步骤a：从PSet中抽出一个未处理的点；

步骤b：如果抽出的点是核心点则找出所有从该点密度可达的对象，形成一个簇；

步骤c：如果抽出的点是边缘点，则跳出本次循环，寻找下一个点；

通过上述步骤的操作，得到对社会信号点集PSet的聚类结果。

在本实施例中，各类与其自身的描述、N_i以及LD_i如表4所示。

表4灾害性气象聚类结果

步骤3.5：取H_r值最高的前N个候选灾害性气象事件作为灾害性气象热点事件进行展示；N为人为设定值，N为正整数。

在本实施例中，N取值为8。H_r值最高的前N个候选灾害性气象事件如表5所示的第2行至第9行所示，第10行为其它事件对应的H_r值。

表5计算热度排名

排名	类序号	H_r
			1	2	458.766285
2	1	423.6410658
			3	7	318.2450155
4	8	318.2450155
			5	6	163.8949025
6	3	154.9134713
			7	5	114.0972351
8	4	105.79798
			9	9	93.33334047

步骤3.6选择可视化方法或评价指标将步骤3.2.4和步骤3.5的输出结果进行展示或者评价。

为了说明本发明专利方法的有效性，选择准确率评价的方法对本专利提出的方法进行评价。本实施例中，首先由人工在对社会信号点集PSet中随机选择出100个点，并两两标记它们是否属于同一类，形成一个100×100的稀疏矩阵A(属于同一类则对应为1，否则为零)；对于聚类结果，考察每一类下被聚类的点，形成一个100×100预测矩阵A^*，那么通过公式(8)可计算本次聚类的准确率，用符号ACC表示。

在本实施例中，最终的ACC得分为82.44％。说明有82.44％的社会信号被正确地发现为相应的气象事件，由此证明本发明方法的有效性。

上述描述对本发明的特征和方法进行了具体的说明，但应了解，在所述权利要求中定义的本发明并不局限于所述的具体特征或方法。本领域人员可在权利要求的范围内做出修改，并不影响本发明的实质内容。

Claims

1.一种基于聚类特征模型的灾害性气象热点事件识别方法，其特征在于：其具体操作步骤为：

步骤一、构建灾害性气象关键词典；

步骤1.1：从网络系统中获取包含气象信息的新闻和微博文本，构成训练语料库，用符号ArticleSet表示；

步骤1.2：选取国家标准《GB/T 27962-2011气象灾害预警信号图标》规定的14种气象灾害名称，作为灾害性气象关键词基础词集，用符号KeywordDict_init表示；KeywordDict_init＝{台风，暴雨，暴雪，寒潮，大风，沙尘暴，高温，干旱，雷电，雹，霜冻，大雾，霾，道路结冰}；

表1 GB/T 27962-2011中规定的灾害性气象分类及预警级别

分类预警级别台风蓝、黄、橙、红暴雨蓝、黄、橙、红暴雪蓝、黄、橙、红寒潮蓝、黄、橙、红大风蓝、黄、橙、红沙尘暴黄、橙、红高温黄、橙、红干旱橙、红雷电黄、橙、红雹橙、红霜冻蓝、黄、橙大雾黄、橙、红霾黄、橙道路结冰黄、橙、红

步骤1.3：确定训练语料库，用符号ArticleSet表示；并对训练语料库ArticleSet进行分词处理，得到分词语料库，用符号ArticleSet_S表示；

步骤1.4：使用Word2vec方法对分词语料库ArticleSet_S中的词语进行空间坐标化，得到词语与空间坐标一一对应的词语向量化模型；所述词语向量化模型的作用是：向词语向量化模型输入一个词语就能得到与之对应的向量值；

步骤1.5：构建灾害性气象关键词扩展词集，用符号KeywordDict表示；具体操作为：

步骤1.5.1：使用步骤1.4得到的词语向量化模型得到分词语料库ArticleSet_S中所有词语对应的词语向量；

步骤1.5.2：设置灾害性气象关键词扩展词集KeywordDict的初始值与灾害性气象关键词基础词集KeywordDict_init相同；

步骤1.5.3：遍历灾害性气象关键词扩展词集KeywordDict中的每一个词，用符号kw_p表示；依次计算词语kw_p分别与分词语料库ArticleSet_S中除kw_p以外的任意一个词语kw_p之间的坐标距离Dis(kw_p,kw_j)，其中p,j为正整数，且p≠j；然后选取坐标距离Dis(kw_p,kw_j)中最小的前n个词语作为灾害性气象扩展关键词，填充入灾害性气象关键词扩展词集KeywordDict中,n为人为设定值，n为正整数；

步骤1.5.4：将步骤1.5.1至步骤1.5.3重复m次，得到灾害性气象关键词扩展词集KeywordDict；m为人为设定值，m为正整数；

经过上述步骤的操作，得到灾害性气象关键词扩展词集KeywordDict；

步骤1.6采集动态社会信号；具体为：依次使用步骤1.5得到的灾害性气象关键词扩展词集KeywordDict作为检索关键词，使用爬虫程序按照预先设定的时间间隔，动态采集网络中含有所述检索关键词的新闻和微博文本，构建社会信号数据库；所述社会信号数据库包括检索关键词、新闻和微博文本、时间标签；

步骤2.1：对社会信号数据库中的数据进行正向或反向过滤，得到清洗后的社会信号数据库；

步骤2.2：用符号s_i表示社会信号数据库中的任意一条记录，其中，i∈[1,m],其中m表示社会信号数据库中的总记录数；

步骤2.3根据目标区域的地理行政划分，构建地名词库PN；使用符号pn_K表示地名词库PN中的任意一地理名词；

所述地名坐标库包括：目标区域内的地理名称以及各地理名称所对应的经度和纬度；用符号Lat_K表示地理名词pn_K对应的纬度，Lng_K为地理名词pn_k对应的经度；

步骤2.4对社会信号数据库中的每一条记录s_i进行分词，形成词序列，用符号s′_i表示；s′_i＝w_i1 w_i2...w_iq；其中w_i1,w_i2…w_iq分别表示词序列s′_i中的q个词，q为正整数；

步骤2.5抽取社会信号数据库中的每一条记录s_i的空间特征，用符号f_i表示；具体步骤如下：

步骤2.5.1：对每一条记录s_i对应的词序列s′_i，使用地名词库PN提取其包含的所有地名；用符号pn_k表示使用地名词库PN在序列s′_i中提取出来的任一地理名词；

步骤2.5.2使用公式(1)计算在社会信号数据库中记录s_i对应的检索关键词kw与步骤2.5.1得到的所有地名在词序列s′_i上的语义距离，用符号Ds(pn_k,kw)表示；

其中，idx(pn_k)和idx(kw)分别表示词语pn_k和kw在词序列s′_i中的绝对位置；d＝1或2；m′表示词序列s′_i中所包含词语的个数；

步骤2.5.3对每条记录s_i，选取使得语义距离最小的词语pn_k对应的经、纬度坐标作为社会信号数据库中记录s_i的空间特征f_i，f_i＝(Lat_i,Lng_i)，Lat_i和Lng_i分别表示使得语义距离最小的词语pn_k对应的经、纬度坐标；

步骤2.6：抽取每条记录s_i的时间特征，用符号t_i表示；

所述记录s_i的时间特征为记录s_i在社会信号数据库中对应的时间标签；

步骤2.7抽取每条记录s_i的气象特征,用符号wt_i表示；

所述记录s_i的气象特征为记录s_i在社会信号数据库中对应的检索关键词在灾害性气象关键词词典中所属的分类；

步骤2.8：使用每条记录s_i的空间特征f_i、时间特征t_i和气象特征wt_i构建信号空间数据库；

通过上述步骤，完成对社会信号数据库中的数据的预处理和特征提取；

步骤三、发现与识别灾害性气象事件；

在步骤二的基础上，发现与识别灾害性气象事件；具体操作步骤为：

步骤3.1社会信号聚类；具体步骤如下：

步骤3.1.1确定起始时间和终止时间，分别用符号t_start和t_end表示；

步骤3.1.2确定并构建信号点集，用符号PSet表示；

根据起始时间t_start和终止时间t_end，选取步骤2.6中得到的信号空间数据库中满足在上述两个时间之间的全部记录；根据记录的空间特征、时间特征和气象特征，将每条记录映射到聚类空间中一个点，用符号(Lat_i,Lng_i,t_i,wt_i)表示；

步骤3.1.3通过公式(3)对待聚类点集PSet中每个点的时间特征t_i做正则化处理，得到正则化处理后的时间特征坐标，用符号表示；

其中，w为压缩参数，b为平移参数,w和b均为实数，由人为设定；

步骤3.1.4用符号P₁和P₂表示待聚类点集PSet中的任意两点，计算待聚类点集PSet中任意两点P₁和P₂之间的距离，用符号Dis_pt(P₁,P₂)表示；

通过上述步骤的操作，得到对社会信号点集PSet的聚类结果；

步骤3.3：将每一个SubPSet_r识别为一个候选灾害性气象事件,并计算每个SubPSet_r中包含的点的数量N_r和SubPSet_r中任意两点之间最长的距离LD_r；

步骤3.4：对每一个候选灾害性气象事件SubPSet_r，通过公式(4)计算其热度，用符号H_r表示。

2.如权利要求1所述的一种基于聚类特征模型的灾害性气象热点事件识别方法，其特征在于：步骤1.5.3中所述计算分词语料库ArticleSet_S中任意两个词语向量之间的坐标距离Dis(kw_p,kw_j)的方法包括：余弦距离、欧几里得距离、曼哈顿距离。

3.如权利要求1或2所述的一种基于聚类特征模型的灾害性气象热点事件识别方法，其特征在于：步骤3.1.4中所述计算任意待聚类点集PSet中任意两点之间的距离的方法包括：余弦距离、欧几里得距离和曼哈顿距离。

4.如权利要求1或2所述的一种基于聚类特征模型的灾害性气象热点事件识别方法，其特征在于：步骤3.2中所述对待聚类点集PSet中的点根据两点之间的距离Dis_pt(P₁，P₂)进行聚类的方法包括：k均值聚类、密度聚类。