CN108595582A - 一种基于社会信号的灾害性气象热点事件识别方法 - Google Patents
一种基于社会信号的灾害性气象热点事件识别方法 Download PDFInfo
- Publication number
- CN108595582A CN108595582A CN201810345881.9A CN201810345881A CN108595582A CN 108595582 A CN108595582 A CN 108595582A CN 201810345881 A CN201810345881 A CN 201810345881A CN 108595582 A CN108595582 A CN 108595582A
- Authority
- CN
- China
- Prior art keywords
- word
- meteorological
- disastrous
- symbol
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的是提出一种基于聚类特征模型的灾害性气象热点事件识别方法。具体步骤为:步骤一、构建灾害性气象关键词典。步骤二、对社会信号数据库中的数据进行预处理和特征提取。步骤三、发现与识别灾害性气象事件。本发明提出的基于聚类特征模型的灾害性气象热点事件识别方法与已有技术相比较,其优点在于:①在当前没有公认的气象相关关键词词典的环境下构建面向实际环境的关键词词典。②通过针对互联网中社会信号的处理,从“公众最关心”的角度发现识别气象事件,实现了基于社会的公众热点和基于自然的气象观测与预报之间的统一。③针对气象领域的特征进行了提取和聚类,从而相较于传统的通用事件发现方法提高了事件识别的准确率。
Description
技术领域
本发明属于社会计算领域,涉及一种基于社会信号的灾害性气象热点事件识别方法,具体涉及一种使用计算机通过互联网信息作为数据源,自动分析并识别当前互联网环境中广泛关注并热议的灾害性气象事件的方法。
背景技术
当今社会已成为信息爆炸时代,互联网的迅猛发展,使得中国已经具有6亿多网民群体。社交网络(social network)的出现,为广大网民提供了更加自由和宽广的表现舞台。社交网络的核心价值在于用户之间的信息交换,即用户可以自由地创作内容并发布在一个或多个社交网络站点(social network sites,SNS),并经由它的观众通过转发等方式进行传播。另一方面,尽管传统的气象预报预警技术已经能够实现精确的灾害性气象的预报和预警,但是基于气候和气象学的天气预报预警与社会的实际反映和关注可能存在偏差。以2012年7月下旬北京强降水导致的内涝灾害为例,气象部门已经对强降水引发的潜在风险进行了预报和预警,但是民众对此灾害的发生仍然准备不足。不仅如此,之后在社交网络中(如新浪微博、天涯社区、微信公众号等)对该事件的关注程度也远远超出了强降雨这一气象灾害本身。因此可以发现,公众对于某一灾害性气象的关注度与参与度不仅仅与气象灾害的自身的强度有关。
目前已有相关的科学研究和发明聚焦于社会信号的采集与分析被用于其他某个或者多个领域。然而,这些通用的社会信号采集和分析技术不能有效地针对气象这一领域的某些独有特征进行利用,从而导致了识别效率低下甚至无法识别的问题。不仅如此,当前尚未有公认的针对气象社会信号的采集关键词典,从而使得原始信息的采集更加困难,最终导致后续的处理分析失败。
本发明采取半自动构建灾害性气象相关搜索词典并结合气象事件特征模型,提取互联网中的新闻、微博记录,并通过构建记录聚合方法最终实现对社会信号下的灾害性气象事件的发现与识别,该方法有效的解决了互联网中灾害性气象记录由于地理、内容和渠道等因素离散分布从而导致的聚合困难的问题,大幅提高了社会灾害性气象事件发现和识别的准确率。
发明内容
本发明的目的是为解决由于互联网中的灾害性气象相关记录离散分布,采用现有互联网事件发现机制识别时,会产生的准确度过低问题,提出一种基于聚类特征模型的灾害性气象热点事件识别方法。
本发明的目的是通过下述技术方案实现的。
本发明的一种基于聚类特征模型的灾害性气象热点事件识别方法,其特征在于:其具体实现步骤包括:
步骤一、构建灾害性气象关键词典。
步骤1.1:从网络系统中获取包含气象信息的新闻和微博文本,构成训练语料库,用符号ArticleSet表示。
步骤1.2:选取国家标准《GB/T 27962-2011气象灾害预警信号图标》规定的14种气象灾害名称,作为灾害性气象关键词基础词集,用符号KeywordDict_init表示。KeywordDict_init={台风,暴雨,暴雪,寒潮,大风,沙尘暴,高温,干旱,雷电,雹,霜冻,大雾,霾,道路结冰}。
表1 GB/T 27962-2011中规定的灾害性气象分类及预警级别
步骤1.3:确定训练语料库,用符号ArticleSet表示;并对训练语料库ArticleSet进行分词处理,得到分词语料库,用符号ArticleSet_S表示。
步骤1.4:使用Word2vec方法对分词语料库ArticleSet_S中的词语进行空间坐标化,得到词语与空间坐标一一对应的词语向量化模型。所述词语向量化模型的作用是:向词语向量化模型输入一个词语就能得到与之对应的向量值。
步骤1.5:构建灾害性气象关键词扩展词集,用符号KeywordDict表示。具体操作为:
步骤1.5.1:使用步骤1.4得到的词语向量化模型得到分词语料库ArticleSet_S中所有词语对应的词语向量。
步骤1.5.2:设置灾害性气象关键词扩展词集KeywordDict的初始值与灾害性气象关键词基础词集KeywordDict_init相同。
步骤1.5.3:遍历灾害性气象关键词扩展词集KeywordDict中的每一个词,用符号kwp表示;依次计算词语kwp分别与分词语料库ArticleSet_S中除kwp以外的任意一个词语(用符号kwp表示)之间的坐标距离(用符号Dis(kwp,kwj)表示),其中p,j为正整数,且p≠j。然后选取坐标距离Dis(kwp,kwj)中最小的前n个词语作为灾害性气象扩展关键词,填充入灾害性气象关键词扩展词集KeywordDict中,n为人为设定值,n为正整数。
所述计算分词语料库ArticleSet_S中任意两个词语向量之间的坐标距离Dis(kwp,kwj)的方法包括:余弦距离、欧几里得距离、曼哈顿距离。
步骤1.5.4:将步骤1.5.1至步骤1.5.3重复m次,得到灾害性气象关键词扩展词集KeywordDict;m为人为设定值,m为正整数。
经过上述步骤的操作,得到灾害性气象关键词扩展词集KeywordDict。
步骤1.6采集动态社会信号。具体为:依次使用步骤1.5得到的灾害性气象关键词扩展词集KeywordDict作为检索关键词,使用爬虫程序按照预先设定的时间间隔,动态采集网络中含有所述检索关键词的新闻和微博文本,构建社会信号数据库。所述社会信号数据库包括检索关键词、新闻和微博文本、时间标签。
步骤二、对社会信号数据库中的数据进行预处理和特征提取;具体操作为:
步骤2.1:对社会信号数据库中的数据进行正向或反向过滤,得到清洗后的社会信号数据库。
步骤2.2:用符号si表示社会信号数据库中的任意一条记录,其中,i∈[1,m],其中m表示社会信号数据库中的总记录数。
步骤2.3根据目标区域的地理行政划分,构建地名词库PN。使用符号pnK表示地名词库PN中的任意一地理名词。
所述地名坐标库包括:目标区域内的地理名称以及各地理名称所对应的经度和纬度。用符号LatK表示地理名词pnK对应的纬度,LngK为地理名词pnK对应的经度。
步骤2.4对社会信号数据库中的每一条记录si进行分词,形成词序列,用符号si′表示。si′=wi1wi2...wiq;其中wi1,wi2…wiq分别表示词序列si′中的q个词,q为正整数。
步骤2.5抽取社会信号数据库中的每一条记录si的空间特征(用符号fi表示);具体步骤如下:
步骤2.5.1:对每一条记录si对应的词序列si′,使用地名词库PN提取其包含的所有地名。用符号pnk表示使用地名词库PN在序列si′中提取出来的任一地理名词。
步骤2.5.2使用公式(1)计算在社会信号数据库中记录si对应的检索关键词(用符号kw表示)与步骤2.5.1得到的所有地名在词序列si′上的语义距离,用符号Ds(pnk,kw)表示。
其中,idx(pnk)和idx(kw)分别表示词语pnk和kw在词序列si′中的绝对位置;d=1或2;m′表示词序列si′中所包含词语的个数。
步骤2.5.3对每条记录si,选取使得语义距离最小的词语pnk对应的经、纬度坐标作为社会信号数据库中记录si的空间特征fi,fi=(Lati,Lngi),Lati和Lngi分别表示使得语义距离最小的词语pnk对应的经、纬度坐标。
步骤2.6:抽取每条记录si的时间特征,用符号ti表示。
所述记录si的时间特征为记录si在社会信号数据库中对应的时间标签。
步骤2.7抽取每条记录si的气象特征,用符号wti表示。
所述记录si的气象特征为记录si在社会信号数据库中对应的检索关键词在灾害性气象关键词词典中所属的分类。
步骤2.8:使用每条记录si的空间特征fi、时间特征ti和气象特征wti构建信号空间数据库。
通过上述步骤,完成对社会信号数据库中的数据的预处理和特征提取。
步骤三、发现与识别灾害性气象事件。
在步骤二的基础上,发现与识别灾害性气象事件。具体操作步骤为:
步骤3.1社会信号聚类。具体步骤如下:
步骤3.1.1确定起始时间和终止时间,分别用符号tstart和tend表示。
步骤3.1.2确定并构建信号点集(用符号PSet表示)。
根据起始时间tstart和终止时间tend,选取步骤2.6中得到的信号空间数据库中满足在上述两个时间之间的全部记录。根据记录的空间特征、时间特征和气象特征,将每条记录映射到聚类空间中一个点,用符号(Lati,Lngi,ti,wti)表示。
步骤3.1.3通过公式(3)对待聚类点集PSet中每个点的时间特征ti做正则化处理,得到正则化处理后的时间特征坐标,用符号表示。
其中,w为压缩参数,b为平移参数,w和b均为实数,由人为设定。
步骤3.1.4用符号P1和P2表示待聚类点集PSet中的任意两点,计算待聚类点集PSet中任意两点P1和P2之间的距离,用符号Dis_pt(P1,P2)表示。
所述计算任意待聚类点集PSet中任意两点之间的距离的方法包括:余弦距离、欧几里得距离和曼哈顿距离。
步骤3.2对待聚类点集PSet中的点根据两点之间的距离Dis_pt(P1,P2)进行聚类,得到对待聚类点集PSet的一个划分: 且满足
所述聚类的方法包括:k均值聚类、密度聚类。
通过上述步骤的操作,得到对社会信号点集PSet的聚类结果。
步骤3.3:将每一个SubPSetr识别为一个候选灾害性气象事件,并计算每个SubPSetr中包含的点的数量(用符号Nr表示)和SubPSetr中任意两点之间最长的距离(用符号LDr表示)。
步骤3.4:对每一个候选灾害性气象事件SubPSetr,通过公式(4)计算其热度(用符号Hr表示)。
步骤3.5:取Hi值最高的前N个候选灾害性气象事件作为灾害性气象热点事件进行展示;N为人为设定值,N为正整数。
有意效果
本发明提出的基于社会信号的灾害性气象热点事件识别与已有技术相比较,其优点在于:
(1)本发明方法提出了一种采集灾害性气象相关社会信号的关键词词典自动构建的方法,可以在当前没有公认的气象相关关键词词典的环境下构建面向实际环境的关键词词典。
(2)本发明方法通过针对互联网中社会信号的处理,从“公众最关心”的角度发现识别气象事件,从而实现了基于社会的公众热点和基于自然的气象观测与预报之间的统一,从而有助于改良对灾害性气象预报预警的侧重程度。
(3)本发明方法针对气象领域的特征进行了提取和聚类,从而相较于传统的通用事件发现方法提高了事件识别的准确率,最终实现了较为精准的基于社会信号的灾害性气象事件发现与识别。
附图说明
图1为本发明具体实施方式中基于社会信号的灾害性气象热点事件识别方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明提供的基于社会信号的灾害性气象热点事件识别方法作详细地说明。
本发实施例中的基于社会信号的灾害性气象热点事件识别方法,其操作流程如图1所示,具体实现步骤为:
步骤一、构建灾害性气象关键词典。
步骤1.1:从网络系统中获取包含气象信息的新闻和微博文本,构成训练语料库,用符号ArticleSet表示。
步骤1.2:选取国家标准《GB/T 27962-2011气象灾害预警信号图标》规定的14种气象灾害名称,作为灾害性气象关键词基础词集,用符号KeywordDict_init表示。KeywordDict_init={台风,暴雨,暴雪,寒潮,大风,沙尘暴,高温,干旱,雷电,雹,霜冻,大雾,霾,道路结冰}。
表2 GB/T 27962-2011中规定的灾害性气象分类及预警级别
分类 | 预警级别 |
台风 | 蓝、黄、橙、红 |
暴雨 | 蓝、黄、橙、红 |
暴雪 | 蓝、黄、橙、红 |
寒潮 | 蓝、黄、橙、红 |
大风 | 蓝、黄、橙、红 |
沙尘暴 | 黄、橙、红 |
高温 | 黄、橙、红 |
干旱 | 橙、红 |
雷电 | 黄、橙、红 |
雹 | 橙、红 |
霜冻 | 蓝、黄、橙 |
大雾 | 黄、橙、红 |
霾 | 黄、橙 |
道路结冰 | 黄、橙、红 |
步骤1.3:确定训练语料库ArticleSet。本实施例中,选取中国天气网、新华网、人民网、网易新闻、凤凰新闻中涉及天气、气象的新闻和新浪微博中涉及天气的微博构成训练语料库ArticleSet,共计含有文本数130,000条。
然后,对训练语料库ArticleSet,使用开源工具结巴分词对ArticleSet中的所有文本进行分词处理,得到分词后的语料库ArticleSet_S。
步骤1.4:使用Word2vec方法对分词语料库ArticleSet_S中的词语进行空间坐标化,得到词语与空间坐标一一对应的词语向量化模型。所述词语向量化模型的作用是:向词语向量化模型输入一个词语就能得到与之对应的向量值。具体为:
选取Word2vec模型的空间维数为200,滑动窗口大小为5,训练过程中的每批次大小为50条,训练总轮数为10轮。经过训练操作,得到词语与空间坐标一一对应的词语向量化模型。训练完成后得到的坐标空间包含130,000条向量。
通过上述步骤得到灾害性天气词语向量化模型。
步骤1.5:构建灾害性气象关键词扩展词集,用符号KeywordDict表示。具体操作为:
步骤1.5.1:使用步骤1.4得到的词语向量化模型得到分词语料库ArticleSet_S中所有词语对应的词语向量。
步骤1.5.2:设置灾害性气象关键词扩展词集KeywordDict的初始值与灾害性气象关键词基础词集KeywordDict_init相同。
步骤1.5.3:遍历灾害性气象关键词扩展词集KeywordDict中的每一个词,用符号kwp表示;依次计算词语kwp分别与分词语料库ArticleSet_S中除kwp以外的任意一个词语kwp之间的坐标距离Dis(kwp,kwj)。然后选取坐标距离Dis(kwp,kwj)中最小的前n个词语作为灾害性气象扩展关键词,n=5,填充入灾害性气象关键词扩展词集KeywordDict中。
本实施例中,计算分词语料库ArticleSet_S中任意两个词语向量之间的坐标距离Dis(kwp,kwj)的方法为余弦距离。
步骤1.5.4:将步骤1.5.1至步骤1.5.3重复m次,m=3,得到灾害性气象关键词扩展词集KeywordDict,如表2所示。
表2灾害性气象关键词词典
步骤1.6采集动态社会信号。具体为:依次使用步骤1.5得到的灾害性气象关键词扩展词集KeywordDict作为检索关键词,使用爬虫程序按照预先设定的时间间隔,动态采集网络中含有所述检索关键词的新闻和微博文本,构建社会信号数据库。所述社会信号数据库包括检索关键词、新闻和微博文本、时间标签。
在本实施例中,动态社会信号的来源分为新闻、微博和微信公众号,爬虫程序动态采集网络中含有所述检索关键词的新闻和微博文本,构建社会信号数据库,并存入Oracle(版本11g)数据库中。
步骤二、对社会信号数据库中的数据进行预处理和特征提取;具体操作为:
步骤2.1:对社会信号数据库中的数据进行正向或反向过滤,得到清洗后的社会信号数据库。
在本实施例中,对社会信号数据库中的数据进行反向过滤。采用词典过滤的方式,反向过滤词典的结构和内容如表3所示。当某一社会信号的完整文本中同时出现了反向过滤词典中某一条词组,则该社会信号被删除。
表3反向过滤词典
步骤2.2:用符号si表示社会信号数据库中的任意一条记录,其中,i∈[1,m],m=95,641。
步骤2.3根据目标区域的地理行政划分,构建地名词库PN。使用符号pnK表示地名词库PN中的任意一地理名词。
所述地名坐标库包括:目标区域内的地理名称以及各地理名称所对应的经度和纬度。用符号LatK表示地理名词pnK对应的纬度,LngK为地理名词pnk对应的经度。
本实施例中,选择中国大陆地区的全部的直辖市、副省级市、地级市,与香港、澳门和台湾省的9市11县的名称构建地名词库PN。
步骤2.4对社会信号数据库中的每一条记录si进行分词,形成词序列,用符号si′表示。si′=wi1wi2...wiq;其中wi1,wi2…wiq分别表示词序列si′中的q个词,q为正整数。本实施例中,选择经过扩充的结巴分词工具作为分词手段。
例如,选取中国天气网中的一段新闻语料经分词后节选如下:si′=“…大风/唿啸/下/,/今天/北京/气温/降/幅/较/大/,/最高/气温/将/重新/跌/至/冰点/以下/。/北京市气象台/预计/,/今天/白天/晴/,/北风/四五/级/(/阵风/七/级/左右/)/转/二/三级/,/最高/气温/-1℃/;/夜间/晴/,/北风/二级/左右/,/最低/气温/-9℃/。/白天/风力/大/,/风寒/效应/明显/,/公众/出行/请/注意/防风/防寒/,/傍晚/风力/将/逐渐/减/小/。/”。
步骤2.5抽取社会信号数据库中的每一条记录si的空间特征(用符号fi表示);具体步骤如下:
步骤2.5.1:对每一条记录si对应的词序列si′,使用地名词库PN提取其包含的所有地名。用符号pnk表示使用地名词库PN在序列si′中提取出来的任一地理名词。
步骤2.5.2使用公式(1)计算在社会信号数据库中记录si对应的检索关键词(用符号kw表示)与步骤2.5.1得到的所有地名在词序列si′上的语义距离,用符号Ds(pnk,kw)表示。
其中,idx(pnk)和idx(kw)分别表示词语pnk和kw在词序列si′中的绝对位置;d=2;m′表示词序列si′中所包含词语的个数。
以步骤2.4中的文本为例,kw为“大风”,pnk为“北京”,通过公式(1)计算得到Ds(pnk,kw)=5/82。
步骤2.5.3对每条记录si,选取使得语义距离最小的词语pnk对应的经、纬度坐标作为社会信号数据库中记录si的空间特征fi,fi=(Lati,Lngi),Lati和Lngi分别表示使得语义距离最小的词语pnk对应的经、纬度坐标。
由于没有其它地名的出现,因此地名“北京”与检索关键词“大风”的距离最近,故记录si的空间特征fi=“北京”。
步骤2.6:抽取每条记录si的时间特征,用符号ti表示。
所述记录si的时间特征为记录si在社会信号数据库中对应的时间标签。
步骤2.7抽取每条记录si的气象特征,用符号wti表示。
所述记录si的气象特征为记录si在社会信号数据库中对应的检索关键词在灾害性气象关键词词典中所属的分类。在本实施例中,以sv为例,记录si的气象特征wti为“大风”。
步骤2.8:使用每条记录si的空间特征fi、时间特征ti和气象特征wti构建信号空间数据库。
通过上述步骤,完成对社会信号数据库中的数据的预处理和特征提取。
步骤三、发现与识别灾害性气象事件。
在步骤二的基础上,发现与识别灾害性气象事件。具体操作步骤为:
步骤3.1社会信号聚类。具体步骤如下:
步骤3.1.1确定起始时间和终止时间,分别用符号tstart和tend表示。
本实施例中,以2017年8月25日到2017年8月30日间采集到的社会信号为例,对上述时间段内的社会信号进行统计,得到13,486个具备全部维度的点组成PSet。
步骤3.1.2确定并构建信号点集(用符号PSet表示)。
根据起始时间tstart和终止时间tend,选取步骤2.6中得到的信号空间数据库中满足在上述两个时间之间的全部记录。根据记录的空间特征、时间特征和气象特征,将每条记录映射到聚类空间中一个点,用符号(Lati,Lngi,ti,wti)表示。
步骤3.1.3通过公式(3)对待聚类点集PSet中每个点的时间特征ti做正则化处理,得到正则化处理后的时间特征坐标,用符号表示。
其中,w为压缩参数,b为平移参数,w和b均为实数,由人为设定。
本实施例中,选取w=0.00002,b=-1,500,000,000,并更新PSet。
步骤3.1.4用符号P1和P2表示待聚类点集PSet中的任意两点,计算待聚类点集PSet中任意两点P1和P2之间的距离,用符号Dis_pt(P1,P2)表示。
所述计算任意待聚类点集PSet中任意两点之间的距离的方法包括:余弦距离、欧几里得距离和曼哈顿距离。
本实施例中,选取欧几里得距离作为任意两点之间距离的计算方法。
步骤3.2:对待聚类点集PSet中的点根据两点之间的距离Dis_pt(P1,P2)进行聚类,得到对待聚类点集PSet的一个划分: 且满足
本实施例中采用密度聚类方法,具体操作如下:
步骤3.2.1:输入:PSet(包含13486个点),选取半径为0.442,最少类数目为2;
步骤3.2.2:重复步骤a至步骤c,直至所有的点都被处理。
步骤a:从PSet中抽出一个未处理的点;
步骤b:如果抽出的点是核心点则找出所有从该点密度可达的对象,形成一个簇;
步骤c:如果抽出的点是边缘点,则跳出本次循环,寻找下一个点;
通过上述步骤的操作,得到对社会信号点集PSet的聚类结果。
步骤3.3:将每一个SubPSetr识别为一个候选灾害性气象事件,并计算每个SubPSetr中包含的点的数量(用符号Nr表示)和SubPSetr中任意两点之间最长的距离(用符号LDr表示)。
在本实施例中,各类与其自身的描述、Ni以及LDi如表4所示。
表4灾害性气象聚类结果
步骤3.4:对每一个候选灾害性气象事件SubPSetr,通过公式(4)计算其热度(用符号Hr表示)。
步骤3.5:取Hr值最高的前N个候选灾害性气象事件作为灾害性气象热点事件进行展示;N为人为设定值,N为正整数。
在本实施例中,N取值为8。Hr值最高的前N个候选灾害性气象事件如表5所示的第2行至第9行所示,第10行为其它事件对应的Hr值。
表5计算热度排名
排名 | 类序号 | Hr |
1 | 2 | 458.766285 |
2 | 1 | 423.6410658 |
3 | 7 | 318.2450155 |
4 | 8 | 318.2450155 |
5 | 6 | 163.8949025 |
6 | 3 | 154.9134713 |
7 | 5 | 114.0972351 |
8 | 4 | 105.79798 |
9 | 9 | 93.33334047 |
步骤3.6选择可视化方法或评价指标将步骤3.2.4和步骤3.5的输出结果进行展示或者评价。
为了说明本发明专利方法的有效性,选择准确率评价的方法对本专利提出的方法进行评价。本实施例中,首先由人工在对社会信号点集PSet中随机选择出100个点,并两两标记它们是否属于同一类,形成一个100×100的稀疏矩阵A(属于同一类则对应为1,否则为零);对于聚类结果,考察每一类下被聚类的点,形成一个100×100预测矩阵A*,那么通过公式(8)可计算本次聚类的准确率,用符号ACC表示。
在本实施例中,最终的ACC得分为82.44%。说明有82.44%的社会信号被正确地发现为相应的气象事件,由此证明本发明方法的有效性。
上述描述对本发明的特征和方法进行了具体的说明,但应了解,在所述权利要求中定义的本发明并不局限于所述的具体特征或方法。本领域人员可在权利要求的范围内做出修改,并不影响本发明的实质内容。
Claims (4)
1.一种基于聚类特征模型的灾害性气象热点事件识别方法,其特征在于:其具体操作步骤为:
步骤一、构建灾害性气象关键词典;
步骤1.1:从网络系统中获取包含气象信息的新闻和微博文本,构成训练语料库,用符号ArticleSet表示;
步骤1.2:选取国家标准《GB/T 27962-2011气象灾害预警信号图标》规定的14种气象灾害名称,作为灾害性气象关键词基础词集,用符号KeywordDict_init表示;KeywordDict_init={台风,暴雨,暴雪,寒潮,大风,沙尘暴,高温,干旱,雷电,雹,霜冻,大雾,霾,道路结冰};
表1 GB/T 27962-2011中规定的灾害性气象分类及预警级别
步骤1.3:确定训练语料库,用符号ArticleSet表示;并对训练语料库ArticleSet进行分词处理,得到分词语料库,用符号ArticleSet_S表示;
步骤1.4:使用Word2vec方法对分词语料库ArticleSet_S中的词语进行空间坐标化,得到词语与空间坐标一一对应的词语向量化模型;所述词语向量化模型的作用是:向词语向量化模型输入一个词语就能得到与之对应的向量值;
步骤1.5:构建灾害性气象关键词扩展词集,用符号KeywordDict表示;具体操作为:
步骤1.5.1:使用步骤1.4得到的词语向量化模型得到分词语料库ArticleSet_S中所有词语对应的词语向量;
步骤1.5.2:设置灾害性气象关键词扩展词集KeywordDict的初始值与灾害性气象关键词基础词集KeywordDict_init相同;
步骤1.5.3:遍历灾害性气象关键词扩展词集KeywordDict中的每一个词,用符号kwp表示;依次计算词语kwp分别与分词语料库ArticleSet_S中除kwp以外的任意一个词语kwp之间的坐标距离Dis(kwp,kwj),其中p,j为正整数,且p≠j;然后选取坐标距离Dis(kwp,kwj)中最小的前n个词语作为灾害性气象扩展关键词,填充入灾害性气象关键词扩展词集KeywordDict中,n为人为设定值,n为正整数;
步骤1.5.4:将步骤1.5.1至步骤1.5.3重复m次,得到灾害性气象关键词扩展词集KeywordDict;m为人为设定值,m为正整数;
经过上述步骤的操作,得到灾害性气象关键词扩展词集KeywordDict;
步骤1.6采集动态社会信号;具体为:依次使用步骤1.5得到的灾害性气象关键词扩展词集KeywordDict作为检索关键词,使用爬虫程序按照预先设定的时间间隔,动态采集网络中含有所述检索关键词的新闻和微博文本,构建社会信号数据库;所述社会信号数据库包括检索关键词、新闻和微博文本、时间标签;
步骤二、对社会信号数据库中的数据进行预处理和特征提取;具体操作为:
步骤2.1:对社会信号数据库中的数据进行正向或反向过滤,得到清洗后的社会信号数据库;
步骤2.2:用符号si表示社会信号数据库中的任意一条记录,其中,i∈[1,m],其中m表示社会信号数据库中的总记录数;
步骤2.3根据目标区域的地理行政划分,构建地名词库PN;使用符号pnK表示地名词库PN中的任意一地理名词;
所述地名坐标库包括:目标区域内的地理名称以及各地理名称所对应的经度和纬度;用符号LatK表示地理名词pnK对应的纬度,LngK为地理名词pnk对应的经度;
步骤2.4对社会信号数据库中的每一条记录si进行分词,形成词序列,用符号s′i表示;s′i=wi1 wi2...wiq;其中wi1,wi2…wiq分别表示词序列s′i中的q个词,q为正整数;
步骤2.5抽取社会信号数据库中的每一条记录si的空间特征,用符号fi表示;具体步骤如下:
步骤2.5.1:对每一条记录si对应的词序列s′i,使用地名词库PN提取其包含的所有地名;用符号pnk表示使用地名词库PN在序列s′i中提取出来的任一地理名词;
步骤2.5.2使用公式(1)计算在社会信号数据库中记录si对应的检索关键词kw与步骤2.5.1得到的所有地名在词序列s′i上的语义距离,用符号Ds(pnk,kw)表示;
其中,idx(pnk)和idx(kw)分别表示词语pnk和kw在词序列s′i中的绝对位置;d=1或2;m′表示词序列s′i中所包含词语的个数;
步骤2.5.3对每条记录si,选取使得语义距离最小的词语pnk对应的经、纬度坐标作为社会信号数据库中记录si的空间特征fi,fi=(Lati,Lngi),Lati和Lngi分别表示使得语义距离最小的词语pnk对应的经、纬度坐标;
步骤2.6:抽取每条记录si的时间特征,用符号ti表示;
所述记录si的时间特征为记录si在社会信号数据库中对应的时间标签;
步骤2.7抽取每条记录si的气象特征,用符号wti表示;
所述记录si的气象特征为记录si在社会信号数据库中对应的检索关键词在灾害性气象关键词词典中所属的分类;
步骤2.8:使用每条记录si的空间特征fi、时间特征ti和气象特征wti构建信号空间数据库;
通过上述步骤,完成对社会信号数据库中的数据的预处理和特征提取;
步骤三、发现与识别灾害性气象事件;
在步骤二的基础上,发现与识别灾害性气象事件;具体操作步骤为:
步骤3.1社会信号聚类;具体步骤如下:
步骤3.1.1确定起始时间和终止时间,分别用符号tstart和tend表示;
步骤3.1.2确定并构建信号点集,用符号PSet表示;
根据起始时间tstart和终止时间tend,选取步骤2.6中得到的信号空间数据库中满足在上述两个时间之间的全部记录;根据记录的空间特征、时间特征和气象特征,将每条记录映射到聚类空间中一个点,用符号(Lati,Lngi,ti,wti)表示;
步骤3.1.3通过公式(3)对待聚类点集PSet中每个点的时间特征ti做正则化处理,得到正则化处理后的时间特征坐标,用符号表示;
其中,w为压缩参数,b为平移参数,w和b均为实数,由人为设定;
步骤3.1.4用符号P1和P2表示待聚类点集PSet中的任意两点,计算待聚类点集PSet中任意两点P1和P2之间的距离,用符号Dis_pt(P1,P2)表示;
步骤3.2对待聚类点集PSet中的点根据两点之间的距离Dis_pt(P1,P2)进行聚类,得到对待聚类点集PSet的一个划分: 且满足
通过上述步骤的操作,得到对社会信号点集PSet的聚类结果;
步骤3.3:将每一个SubPSetr识别为一个候选灾害性气象事件,并计算每个SubPSetr中包含的点的数量Nr和SubPSetr中任意两点之间最长的距离LDr;
步骤3.4:对每一个候选灾害性气象事件SubPSetr,通过公式(4)计算其热度,用符号Hr表示。
步骤3.5:取Hi值最高的前N个候选灾害性气象事件作为灾害性气象热点事件进行展示;N为人为设定值,N为正整数。
2.如权利要求1所述的一种基于聚类特征模型的灾害性气象热点事件识别方法,其特征在于:步骤1.5.3中所述计算分词语料库ArticleSet_S中任意两个词语向量之间的坐标距离Dis(kwp,kwj)的方法包括:余弦距离、欧几里得距离、曼哈顿距离。
3.如权利要求1或2所述的一种基于聚类特征模型的灾害性气象热点事件识别方法,其特征在于:步骤3.1.4中所述计算任意待聚类点集PSet中任意两点之间的距离的方法包括:余弦距离、欧几里得距离和曼哈顿距离。
4.如权利要求1或2所述的一种基于聚类特征模型的灾害性气象热点事件识别方法,其特征在于:步骤3.2中所述对待聚类点集PSet中的点根据两点之间的距离Dis_pt(P1,P2)进行聚类的方法包括:k均值聚类、密度聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810345881.9A CN108595582B (zh) | 2018-04-17 | 2018-04-17 | 一种基于社会信号的灾害性气象热点事件识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810345881.9A CN108595582B (zh) | 2018-04-17 | 2018-04-17 | 一种基于社会信号的灾害性气象热点事件识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595582A true CN108595582A (zh) | 2018-09-28 |
CN108595582B CN108595582B (zh) | 2020-11-10 |
Family
ID=63613314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810345881.9A Active CN108595582B (zh) | 2018-04-17 | 2018-04-17 | 一种基于社会信号的灾害性气象热点事件识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595582B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127841A (zh) * | 2019-12-31 | 2020-05-08 | 贵州东方世纪科技股份有限公司 | 一种突发自然灾害事件监控系统 |
CN111813922A (zh) * | 2020-09-10 | 2020-10-23 | 中国科学院地理科学与资源研究所 | 一种基于微博文本数据的高温事件检测方法及系统 |
CN112818668A (zh) * | 2021-02-05 | 2021-05-18 | 上海市气象灾害防御技术中心(上海市防雷中心) | 气象灾情数据语义识别分析方法和系统 |
CN114282534A (zh) * | 2021-12-30 | 2022-04-05 | 南京大峡谷信息科技有限公司 | 一种基于要素信息抽取的气象灾害事件聚合方法 |
CN114860960A (zh) * | 2022-07-11 | 2022-08-05 | 南京师范大学 | 一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法 |
CN117251650A (zh) * | 2023-11-20 | 2023-12-19 | 之江实验室 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103236163A (zh) * | 2013-04-28 | 2013-08-07 | 北京航空航天大学 | 一种基于群智网络的交通拥堵规避提示系统 |
US20160314118A1 (en) * | 2015-04-23 | 2016-10-27 | Datadirect Networks, Inc. | Dynamic data protection and distribution responsive to external information sources |
-
2018
- 2018-04-17 CN CN201810345881.9A patent/CN108595582B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103236163A (zh) * | 2013-04-28 | 2013-08-07 | 北京航空航天大学 | 一种基于群智网络的交通拥堵规避提示系统 |
US20160314118A1 (en) * | 2015-04-23 | 2016-10-27 | Datadirect Networks, Inc. | Dynamic data protection and distribution responsive to external information sources |
Non-Patent Citations (1)
Title |
---|
赵亮等: "互联网时代的气象灾害信息收集与处理", 《信息技术》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127841A (zh) * | 2019-12-31 | 2020-05-08 | 贵州东方世纪科技股份有限公司 | 一种突发自然灾害事件监控系统 |
CN111813922A (zh) * | 2020-09-10 | 2020-10-23 | 中国科学院地理科学与资源研究所 | 一种基于微博文本数据的高温事件检测方法及系统 |
CN112818668A (zh) * | 2021-02-05 | 2021-05-18 | 上海市气象灾害防御技术中心(上海市防雷中心) | 气象灾情数据语义识别分析方法和系统 |
CN112818668B (zh) * | 2021-02-05 | 2024-03-29 | 上海市气象灾害防御技术中心(上海市防雷中心) | 气象灾情数据语义识别分析方法和系统 |
CN114282534A (zh) * | 2021-12-30 | 2022-04-05 | 南京大峡谷信息科技有限公司 | 一种基于要素信息抽取的气象灾害事件聚合方法 |
CN114860960A (zh) * | 2022-07-11 | 2022-08-05 | 南京师范大学 | 一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法 |
CN117251650A (zh) * | 2023-11-20 | 2023-12-19 | 之江实验室 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
CN117251650B (zh) * | 2023-11-20 | 2024-02-06 | 之江实验室 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108595582B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595582A (zh) | 一种基于社会信号的灾害性气象热点事件识别方法 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
WO2017076205A1 (zh) | 一种获取聊天发起句的回复提示内容的方法及装置 | |
CN106507315B (zh) | 基于网络社交媒体数据的城市交通事故预测方法和系统 | |
Xia et al. | ResNet15: weather recognition on traffic road with deep convolutional neural network | |
Xu et al. | A supervoxel approach to the segmentation of individual trees from LiDAR point clouds | |
CN104199840A (zh) | 基于统计模型的智能地名识别技术 | |
CN109165273A (zh) | 一种面向大数据环境的通用中文地址匹配方法 | |
CN105117494B (zh) | 模糊语境中的空间实体映射方法 | |
CN104008169A (zh) | 一种基于语义的地理标注内容安全检查方法及装置 | |
CN115658940A (zh) | 异源检测特征数据库构建与更新方法、装置及存储介质 | |
CN113449111A (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
CN109871379A (zh) | 一种基于数据块学习的在线哈希最近邻查询方法 | |
CN106126590A (zh) | 一种基于关键信息的无人机侦察视频检索方法 | |
Yue et al. | Using twitter data to determine hurricane category: An experiment | |
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN110060472A (zh) | 道路交通事件定位方法、系统、可读存储介质和设备 | |
CN112597309A (zh) | 实时识别突发事件微博数据流的检测系统 | |
CN105447100A (zh) | 一种基于形状特征的云图检索方法 | |
Hu et al. | Urban landscape information atlas and model system based on remote sensing images | |
CN106777395A (zh) | 一种基于社区文本数据的话题发现系统 | |
Song et al. | Spatial-temporal transformer network for multi-year ENSO prediction | |
CN115563196A (zh) | 一种基于多源数据增强对象信息价值的方法及系统 | |
Liu et al. | Impervious surface Mapping and its spatial–temporal evolution analysis in the Yellow River Delta over the last three decades using Google Earth Engine | |
Liu et al. | Analysis of passenger flow characteristics and their relationship with surrounding urban functional landscape pattern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |