CN112818668B - 气象灾情数据语义识别分析方法和系统 - Google Patents
气象灾情数据语义识别分析方法和系统 Download PDFInfo
- Publication number
- CN112818668B CN112818668B CN202110163644.2A CN202110163644A CN112818668B CN 112818668 B CN112818668 B CN 112818668B CN 202110163644 A CN202110163644 A CN 202110163644A CN 112818668 B CN112818668 B CN 112818668B
- Authority
- CN
- China
- Prior art keywords
- disaster
- description
- depth
- data
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 31
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012706 support-vector machine Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 15
- 238000009825 accumulation Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000013524 data verification Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 241000894007 species Species 0.000 description 16
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 3
- 210000003423 ankle Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 240000007182 Ochroma pyramidale Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 210000001699 lower leg Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种气象灾情数据语义识别分析方法和系统,方法包括:灾种识别,建立由各灾种组成的灾种关键词字典,用于对案件发生情况描述进行识别匹配得到灾种字段;地址识别,建立小区名字典和道路名字典,用于对案件发生地址描述进行识别匹配得到小区名称和道路名称字段;程度识别,在灾种为暴雨的事件中,对积水深度的描述,采用提取关键词或者正则匹配方法将其转化为定量描述,构成积水深度字段;信息抽取,建立基于词向量的线性支持向量机分类模型,对案件发生情况描述进行分词后再进行文本分类,得到直接影响类型。本发明提出一种智能、稳定且数据处理能力强的气象灾情数据语义识别分析方法和系统。
Description
技术领域
本发明涉及气象技术领域,尤其涉及一种气象灾情数据语义识别分析方法和系统。
背景技术
近年来,人工智能发展迅猛,成为世界各国研究和角逐的热点。一方面,人工智能应用的范围很广,尤其是在医疗、金融、安防、汽车等领域较为突出。气象应用也一直是高性能计算的重要领域,人工智能技术给观测、预报、服务等业务的发展带来不可多得的机遇,也带来极大的挑战。因此,人工智能技术的发展的特点对气象业务也产生了重大影响。另一方面,机器学习、自然语言处理以及计算机视觉等重大的人工智能技术都在不同的领域对气象产生了深刻影响,并不同程度的影响到受众的生活。
发明内容
本发明的目的在于克服现有技术的不足,提出一种智能、稳定且数据处理能力强的气象灾情数据语义识别分析方法和系统。
本发明提供如下技术方案:
第一方面,一种气象灾情数据语义识别分析方法,其包括:
灾种识别,建立由各灾种组成的灾种关键词字典,用于对案件发生情况描述进行识别匹配得到灾种字段;
地址识别,建立小区名字典和道路名字典,用于对案件发生地址描述进行识别匹配得到小区名称和道路名称字段;
程度识别,在灾种为暴雨的事件中,对积水深度的描述,采用提取关键词或者正则匹配方法将其转化为定量描述,构成积水深度字段;
信息抽取,建立基于词向量的线性支持向量机分类模型,对案件发生情况描述进行分词后再进行文本分类,得到直接影响类型。
作为本发明语义识别分析方法的一种优选技术方案,其还包括:依据得到的直接影响类型,构建关键词匹配规则,进一步识别直接承灾体、直接承灾体数量、间接承灾体、间接影响以及间接承灾体。
作为本发明语义识别分析方法的一种优选技术方案,所述灾种关键词字典根据重要性不同包含两级关键词字典,一级字典仅包含第一层关键词,二级字典包含第一层关键词和第二层关键词,其中:
第一层关键词代表对气象灾害本身的描述性词语;
第二层关键词代表对气象灾害所造成影响的描述性词语。
作为本发明语义识别分析方法的一种优选技术方案,在灾种识别中,先识别第一层关键词再识别第二层关键词,同层不同灾种关键词按照重要性由低到高顺序识别,且后识别的灾种替换先识别的灾种。
作为本发明语义识别分析方法的一种优选技术方案,在地址识别中,根据案件发生地址描述内容,识别案件所属区县,并调用地名地址服务,获取该地址的经纬度信息并输出,根据经纬度点位数据与街道图层进行地理空间匹配,提取每个点位数据对应的街道信息并输出。
作为本发明语义识别分析方法的一种优选技术方案,在灾情事件情况描述文字中,按照积水深度的描述规律,包括数字描述类和物体描述类,其中:
对于数字描述类,建立积水深度正则匹配表达式字典,采用正则匹配的方式识别数字和单位,并且通过单位转换得到以厘米为计量单位的积水深度数值;
对于物体描述类,通过收集整理常用的描述物体字典,包含和身体有关的表述和汽车有关的表述,并查阅普通成年人身高参数及普通轿车参数,给出积水深度的定量描述字典,得到以厘米为计量单位的积水深度数值。
作为本发明语义识别分析方法的一种优选技术方案,在识别出积水深度的案件中,还包括按照识别水深从高到低排序,得到水深超出正常范围的异常水深,对异常水深的案件进行数据校验。
作为本发明语义识别分析方法的一种优选技术方案,信息抽取的步骤包括:
在获得案件事件描述的数据集后,先对所有案件进行打标,制作模型的训练集;
将已经打标的案件按照一定比例分成训练集和验证集;
将内容分词后,用TF-IDF算法计算权重,制作词向量和标签一起作为线性支持向量机分类模型的输入;
针对不同灾种分别训练不同线性支持向量机算法模型,进行有监督的文本分类算法。
作为本发明语义识别分析方法的一种优选技术方案,其还包括利用测试集数据对灾种识别的准确率进行验证。
第二方面,一种气象灾情数据语义识别分析系统,该系统用于执行前述气象灾情数据语义识别分析方法。
本发明方法首先在获得案件事件描述的数据集以后先对所有案件进行人工打标,制作模型的训练集。案件描述文本还不能直接作为模型输入,需要进一步的预处理。采用常用的基础分词工具都可以对案件描述文本进行分词。分词的过程中还需要对事件常用词作为关键词,防止其被过多切分;另外还需制作停词表,筛除一些无意义的停词以提高最终模型的准确率。经过预处理以后的分词文本可以采用TF-IDF算法计算权重,制作词向量最终作为模型的输入。词向量作为模型输入,事件标签作为模型输出,针对不同灾种训练5个线性支持向量机算法模型,训练完成的模型可以对新的数据进行预测分类。对应灾种场景模型为大风,暴雨,雷电,冰雪以及其他。本发明使用了多种统计机器学习模型集成的方法,通过对气象灾情数据进行语义识别分析,得到灾种识别,地址识别,程度识别以及信息抽取的4大部分的结果输出。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例气象灾情数据语义识别分析方法的数据处理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,本发明提供了一种气象灾情数据语义识别分析方法,其使用了多种统计机器学习模型集成的方法,通过对气象灾情数据进行语义识别分析,得到灾种识别、地址识别、程度识别以及信息抽取的四大部分的结果输出。
对于灾种识别,设计了由各灾种(暴雨、大风、雷电、冰雹、大雾、高温、雨雪冰冻、其他等8种灾种)组成的灾种关键词字典,用于对案件发生情况描述进行识别匹配得到灾种字段。灾种关键词字典根据重要性不同包含两级关键词字典,依次匹配。
对于地址识别,设计了小区名字典和道路名字典,用于对案件发生地址描述进行识别匹配得到小区名称和道路名称字段。
对于程度识别,其主要功能为在灾种为暴雨的事件中,如有对积水深度的描述,采用提取关键词或者正则匹配方法将其转化为定量描述,构成积水深度字段。
对于信息抽取,其主要功能为抽取灾情事件描述中的直接承灾体、直接承灾体数量、直接影响、间接承灾体、间接影响等信息并输出。为此,设计了一个基于词向量的线性支持向量机分类模型(Linear Support Vector Classification),对案件发生情况描述进行分词后再进行文本分类,得到直接影响类型。并且以此为依据,构建一套关键词匹配规则,进一步识别直接承灾体、直接承灾体数量、间接承灾体、间接影响等信息并输出。
本实施例中,共部署有文本分类模型5个,对应灾种场景模型为大风、暴雨、雷电、冰雪以及其他。每种场景构建该场景的分类模型,目的是提高识别的准确率。5个模型中的其他模型,用于识别包含冰雹、高温、大雾等其他一些小数量灾种造成的直接影响类型。
下面以某市110气象灾情为例,对上述基于词向量的线性支持向量机分类模型做进一步详细说明,该模型的技术路线图参见图1所示。
(一)模型所用数据源
110气象灾情实时数据的时间从2007/08/11 00:00:00至2020/07/29 24:00:00。模型实际训练时使用2007/08/11 00:00:00至2020/01/01 00:00:00的数据作为训练集,共涉及数据37,955条,使用2020/01/01 00:00:00至2020/07/29 24:00:00的数据作为验证集,共涉及数据1,998条。
110气象灾情实时原始数据共有13个字段,根据分析需求,选取OBJECTID(案件id),DATETIME_DISASTER(报警时间),TELEPHONE(报警人电话),LONTITUDE(经度),LATITUDE(纬度),CASE_ADDR(报警案发地址),CASE_DESC(报警案件内容),DISTRICT(区县),这八个字段进行最终分析。
(二)语义识别方案
1、灾种识别
对于灾种识别,其主要功能为从一段灾情事件描述文字中识别灾种类型信息并输出。为此,设计了由各灾种(暴雨、大风、雷电、冰雹、大雾、高温、雨雪冰冻、其他等8种灾种)组成的灾种关键词字典,用于对案件发生情况描述进行识别匹配得到灾种字段。灾种关键词字典的部分内容,如下表1所示。
表1各类灾种关键词字典(部分)
灾种关键词字典根据重要性不同包含两级关键词字典,
需要使用二级字典匹配的灾种类型为:大风、暴雨、雷电。这些灾种的灾害类型数量较多,重要性较高,描述方式繁多需要二级字典匹配以提高识别准确率。一级字典匹配的灾种类型为冰雹、高温、大雾等其他一些小数量灾种,重要性较低。一级字典仅包含第一层关键词,而二级字典既包含该第一层关键词,还包含第二层关键词。
对于关键词二级字典层级分类的标准为:第一层代表对气象灾害本身的描述性词语,例如“大风”,“大雨”,“雷电”等;第二层代表气象灾害所造成影响的描述性词语,例如“吹倒”,“积水”,“被雷击”等。
除此以外,灾种关键词字典还支持“&”逻辑,例如大风关键词“树&倒”,可以匹配描述中既包含“树”也包含“倒”的事件为大风灾种。
识别层级按照表1中从左往右的顺序识别,即先识别第一层关键词再识别第二层关键词;同层不同灾种关键词也按照从左往右的顺序,即先识别大风再识别暴雨,雷电等。后识别的灾种会替换先识别的灾种,即气象灾害所造成影响的描述性词语优先于气象灾害本身的描述性词语。
2、地址识别
对于地址识别,其主要功能为从一段灾情事件地址描述文字中识别案件发生的道路名称和小区名称的信息并输出,为此,设计了某市道路名称字典和小区名称字典,用于对案件发生地址描述进行识别匹配得到小区名称和道路名称字段。
其中,对于道路名称字典,收集、整理、清洗得到了包含该市道路名称的字典,其中一共包含该市6,080个道路名称。对于该市小区名称字典,我们收集,整理,清洗得到了包含该市小区名称的字典,其中一共包含该市41,772个小区地址。该市小区名称字典中不止包含小区通俗名称,也包含小区名称解析的具体详细地址描述,例如××香苑(××路125号),都可以识别为小区。
根据案发地址描述内容,识别案件所属区县,并调用地名地址服务,获取该地址的经纬度信息并输出,根据经纬度点位数据与街道图层进行地理空间匹配,从而提取每个点位数据对应的街道信息并输出。
3、程度识别
对于程度识别,其主要功能为在灾种为暴雨的事件中,如有对积水深度的描述,采用提取关键词或者正则匹配方法将其转化为定量描述,构成积水深度字段。在实际操作过程中,将按照灾种识别的结果,对案件进行筛选,仅对“暴雨”灾种事件进行程度识别操作。
灾情事件情况描述文字中,对于积水深度的描述基本按照两种规律:
①数字描述类,一般描述为“积水深度xx厘米”;
②物体描述类,一般描述为“积水到脚踝”或“积水到轮胎”;
对于数字描述类,设计了一套正则匹配表达式字典,采用正则匹配的方式识别数字和单位,并且通过一些单位转换得到以厘米为计量单位的积水深度数值,可以匹配厘米、分米、米、公分、尺,寸等常用长度描述单位。对于物体描述类,通过收集整理常用的描述物体字典,主要包含和身体有关的表述和汽车有关的表述,例如:脚腕、脚踝、膝盖、小腿、轮胎、车门等。并查阅普通成年人身高参数及普通轿车参数,给出积水深度的定量描述字典,结果仍然以厘米为计量单位的积水深度数值。
另外,在识别出积水深度的案件中,也可能产生一些不可避免的错误。我们按照识别水深从高到低排序,发现很多异常水深的案件(63条记录水深等于大于5米)。这些记录大部分都是描述错误,我们暂定大于5米水深的案件都标注‘水深5米及以上’。这些特别容易混淆的描述难以用程序处理,因此,可以对出现大于5米水深的案件都介入人工手段进行数据校验。
4、信息抽取
对于信息抽取,其主要功能为抽取灾情事件描述中的直接承灾体、直接承灾体数量、直接影响、间接承灾体、间接影响等信息并输出。按照逻辑顺序我们将依次识别直接影响,直接承灾体,直接承灾体数量,间接影响以及间接承灾体。
1)直接影响
直接影响表示直接由气象灾害造成的影响事件,结合现有或新建立的‘气象灾害链’和‘影响事件分类’文件(如,直接间接影响承灾体对应表),以及实际训练集中灾情事件的数量分布,我们划定了一系列灾害事件,一共34类,如下表2所示。
表2各类灾种直接影响分类及数量
为此设计了一个基于词向量的线性支持向量机分类模型(Linear SupportVector Classification,下文简称LSVC),关于线性支持向量机分类模型原理在下文会进一步详细描述。对案件发生情况描述进行分词后再进行文本分类,得到直接影响类型。结合筛选的事件和实际的灾种类型,我们将37,955条案件进行人工打标,制作模型的训练集。将已经打标的37,955条案件按照8:2分成训练集和验证集,2020年的数据作为测试集。将内容分词后,用TF-IDF算法计算权重,制作词向量和标签一起作为模型的输入。针对不同灾种训练5个线性支持向量机算法模型(LSVC),进行有监督的文本分类算法。训练完成的模型可以对新的数据进行预测分类。
模型训练得到的事件分类结果仍有较多的错误,再根据一些错误分类的事件特点,单独写一些筛选关键词规则,为其进行进一步打标。分灾种针对性的写了一些规则,旨在将准确率进一步提高。
2)直接承灾体
直接承灾体表示由直接影响导致的灾害的第一承受物体,故特定的直接影响对应特定的一种或几种直接承灾体。在已经识别出直接影响以后进一步可以识别直接影响对应的直接承灾体类型。
根据最终识别的事件分类,采用两种策略识别承灾体:
①事件和承灾体一一对应,例如:树木树枝受损→树木;
②事件对应几种承灾体,例如:交通设施受损→信号灯,标志牌等。
因此,可以针对性的结合直接影响分类结果,并结合实际承灾体数量的多少,描述出每种直接影响对应所有可能的承灾体类型,并针对该直接影响依次匹配,最终得到直接承灾体。具体识别过程中参考的事件影响承灾体对应表可以预先制作完成。
3)直接承灾体数量
在已经识别出直接承灾体以后进一步可以识别直接承灾体对应的直接承灾体数量。直接承灾体数量默认为1,若案件描述中出现和承灾体数量相关的数量和量词,例如x个、x棵、x辆。采用关键词匹配或者正则匹配的方式识别出具体的数量即可。
4)间接影响
间接影响表示由直接影响导致的灾害的后续影响,例如,“风吹倒树木(直接影响),树砸到汽车(间接影响)”。在已经识别出直接影响以后进一步可以识别直接影响对应的间接影响。直接影响和间接影响的关系类似于直接影响和直接承灾体的关系,也可以采用关键词匹配的方式,描述出每种直接影响对应所有可能的间接影响类型,并针对该直接影响依次匹配,最终得到间接影响。具体识别过程中参考的事件影响对应表可以预先制作完成。
5)间接承灾体
间接承灾体表示由间接影响导致的灾害的承受物体,故特定的间接影响对应特定的间接承灾体。在已经识别出间接影响以后进一步可以识别间接影响对应的间接承灾体类型。间接影响和间接承灾体的数量均较少,且基本一一对应,故只需要进行默认匹配即可。
6)线性支持向量机分类模型原理
支持向量机(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。其被广泛用于分类、回归和异常值检测算法之中。
当训练集线性可分,通过硬间隔最大化学习的线性分类器为线性支持向量机,又称硬间隔支持向量机。线性支持向量机和支持向量机模型采用类似的方法,但是接受的参数稍有不同,并且有不同的数学公式。LinearSVC是一种sklearn上更快的对线性核的支持向量分类的实现。LinearSVC不接受参数核函数,因为它被假设为线性的。
线性支持向量机分类模型拥有着许多的优点:是一种有坚实理论基础的新颖的适用小样本学习方法。它基本上不涉及概率测度及大数定律等,也简化了通常的分类和回归等问题。计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。少数支持向量决定了最终结果,对异常值不敏感,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒性”。学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。有优秀的泛化能力。
本发明方法首先在获得案件事件描述的数据集以后先对所有案件进行人工打标,制作模型的训练集。案件描述文本还不能直接作为模型输入,需要进一步的预处理。采用常用的基础分词工具都可以对案件描述文本进行分词。分词的过程中还需要对110案事件常用词作为关键词,防止其被过多切分;另外还需制作停词表,筛除一些无意义的停词以提高最终模型的准确率。经过预处理以后的分词文本可以采用TF-IDF算法计算权重,制作词向量最终作为模型的输入。词向量作为模型输入,事件标签作为模型输出,针对不同灾种训练5个线性支持向量机算法模型,训练完成的模型可以对新的数据进行预测分类。对应灾种场景模型为大风、暴雨、雷电、冰雪以及其他。
(三)模型验证机制
为了验证模型的准确率,可以将全部数据划分成训练集和部分验证集。具体为使用2007/08/11 00:00:00至2020/01/01 00:00:00的数据作为训练集,共涉及数据37955条,使用2020/01/01 00:00:00至2020/07/29 24:00:00的数据作为验证集,共涉及数据1998条。
由于数据本身除灾种外(地址识别,程度识别,直接承灾体,直接承灾体数量,间接承灾体,间接影响)并没有正确答案以供参考,因此主要考察指标为“识出率”。灾种识别可以和已有致灾因子代码对比计算准确率。其次,可以采用人工抽查的方式抽查实时数据识别准确率。
(四)模型更新优化
1、模型数据更新
模型在日常运行时需要的本地数据包括存放在data目录下的这些文件。
2、软件版本更新
若需要对模型所依赖的软件版本进行更新,则可以使用以下命令重新对模型的运行镜像进行重新打包。
(五)模型存贮
现在所有部署的模型都放置在data/model下:
值得一提的是,本发明还提供了一种气象灾情数据语义识别分析系统,以支持上述气象灾情数据语义识别分析方法的实现。该系统可存储于计算机中,当计算机运行该系统时,执行上述气象灾情数据语义识别分析方法的步骤。
需要说明的是,在本文中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种气象灾情数据语义识别分析方法,其特征在于,包括:
灾种识别,建立由各灾种组成的灾种关键词字典,用于对案件发生情况描述进行识别匹配得到灾种字段;所述灾种关键词字典根据重要性不同包含两级关键词字典,一级字典仅包含第一层关键词,二级字典包含第一层关键词和第二层关键词,其中:
第一层关键词代表对气象灾害本身的描述性词语;
第二层关键词代表对气象灾害所造成影响的描述性词语;
在灾种识别中,先识别第一层关键词再识别第二层关键词,同层不同灾种关键词按照重要性由低到高顺序识别,且后识别的灾种替换先识别的灾种;
在灾情事件情况描述文字中,按照积水深度的描述规律,包括数字描述类和物体描述类,其中:
对于数字描述类,建立积水深度正则匹配表达式字典,采用正则匹配的方式识别数字和单位,并且通过单位转换得到以厘米为计量单位的积水深度数值;
对于物体描述类,通过收集整理常用的描述物体字典,包含和身体有关的表述和汽车有关的表述,并查阅普通成年人身高参数及普通轿车参数,给出积水深度的定量描述字典,得到以厘米为计量单位的积水深度数值;
地址识别,建立小区名字典和道路名字典,用于对案件发生地址描述进行识别匹配得到小区名称和道路名称字段;
程度识别,在灾种为暴雨的事件中,对积水深度的描述,采用提取关键词或者正则匹配方法将其转化为定量描述,构成积水深度字段;
信息抽取,建立基于词向量的线性支持向量机分类模型,对案件发生情况描述进行分词后再进行文本分类,得到直接影响类型。
2.如权利要求1所述的气象灾情数据语义识别分析方法,其特征在于,还包括:依据得到的直接影响类型,构建关键词匹配规则,进一步识别直接承灾体、直接承灾体数量、间接承灾体、间接影响以及间接承灾体。
3.如权利要求1所述的气象灾情数据语义识别分析方法,其特征在于,在地址识别中,根据案件发生地址描述内容,识别案件所属区县,并调用地名地址服务,获取该地址的经纬度信息并输出,根据经纬度点位数据与街道图层进行地理空间匹配,提取每个点位数据对应的街道信息并输出。
4.如权利要求1所述的气象灾情数据语义识别分析方法,其特征在于,在识别出积水深度的案件中,还包括按照识别水深从高到低排序,得到水深超出正常范围的异常水深,对异常水深的案件进行数据校验。
5.如权利要求1所述的气象灾情数据语义识别分析方法,其特征在于,信息抽取的步骤包括:
在获得案件事件描述的数据集后,先对所有案件进行打标,制作模型的训练集;
将已经打标的案件按照一定比例分成训练集和验证集;
将内容分词后,用TF-IDF算法计算权重,制作词向量和标签一起作为线性支持向量机分类模型的输入;
针对不同灾种分别训练不同线性支持向量机算法模型,进行有监督的文本分类算法。
6.如权利要求1所述的气象灾情数据语义识别分析方法,其特征在于:还包括利用测试集数据对灾种识别的准确率进行验证。
7.一种气象灾情数据语义识别分析系统,其特征在于,该系统用于执行如权利要求1~6中任意一项所述的气象灾情数据语义识别分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163644.2A CN112818668B (zh) | 2021-02-05 | 2021-02-05 | 气象灾情数据语义识别分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163644.2A CN112818668B (zh) | 2021-02-05 | 2021-02-05 | 气象灾情数据语义识别分析方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818668A CN112818668A (zh) | 2021-05-18 |
CN112818668B true CN112818668B (zh) | 2024-03-29 |
Family
ID=75861893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110163644.2A Active CN112818668B (zh) | 2021-02-05 | 2021-02-05 | 气象灾情数据语义识别分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818668B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761914B (zh) * | 2021-08-25 | 2024-03-15 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种基于svm模型的互联网文本气象灾害事件识别方法 |
CN115658853B (zh) * | 2022-12-28 | 2023-04-11 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种基于自然语言处理的气象预警信息审核方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390039A (zh) * | 2013-07-17 | 2013-11-13 | 北京建筑工程学院 | 基于网络信息的城市灾害专题图实时生成的方法 |
WO2014203659A1 (ja) * | 2013-06-19 | 2014-12-24 | 独立行政法人情報通信研究機構 | テキストマッチング装置および方法、並びにテキスト分類装置および方法 |
CN107590196A (zh) * | 2017-08-15 | 2018-01-16 | 中国农业大学 | 一种社交网络中地震应急信息筛选评价方法及系统 |
CN108595582A (zh) * | 2018-04-17 | 2018-09-28 | 北京理工大学 | 一种基于社会信号的灾害性气象热点事件识别方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109063983A (zh) * | 2018-07-18 | 2018-12-21 | 北京航空航天大学 | 一种基于社交媒体数据的自然灾害损失实时评估方法 |
CN109597926A (zh) * | 2018-12-03 | 2019-04-09 | 山东建筑大学 | 一种基于社交媒体突发事件的信息获取方法及系统 |
CN110119701A (zh) * | 2019-04-30 | 2019-08-13 | 东莞恒创智能科技有限公司 | 基于视觉关系检测的煤矿综采工作面不安全行为识别方法 |
CN111402099A (zh) * | 2019-08-09 | 2020-07-10 | 江苏省地震局 | 一种地震应急决策系统 |
CN111898385A (zh) * | 2020-07-17 | 2020-11-06 | 中国农业大学 | 一种地震灾害评估方法及系统 |
-
2021
- 2021-02-05 CN CN202110163644.2A patent/CN112818668B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014203659A1 (ja) * | 2013-06-19 | 2014-12-24 | 独立行政法人情報通信研究機構 | テキストマッチング装置および方法、並びにテキスト分類装置および方法 |
CN103390039A (zh) * | 2013-07-17 | 2013-11-13 | 北京建筑工程学院 | 基于网络信息的城市灾害专题图实时生成的方法 |
CN107590196A (zh) * | 2017-08-15 | 2018-01-16 | 中国农业大学 | 一种社交网络中地震应急信息筛选评价方法及系统 |
CN108595582A (zh) * | 2018-04-17 | 2018-09-28 | 北京理工大学 | 一种基于社会信号的灾害性气象热点事件识别方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109063983A (zh) * | 2018-07-18 | 2018-12-21 | 北京航空航天大学 | 一种基于社交媒体数据的自然灾害损失实时评估方法 |
CN109597926A (zh) * | 2018-12-03 | 2019-04-09 | 山东建筑大学 | 一种基于社交媒体突发事件的信息获取方法及系统 |
CN110119701A (zh) * | 2019-04-30 | 2019-08-13 | 东莞恒创智能科技有限公司 | 基于视觉关系检测的煤矿综采工作面不安全行为识别方法 |
CN111402099A (zh) * | 2019-08-09 | 2020-07-10 | 江苏省地震局 | 一种地震应急决策系统 |
CN111898385A (zh) * | 2020-07-17 | 2020-11-06 | 中国农业大学 | 一种地震灾害评估方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于微博数据的地震灾情信息识别与应用;孔珍 等;《地理信息世界》;20201231;第27卷(第6期);98-104 * |
微博中蕴含台风灾害损失信息识别和分类方法;杨腾飞 等;《地球信息科学》;20180731;第20卷(第7期);906-917 * |
Also Published As
Publication number | Publication date |
---|---|
CN112818668A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106650767B (zh) | 基于聚类分析和实时校正的洪水预报方法 | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN112818668B (zh) | 气象灾情数据语义识别分析方法和系统 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
CN101751438A (zh) | 自适应语义驱动的主题网页过滤系统 | |
CN113159149B (zh) | 一种企业办公地址的识别方法及装置 | |
CN104199840A (zh) | 基于统计模型的智能地名识别技术 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN114282534A (zh) | 一种基于要素信息抽取的气象灾害事件聚合方法 | |
CN115619117A (zh) | 基于值班系统的电网智能调度方法 | |
CN115204140A (zh) | 一种基于注意力机制与知识图谱的法律条文预测方法 | |
CN118114201A (zh) | 基于多源数据融合和ai的气象质量数据分析方法及系统 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN117056510A (zh) | 一种多元社会矛盾纠纷信息自动归集方法 | |
CN113761914B (zh) | 一种基于svm模型的互联网文本气象灾害事件识别方法 | |
CN116523324A (zh) | 一种基于大数据的平安指数分析预警方法 | |
CN115936003A (zh) | 基于神经网络的软件功能点查重方法、装置、设备及介质 | |
CN111737976B (zh) | 一种旱灾风险预测方法及系统 | |
Azeem et al. | A Multidimensionality Reduction Approach to Rainfall Prediction | |
CN114661858A (zh) | 法律文书中存疑法条的识别方法、装置及相关设备 | |
Cai et al. | DeepLab network for Meteorological Trough Line Recognition | |
Kadiyala et al. | Flood Prediction and Analysis on the Relevance of Features using Explainable Artificial Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |