CN115712720A

CN115712720A - 一种基于知识图谱的降雨动态预警方法

Info

Publication number: CN115712720A
Application number: CN202210723816.1A
Authority: CN
Inventors: 江结林; 胡志臣; 唐卫; 程勇; 陈圣劼; 许小龙
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-03-03
Filing date: 2022-06-23
Publication date: 2023-02-24

Abstract

本发明公开了一种基于知识图谱的降雨动态预警方法，属于知识图谱的技术领域和数据挖掘领域，其包括步骤1：通过动态实时多路下载有关区域降雨新闻数据；步骤2：根据步骤1的文本非结构化信息抽取城市地点信息，降雨信息时间等；步骤3：根据步骤2构建时‑空多维知识图谱，并实时去除冗余的降雨信息；步骤4：统计区域地势数据，通过聚类算法将区域地势数据进行动态分类；步骤5：根据步骤4的结果，对分类地区自动生成对应预警信息，标记具体位置并通知相关人员；通过该方法有利于提升整体的气象降雨数据关键词挖掘效率，减少人工标注所带来的时间成本，快速的为专家聚类出组合排列结果，对于降雨情况做出迅速反应。

Description

一种基于知识图谱的降雨动态预警方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于知识图谱的降雨动态预警方法。

背景技术

自然语言处理是一门把语言学、计算机科学、数学等相关领域融为一体的交叉学科，自然语言处理技术逐渐渗透到各行各业用于文本数据挖掘和信息存储。当前，大量的企业和组织将与日俱增的数据信息完全或者部分通过自然语言处理技术，筛选出有价值的核心热点，以降低检索时间并提高分析信息能力。从命名实体识别的角度来看，在满足将对非结构化文本分析和理解的同时，需要保证数据的可扩展性。气象领域中对文本数据分析量的不断增加，特别是在大数据时代，数据挖掘处理需要学习分析海量的标签数据集。为了应对与日俱增的分析需求，气象领域需要领域专家建立庞大的规则模板和词典，当前气象领域普遍依赖人工标注文本信息，人工标注会消耗大量时间，影响数据时效性，制约了信息化产业的动态发展。同理在推理的角度来看，当前气象领域聚类方式主要通过人工聚类，无法在大规模的数据上进行聚类与图谱关联。

文本信息抽取技术已经广泛应用于文本数据挖掘和存储。通过词性分析技术可以实现对不同关键词热点的信息筛选。例如文献“S.A.Al-Ghamdi,J.Khabti and H.S.Al-Khalifa,"Exploring NLP web APIs for building Arabic systems,"2017TwelfthInternational Conference on Digital Information Management(ICDIM),2017,pp.175-178,doi:10.1109/ICDIM.2017.8244649.”主要运用词性标签创建一个具有BIO字母的频率概率分布模型，减少数据词典的使用。文献“Y.Hong,C.Bu and T.Jiang,"Z.Wang,Y.Zhou and G.Li,"Anomaly Detection by Using Streaming K-Means and Batch K-Means,"2020 5th IEEE International Conference on Big Data Analytics(ICBDA),2020,pp.11-17,doi:10.1109/ICBDA49040.2020.9101212.”主要通过聚类方式通过批处理和流处理，在较短的时间间隔内处理数据的特性。随着自然语言处理技术的广泛应用，领域的文本产生热点的数据日益增长，将会对构建领域数据集标签带来技术挑战。因此，需要设计基于基于关键词语和可扩展词性的文本挖掘方法，以实现文本数据动态获取实体，并且能够通过实体与地势聚类，动态地图投影并实时联系相关工作人员。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明本发明针对气象数据需要挖掘分析的特点，提供基于数据挖掘和地势聚类的一种基于知识图谱的降雨动态预警方法，适用于异构数据的信息获取和分析工作。

为实现上述目的，本发明采用以下技术方案：一种基于知识图谱的降雨动态预警方法，包括以下步骤：

步骤1：根据最低流量限制和期望下载时间的预期值，读取网站中包含有关区域降雨内容的新闻文本进行下载并构建出降雨资料数据库。

步骤2：分析文本内容上下文语段，获取文本内容中自定义多类实体关键词的词典列表，根据词典进行词性分析，通过词性分析动态标注命名体识别数据集，并对步骤1中的新闻文本进行命名体识别，提取文本中的实体，具体操作如下：

通过获取文本语句中自定义多类实体关键词的词典列表，并整合成词典列表数据集ER＝{er₁,er₂,er₃,er₄}，er₁表示区域地点名称，er₂表示为对应区域降雨时间，er₃表示为对应区域降雨雨量，er₄表示对应区域预警等级。

使用余弦相似度测量，将给定的词典列表数据集在大型文本语料库进行文本挖掘，确定实体关键词的语义接近度与词向量；er_n在词向量中表示为vc_n＝(B-vc_n,I-vc_n)，其中B-vc_n代表多属性元组在词向量空间的开头位置，I-vc_n代表多属性元组在词向量空间中间位置；实体关键词词典列表经过文本语料库挖掘后，生成非结构化多分类文本。

将非结构化多分类文本的文本语句与er_n进行分类匹配，若文本语句无法匹配er_n，则表示为O；将er_n中所有多分类结构子集匹配对应的文本语句实体集合表示为ER_n＝{B-er_n,O,I-er_n}，从而生成带有标签BIO的训练数据集。

将crf作为BiLSTM的输出层，对于每个输入标签ER_n终会得到与之对应的输出标签PL_n，预测输入ER_n的连续正确的概率为Score(ER_n,PL_n)，Score(ER_n,PL_n)的表达式如下：

R表示训练数据集中总数为R个标签，

为对于第i个输入标签ER_i输出为PL_i的概率，A_{(PLi，PLi+1)}为从PL_i到PL_i+1的转移概率；求出所有输入标签ER_n的连续正确概率Score(ER_n,PL_n)，利用维特比算法对输入标签ER_n及输出标签PL_n进行概率归一化处理P_(PLn|ERn)，其中概率归一化处理P_(PLn|ERn)表达式如下：

式中，

表示预测第i个输入标签ER_i的连续正确概率的指数值，

表示为对于第i个输入标签ER_i，得到错误的输出标签率，

表示错误预测输入标签ER_i的连续概率的指数值；最终输入区域降雨数据库信息，批量识别出地点、降雨量、预警等级及降雨时间信息，加上专家补充和去错形成一份完备的区域降雨预警数据集。

步骤3：根据实体构建时-空多维预警知识图谱，将属性扩充到每个实体节点，同时将规则扩充到每个关系节点，并实时去除冗余的降雨信息。

步骤4：统计区域地势数据，通过k-means聚类算法将区域地势数据动态分为四类，进而对不同降雨等级进行分布式预警。

步骤5：根据步骤4结果，对分类地区自动生成对应预警信息，并且在地图上标记出各预警下产生的区域点，通过邮件实时发送给对应人员。

作为本发明的一种优选实施方式：步骤1中下载有关区域降雨内容的新闻文本并构建出降雨资料数据库的操作具体为，

当任务请求网络服务系统进行文件下载时，网络平台产生一条访问请求记录，该记录包含本地网络IP地址和期望下载时间，利用RPA的无侵入特性接入通讯系统提供对相关气象降雨研究内容热点进行交叉访问，将多路IP地址交叉复制到服务器中；

当服务器在任意时段收到一个下载请求时，计算出单个下载任务响应时间T为：

T＝t_departure-t_arrival；

式中，t_departure代表请求到达时间，t_arrival代表请求完成时间，其中单个下载任务响应时间T的指数随机变量为e、r、v，其中，e代表在单个下载任务响应时间T下所期望下载时间的预期值，r代表服务器下载流量占总带宽的比例，v代表下载热点的速度；

当下载请求申请成功，对下载热点进行交叉访问时，对任意一段时间x≤TimeN≤y内进行下载请求，下载请求的响应时间为β_n，因此，下载请求的最小响应时间β_(x,y)的表达式为：

式中，x为最低下载时间，y为最高下载时间，TimeN为在此时间段内的任意下载时间；在单个下载任务响应时间T下所期望下载时间的预期值E[T_(r,t)]的表达式为：

式中，β(t+1,1/r)代表在t+1的时间到1/r的时间内的最小响应时间，μ表示在不同下载请求指令和服务器之间的响应速率，E[T_(r,t)]与e均代表在单个下载任务响应时间T下所期望下载时间的预期值；

选择满足预期值E[T_(r,t)]的服务IP地址进行多路下载，最终将有关区域降雨的新闻文本下载并存放在数据库中，构建出降雨资料数据库。

作为本发明的一种优选实施方式：步骤3中实时去除冗余降雨信息的操作具体为，根据区域降雨预警数据集，实体中每一个地点都包含一个降雨时间节点，降雨量节点、降雨等级节点。其中降雨等级分为四类：降雨蓝色预警、降雨黄色预警、降雨橙色预警及降雨红色预警，每个降雨预警都对应着不同的降雨措施和所需通知的单位信息，因此构建出一幅时-空多维知识图谱，将属性扩充到每个实体节点，同时将规则扩充到每个关系节点，并实时去除冗余的降雨信息。

作为本发明的一种优选实施方式：步骤4中地势数据分类的具体操作为：首先统计区域地势数据，由于地势数据随着城市的发展将会进行改变，需要对各地势数据进行收集存储。

其次利用聚类算法将收集来的城市地势数据进行分类，其中首先定义假设簇划分为(C1,C2,C3,C4)，将数据分为四类分别对应四个梯度的降雨预警，则目标是计算最小化平方误差E，表达式如下：

式中，x输入聚类划分C_i(1≤i≤4)的子类,μ_i是簇C_i的均值向量，也称为质心，表达式为：

最终将地势数据分为了四类，随机选取四类中的任意一个进行比较排序得到了四组从小到大排序的聚类地势数据集，分别定义为最小，次小，次大和最大四类数据。

作为本发明的一种优选实施方式：步骤5中，当知识图谱中出现蓝色预警时，自动关联最小的地势数据，并将地势名称数据通过经纬度转换，投影到地图数据中，并通过邮件发送到相关联系人员。类似的，对黄色预警时，将最小地势数据和次小地势数据进行投影到地图数据中，并通过邮件发送到相关联系人员；当图谱获取橙色预警时，将最小数据、次小数据、次大数据进行投影到地图数据中，并通过邮件发送到相关联系人员；当图谱获取红色预警时，将最小数据、次小数据、次大数据和最大进行投影到地图数据中，并通过邮件发送到相关联系人员。

本发明的有益效果是：

1：在实体抽取中，特别是在识别在关键词词性分析中，优先将词性规则结合关键词字典列表，有利于提升整体的气象降雨数据关键词挖掘效率，减少人工标注所带来的时间成本。

2：在多路IP地址交叉配置在服务器过程中，下载气象降雨数据情况，更加贴切实际中最低流量限制和期望下载时间。

3：在构建知识图谱中，将重复的词语去除，从而提高了构建的效率，并且能够直观的查询物质之间的关联关系之间的传递关系。

4：在聚类部分，针对地势数据，采取了启发式聚类方式，能够大大减少聚类时间，更加易于修改，减少了分类训练的时间，快速的为专家聚类出组合排列结果。

5：通过地势聚类和气象降雨数据的知识图谱分类，动态的将预警信息和所需注意的易积水地点进行关联，实时的发送给对应工作人员。

附图说明

图1是本发明整体工作步骤流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提出的一种基于知识图谱的降雨动态预警方法，包括下述步骤，流程如图1所示：

步骤1：当任务请求网络服务系统进行文件下载时，网络平台产生一条访问请求记录，该记录包含本地网络IP地址和期望下载时间，利用RPA的无侵入特性接入通讯系统提供对相关气象降雨研究内容热点进行交叉访问，将多路IP地址交叉复制到服务器中。

T＝t_departure-t_arrival；

式中，t_departure代表请求到达时间，t_arrival代表请求完成时间，其中单个下载任务响应时间T的指数随机变量为e、r、v，e代表在单个下载任务响应时间T下所期望下载时间的预期值，r代表服务器下载流量占总带宽的比例，v代表下载热点的速度。

式中，x为最低下载时间，y为最高下载时间，TimeN为在此时间段内的任意下载时间。

在单个下载任务响应时间T下所期望下载时间的预期值E[T_(r,t)]的表达式为：

式中，β(t+1,1/r)代表在t+1的时间到1/r的时间内的最小响应时间，μ表示在不同的下载请求指令和服务器之间的响应速率，E[T_(r,t)]与e均代表在单个下载任务响应时间T下所期望下载时间的预期值。

选择满足预期值E[T_(r,t)]的服务IP地址进行多路下载，最终将有关区域降雨的新闻下载并存放在数据库中，构建出降雨资料数据库。

步骤2：分析文本内容上下文语段，获取文本语句中自定义多类实体关键词的词典列表，并整合成词典列表数据集ER＝{er₁,er₂,er₃,er₄}，其中，er₁表示区域地点名称，er₂表示为对应区域降雨时间，er₃表示为对应区域降雨雨量，最后er₄表示对应区域预警等级。

紧接着，使用余弦相似度测量，将给定的词典列表数据集在大型文本语料库进行文本挖掘，确定实体关键词的语义接近度与词向量；er_n在词向量中表示为vc_n＝(B-vc_n,I-vc_n)，其中B-vc_n代表多属性元组在词向量空间的开头位置，I-vc_n代表多属性元组在词向量空间中间位置，并利用正则表达式扩充er_n属性元组与英文字符[A-Z]以及数字字符[0-9]的表现形式。

实体关键词词典列表经过文本语料库挖掘后，再对文本内容进行抽取相关内容从而生成非结构化多分类文本。

将非结构化多分类文本的文本语句与er_n进行分类匹配，若文本语句无法匹配er_n，则表示为O。

将er_n中所有多分类结构子集匹配对应的文本语句实体集合表示为ER_n＝{B-er_n,O,I-er_n}，从而生成带有标签BIO的训练数据集。

式中，R表示训练数据集中总数为R个标签，

为对于第i个输入标签ER_i输出为PL_i的概率，A_{(PLi，PLi+1)}为从PL_i到PL_i+1的转移概率。

求出所有输入标签ER_n的连续正确概率Score(ER_n,PL_n)，利用维特比算法对输入标签ER_n及输出标签PL_n进行概率归一化处理P_(PLn|ERn)，从而完成与训练并挖掘文本数据，其中概率归一化处理P_(PLn|ERn)表达式如下：

式中，

表示预测第i个输入标签ER_i的连续正确概率的指数值，

表示为对于第i个输入标签ER_i，得到错误的输出标签率，

表示错误预测输入标签ER_i的连续概率的指数值。

最终输入区域降雨数据库信息，批量识别出地点、降雨量、预警等级及降雨时间信息，加上专家补充和去错形成一份完备的区域降雨预警数据集。

步骤3：根据区域降雨预警数据集，实体中每一个地点都包含一个降雨时间节点，降雨量节点，降雨等级节点、其中降雨等级分为四类，如：降雨蓝色预警、降雨黄色预警、降雨橙色预警及降雨红色预警，每个降雨预警都对应着不同的降雨措施和所需通知的单位信息，因此构建出一幅时-空多维知识图谱，将属性扩充到每个实体节点，同时将规则扩充到每个关系节点，并实时去除冗余的降雨信息。

步骤4：首先统计区域地势数据，由于地势数据随着城市的发展将会进行改变，需要对各地势数据进行收集存储。

最终我们地势数据分为了四类，其次我们随机选取四类中的任意一个进行比较排序得到了四组从小到大排序的聚类地势数据集，分别定义为最小，次小，次大和最大四类数据。

步骤5：当知识图谱中出现蓝色预警时，自动关联最小的地势数据，并将地势名称数据通过经纬度转换，投影到地图数据中，并通过邮件发送到相关联系人员，同理当黄色预警时，将最小地势数据和次小地势数据进行投影到地图数据中，并通过邮件发送到相关联系人员。当图谱获取橙色预警时，将最小数据、次小数据、次大数据进行投影到地图数据中，并通过邮件发送到相关联系人员；当图谱获取红色预警时，将最小数据、次小数据、次大数据和最大进行投影到地图数据中，并通过邮件发送到相关联系人员。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于知识图谱的降雨动态预警方法，其特征在于，包括以下步骤：

步骤1：根据最低流量限制和期望下载时间的预期值，读取网站中包含有关区域降雨内容的新闻文本进行下载并构建出降雨资料数据库；

通过获取文本语句中自定义多类实体关键词的词典列表，并整合成词典列表数据集ER＝{er₁,er₂,er₃,er₄}，er₁表示区域地点名称，er₂表示为对应区域降雨时间，er₃表示为对应区域降雨雨量，er₄表示对应区域预警等级；使用余弦相似度测量，将给定的词典列表数据集在大型文本语料库进行文本挖掘，确定实体关键词的语义接近度与词向量；er_n在词向量中表示为vc_n＝(B-vc_n,I-vc_n)，其中B-vc_n代表多属性元组在词向量空间的开头位置，I-vc_n代表多属性元组在词向量空间中间位置；实体关键词词典列表经过文本语料库挖掘后，生成非结构化多分类文本；将非结构化多分类文本的文本语句与er_n进行分类匹配，若文本语句无法匹配er_n，则表示为O；将er_n中所有多分类结构子集匹配对应的文本语句实体集合表示为ER_n＝{B-er_n,O,I-er_n}，从而生成带有标签BIO的训练数据集；

R表示训练数据集中总数为R个标签，

式中，

表示预测第i个输入标签ER_i的连续正确概率的指数值，

表示为对于第i个输入标签ER_i，得到错误的输出标签率，

表示错误预测输入标签ER_i的连续概率的指数值；最终输入区域降雨数据库信息，批量识别出地点、降雨量、预警等级及降雨时间信息，加上专家补充和去错形成一份完备的区域降雨预警数据集；

步骤3：根据实体构建时-空多维预警知识图谱，将属性扩充到每个实体节点，同时将规则扩充到每个关系节点，并实时去除冗余的降雨信息；

步骤4：统计区域地势数据，通过k-means聚类算法将区域地势数据动态分为四类，进而对不同降雨等级进行分布式预警；

2.根据权利要求1所述的一种基于知识图谱的降雨动态预警方法，其特征在于：步骤1中下载有关区域降雨内容的新闻文本并构建出降雨资料数据库的操作具体为，

T＝t_departure-t_arrival；

式中，x为最低下载时间，y为最高下载时间，TimeN为在此时间段内的任意下载时间；

3.根据权利要求2所述的一种基于知识图谱的降雨动态预警方法，其特征在于：步骤3中实时去除冗余降雨信息的操作具体为，根据区域降雨预警数据集，实体中每一个地点都包含一个降雨时间节点，降雨量节点、降雨等级节点；其中降雨等级分为四类：降雨蓝色预警、降雨黄色预警、降雨橙色预警及降雨红色预警，每个降雨预警都对应着不同的降雨措施和所需通知的单位信息，因此构建出一幅时-空多维知识图谱，将属性扩充到每个实体节点，同时将规则扩充到每个关系节点，并实时去除冗余的降雨信息。

4.根据权利要求3所述的一种基于知识图谱的降雨动态预警方法，其特征在于，步骤4中地势数据分类的具体操作为：首先统计区域地势数据，由于地势数据随着城市的发展将会进行改变，需要对各地势数据进行收集存储；

5.根据权利要求4所述的一种基于知识图谱的降雨动态预警方法，其特征在于：步骤5中，当知识图谱中出现蓝色预警时，自动关联最小的地势数据，并将地势名称数据通过经纬度转换，投影到地图数据中，并通过邮件发送到相关联系人员；对黄色预警时，将最小地势数据和次小地势数据进行投影到地图数据中，并通过邮件发送到相关联系人员；当图谱获取橙色预警时，将最小数据、次小数据、次大数据进行投影到地图数据中，并通过邮件发送到相关联系人员；当图谱获取红色预警时，将最小数据、次小数据、次大数据和最大进行投影到地图数据中，并通过邮件发送到相关联系人员。