CN115658853B - 一种基于自然语言处理的气象预警信息审核方法及系统 - Google Patents

一种基于自然语言处理的气象预警信息审核方法及系统 Download PDF

Info

Publication number
CN115658853B
CN115658853B CN202211688001.0A CN202211688001A CN115658853B CN 115658853 B CN115658853 B CN 115658853B CN 202211688001 A CN202211688001 A CN 202211688001A CN 115658853 B CN115658853 B CN 115658853B
Authority
CN
China
Prior art keywords
early warning
word segmentation
text
weather early
audited
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211688001.0A
Other languages
English (en)
Other versions
CN115658853A (zh
Inventor
王慕华
惠建忠
唐卫
王天岳
渠寒花
兰海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center
Original Assignee
Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center filed Critical Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center
Priority to CN202211688001.0A priority Critical patent/CN115658853B/zh
Publication of CN115658853A publication Critical patent/CN115658853A/zh
Application granted granted Critical
Publication of CN115658853B publication Critical patent/CN115658853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供一种基于自然语言处理的气象预警信息审核方法及系统,在获取待审核的气象预警文本后,将待审核的气象预警文本输入训练好的文本审核模型,得到语义分类结果;对待审核的气象预警文本进行分词,得到分词序列;基于配置的句法规则集,对分词序列进行句法解析,得到解析结果;句法规则集包括不同预警句式对应的句法规则;根据解析结果和分类结果,确定待审核的气象预警文本的审核结果。该方法克服了人工审核耗时较长以及易出现审核错误的问题,实现了气象预警文本的准确、全面的审核。

Description

一种基于自然语言处理的气象预警信息审核方法及系统
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种基于自然语言处理的气象预警信息审核方法及系统。
背景技术
气象预警主要通过文本的形式发布,气象预警文本通常包括气象事件的类别、预警等级或类型、发布时间、可能影响范围、警示事项、应采取的措施和发布单位信息等。
现有气象预警发布系统针对气象预警文本中存在的错误数据以及不完整数据,例如发布单位的组织机构错误、发布时间错误、预警等级或类型与标准不一致等,可通过23类质量控制策略进行筛查,该系统可以有效减少错误预警信息的发布。
然而,由于预警信息量过大,且预警信息一般是人们使用输入法向电脑、手机等电子设备输入的,容易出现同音字、拼写错误、叠字等语义错误,这些语义错误难以利用设置的质量控制策略发现,使预警信息包含了错误的预警内容,影响了预警信息的权威发布,严重的可能因人们对错误的预警内容的理解歧义而延误灾害应急处置,对人民生命和财产安全造成损失。
发明内容
本申请实施例的目的在于提供一种基于自然语言处理的气象预警信息审核方法及系统,用以解决了现有技术存在的上述问题,实现了对预警信息中预警内容的准确审核。
第一方面,提供了一种基于自然语言处理的气象预警信息审核方法,该方法可以包括:
获取待审核的气象预警文本;
将所述待审核的气象预警文本输入训练好的文本审核模型,以使所述文本审核模型中的多头自注意力机制对所述待审核的气象预警文本的语义进行编码输出相应的高维语义特征向量,所述文本审核模型中的支持向量机对得到的高维语义特征向量进行语义正误的分类,得到所述文本审核模型中支持向量机输出的语义分类结果;所述语义分类结果包括语义正确和语义错误;
对所述待审核的气象预警文本进行分词,得到分词序列;
基于配置的句法规则集,对所述分词序列进行句法解析,得到解析结果;所述句法规则集包括不同预警句式对应的句法规则;
根据所述解析结果和所述分类结果,确定所述待审核的气象预警文本的审核结果。
第二方面,提供了一种基于自然语言处理的气象预警信息审核装置,该装置可以包括:
获取单元,用于获取待审核的气象预警文本;
以及,将所述待审核的气象预警文本输入训练好的文本审核模型,以使所述文本审核模型中的多头自注意力机制对所述待审核的气象预警文本的语义进行编码输出相应的高维语义特征向量,所述文本审核模型中的支持向量机对得到的高维语义特征向量进行语义正误的分类,得到所述文本审核模型中支持向量机输出的语义分类结果;所述语义分类结果包括语义正确和语义错误;
分词单元,用于对所述待审核的气象预警文本进行分词,得到分词序列;
句法解析单元,用于基于配置的句法规则集,对所述分词序列进行句法解析,得到解析结果;所述句法规则集包括不同预警句式对应的句法规则;
审核单元,用于根据所述解析结果和所述分类结果,确定所述待审核的气象预警文本的审核结果。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
本申请提供的基于自然语言处理的气象预警信息审核方法在获取待审核的气象预警文本后,将待审核的气象预警文本输入训练好的文本审核模型,以使文本审核模型中的多头自注意力机制对待审核的气象预警文本的语义进行编码输出相应的高维语义特征向量,文本审核模型中的支持向量机对得到的高维语义特征向量进行语义正误的分类,得到文本审核模型中支持向量机输出的语义分类结果;语义分类结果包括语义正确和语义错误;对待审核的气象预警文本进行分词,得到分词序列;基于配置的句法规则集,对分词序列进行句法解析,得到解析结果;句法规则集包括不同预警句式对应的句法规则;根据解析结果和分类结果,确定待审核的气象预警文本的审核结果。该方法克服了人工审核耗时较长以及易出现审核错误的问题,结合自然语言处理技术,对气象预警文本的句法结构进行分析,并训练神经网络模型对气象预警文本进行语义正误的分类,从而实现气象预警文本的准确、全面的审核。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种应用自然语言处理的气象预警信息审核方法的气象预警信息审核系统示意图;
图2为本申请实施例提供的一种基于自然语言处理的气象预警信息审核方法的流程示意图;
图3为本申请实施例提供的一种文本审核模型与BiLSTM-SVM文本分类模型的纠错效果对比图;
图4为本申请实施例提供的一种基于自然语言处理的气象预警信息审核装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的基于自然语言处理的气象预警信息审核方法可以应用在图1所示的气象预警信息审核系统中,如图1所示,该气象预警信息审核系统可以包括:
终端,用于接收工作人员录入的待审核的气象预警文本,并将接收的待审核的气象预警文本发送至服务器。
服务器,用于基于待审核的气象预警文本,执行本申请提供的基于自然语言处理的气象预警信息审核方法。
本申请的气象预警信息审核方法克服了在气象预警信息发布场景中,由于预警信息量过大、时效性要求高,很容易发生语义错误未能被检测出来的情况导致不良影响的问题,可以精准、快速地找到气象预警文本是否存在语义或预警要素上的错误,提升了气象预警文本的审核效率,增强了预警内容审核的准确性。
进一步的,在审核出气象预警文本存在语义或预警要素上的错误时,还可以报告错误位置,以使预警值班人员可以快速、准确的对存在错误的气象预警文本进行修正。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图2为本申请实施例提供的一种基于自然语言处理的气象预警信息审核方法的流程示意图。如图2所示,该方法可以包括:
步骤S210、获取待审核的气象预警文本。
步骤S220、将待审核的气象预警文本输入训练好的文本审核模型,得到文本审核模型输出的语义分类结果。
其中,文本审核模型可以包括多头自注意力机制和支持向量机。多头自注意力机制用于对输入的待审核的气象预警文本的语义进行编码输出相应的高维语义特征向量;支持向量机用于对得到的高维语义特征向量进行语义正误的分类,输出语义分类结果。语义分类结果包括语义正确和语义错误的结果。
(1)对于多头自注意力机制:
多头自注意力机制的与计算机的寻址非常相似,且每一个注意力值的计算步骤均相同,这保证了多头自注意力机制能进行大规模并行运算。
对输入的气象预警文本样本进行位置嵌入,得到嵌入向量,将其输入到多头自注意力机制中。多头自注意力机制的原理如公式:
Figure M_221208145849821_821861001
Figure M_221208145849962_962471001
Figure M_221208145850029_029368001
公式中,Q、K和V均为输入矩阵,且为输入的嵌入向量的三部分;dk是Q或K的维度数,起到防止梯度消失的作用;softmax为归一化操作。公式中的
Figure M_221208145850107_107019001
Figure M_221208145850154_154384002
Figure M_221208145850186_186570003
分别为三个线性层的参数。公式中的concat即为直接拼接每个headi
Figure M_221208145850218_218339004
是另一个线性层的参数。
多头注意力计算的流程如下:每个headi的输入分别通过三个线性神经网络计算得到Q、K和V;然后,将每个headi的Q、K和V计算出结果,即为该headi的最终输出结果;最后,将每个headi的计算结果直接拼接起来,拼接的结果即为多头注意力机制的输出结果,即高维语义特征向量。
(2)对于支持向量机:
本申请的支持向量机包含三层线性变换的线性层,用于将得到的高维语义特征向量的维度降低至2维度,具体的,将高维语义特征向量输入到支持向量机的线性层,经由三层线性变换,如将高维向量维度降到2048维度,将2048维度降到1024维度,1024维度降到2维度,将线性变换得到的2维度映射为气象预警文本的语义类型数,即语义正确和语义错误两种类型。支持向量机的计算公式如下:
Figure M_221208145850233_233989001
其中,
Figure M_221208145850423_423938001
表示第
Figure M_221208145850455_455156002
个输入样本;
Figure M_221208145850486_486416003
是sigmoid激活函数;
Figure M_221208145850517_517671004
Figure M_221208145850548_548916005
分别是隐含层
Figure M_221208145850564_564530006
的权重矩阵和偏置向量(
Figure M_221208145850597_597723007
);
Figure M_221208145850629_629022008
表示通过隐藏层
Figure M_221208145850660_660223009
 (
Figure M_221208145850691_691528010
)的神经核映射;
Figure M_221208145850722_722298011
Figure M_221208145850753_753998012
分别是支持向量机的权重矩阵和偏置向量;
Figure M_221208145850769_769618013
表示支持向量机的输出。
进一步的,本申请中的文本审核模型实质上是基于多头自注意力机制的神经映射支持向量机模型,该模型将多头自注意力机制作为支持向量机的神经核映射,其多头自注意力机制相当于该模型的某一层
Figure M_221208145850802_802815001
,如公式:
Figure M_221208145850834_834085002
,公式中
Figure M_221208145850896_896579003
即为第i个多头自注意力机制模块,其中
Figure M_221208145850927_927816004
;x为经过位置嵌入的词向量;
Figure M_221208145850959_959068005
表示N层多头自注意力机制模块的参数,
Figure M_221208145850991_991744006
表示映射关系。
将气象预警文本通过多头自注意机制进行神经核映射之后,得到高维语义特征向量,再经过支持向量机进行语义分类,故本申请的模型最终的损失函数也即是支持向量机模型的损失函数,即为:
Figure M_221208145851023_023521001
其中n为样本的数量;c为样本的类别数,这里的类别数为2(即语义正误的类别);θ表示模型的参数;xi表示第i个样本;yi表示第i个样本的正式标签;
Figure M_221208145851117_117275001
表示样本xi的第j个得分函数的值;
Figure M_221208145851164_164154002
表示样本xi在其所对应的正确标签处的得分函数的值;Δ为分类间隔,这里设置为1。
在一些实施方式中,文本审核模型是基于标定好语义类型的气象预警训练正样本(即语义正确的气象预警训练样本)和气象预警训练负样本(即语义错误的气象预警训练样本),对多头自注意力机制和支持向量机神经网络进行训练得到的,但由于历史气象预警文本中语义错误的气象预警文本数量较少,导致训练样本中气象预警训练负样本过少,有明确标注的错误预警语句样本梳理稀缺,且收集难度较大。这就造成了数据集正负样本不均衡的情况,从而影响训练出的模型的精确度,故需要获取气象预警训练负样本。
其中,气象预警训练负样本中的错误类型可以包括气象预警文本的缺词错误,即指文本中缺失部分字或词;气象预警文本的重复错误,即指文本中部分字或词重复;气象预警文本的倒序错误,即指文本中连续的字或词顺序错乱;气象预警文本的替换错误,即指气象预警文本中部分字或词被替换成了其他错误字词。
进一步的,对于气象预警训练负样本的获取方法可以包括:
方式1、基于历史时间段内的历史气象预警错误文本,获取气象预警文本经常出现错误类型和相应错误类型的出现次数;
基于各错误类型的出现次数,获取各错误类型的出现次数比例;
按照获取的各错误类型的出现次数比例,对获取的语义正确的多个当前气象预警样本进行处理,得到相应的气象预警训练负样本。
方式2、为了保证获取到气象预警训练负样本,同时保持气象预警训练负样本能够与真实的气象预警文本出现错误的情况相接近,可以预先获取历史时间段内真实的多条历史气象预警文本的文本信息;该文本信息可以包括多条历史气象预警文本中历史气象预警错误文本的数量、出现的错误类型和各错误类型的出现次数等;
计算历史气象预警错误文本中各错误类型的出现概率和各错误类型的出现次数对应的平均值;各错误类型的出现次数对应的平均值是指对各错误类型的出现次数的总和求平均值;
基于各错误类型的出现概率和相应出现次数的平均值,采用预设的错误添加算法,对获取的语义正确的多个当前气象预警样本进行处理,得到相应的气象预警训练负样本。可见,采用该方式可以以真实预警文本训练对模型进行训练,形成高准确率预警文本字词及语义纠错模型。
在一些实施例中,以气象预警训练负样本中的错误类型为4种为例,预设的错误添加算法可以表示为:
Figure M_221208145851212_212992001
其中C为当前气象预警样本,E为得到的气象预警训练负样本,SR、RI、RS和RD表示四种错误类型,P(SR)、P(RI)、P(RS)和P(RD)表示四种错误类型的出现概率,四种错误类型的出现概率之和为1,n表示添加错误的次数,n的值为各错误类型的出现次数对应的平均值。
通过上述气象预警训练负样本的获取方法即可得到与气象预警训练正样本数量均衡的气象预警训练负样本,由此得到气象预警训练集,以训练出文本审核模型。
可见,该获取方法不需要采集大量的真实气象预警负样本,可由每个真实气象预警正样本自动扩充出气象预警负样本,且扩充出的气象预警负样本是根据对真实错误的分析得出,这样提高了训练出的文本审核模型的准确性。
步骤S230、对待审核的气象预警文本进行分词,得到分词序列。
具体实施中,可以预先配置一个气象预警分词词表,其中包含了气象预警领域常用的分词组合。
根据配置的气象预警分词词表和待审核的气象预警文本中的各汉字位置,对待审核的气象预警文本进行分词,得到候选分词列表;候选分词列表包括每个汉字对应的至少一种分词组合;分词组合包括从气象预警分词词表中查到的第一分词组合和未从气象预警分词词表中查到的第二分词组合。
具体的,按照待审核的气象预警文本中各汉字位置从左到右的顺序,利用气象预警分词词表,查找待审核的气象预警文本中的进行分词,可以得到从气象预警分词词表中查到的已知分词(即第一分词组合),和/或从气象预警分词词表中未能查到的未知分词(即第二分词组合),且由于一个句子中每个汉字可以与其前面相邻的一个或多个汉字进行组合,也可以与其后面相邻的一个或多个汉字进行组合,故每个汉字对应的至少一种分词组合,由此也就得到了候选分词列表。
针对任一汉字,按照预设的分词组合评估函数,对汉字对应的至少一种分词组合进行评估,得到该汉字对应的至少一种分词组合的评估值,并将最高评估值对应的分词组合确定为该汉字的目标分词组合;
基于各汉字的目标分词组合,获取该待审核的气象预警文本对应的分词序列。
其中,预设的分词组合评估函数可以表示为:
Figure M_221208145851291_291108001
其中,s表示待审核的气象预警文本,f(s)表示该待审核的气象预警文本s的评估值,uc表示第二分词组合的汉字长度总计,
Figure M_221208145851353_353625001
表示待审核的气象预警文本的汉字长度,uw表示第二分词组合的数量,k1与k2为预设的常数,w表示第一分词组合的数量。
该分词组合评估函数数倾向于尽可能用气象预警分词词表中已知的分词将待审核的气象预警文本进行分词,且倾向于尽可能用更少的分词将待审核的气象预警文本进行分词。
需要说明的是,该步骤也可以基于气象预警领域的词汇训练出气象预警分词模型,再利用该模型对待审核的气象预警文本进行分词得到分词序列,本申请实施例在此不做限定。
步骤S240、基于配置的句法规则集,对分词序列进行句法解析,得到解析结果。
其中,句法规则集可以包括不同预警句式对应的句法规则。句法规则集是通过分析大量的气象预警语句中的常用句式整理构建的。
将分词操作得到的分词序列,利用句法规则集进行句法解析,以得到解析结果,具体的:
获取分词序列的句法结构;
在句法规则集中选取一个合法的句法规则,对分词序列进行句法解析,得到新的待处理的分词序列;合法的句法规则是指所述句法规则集中满足该句法结构的句法规则;
基于新的待处理的分词序列,返回执行步骤:获取分词序列的句法结构,直到得到的新的待处理的分词序列满足预设的解析结束条件停止执行循环操作,得到该新的待处理的分词序列的句法结构和句式解析成功的解析结果;
若得到的新的待处理的分词序列不满足预设的解析结束条件,且句法规则集中不存在相应分词序列对应合法的句法规则,则该新的待处理的分词序列的句法结构和句式解析失败的解析结果。
可以看出上述句法解析过程可以由多轮构成。每轮在句法规则集中搜索一个合法的句法规则,所谓合法的句法规则是指待处理的分词序列中包含满足该句法规则的句法结构,即每轮在句法规则集中搜索一个满足待处理的分词序列的句法结构的句法规则;在初始情况下待处理的分词序列为分词操作得到的分词序列,除初始情况外的待处理的分词序列为经上一次句法解析后得到的分词序列。
可以将任何一个词语序列(包括分词操作得到的分词序列,以及各轮解析得到的待处理的分词序列)称为一个“局面”,一个合法的句法规则可以将一个局面转化为一个新的局面。
特别的,如果初始情况下由分词操作得到的分词序列为“原始局面”,那么,每轮句法解析过程可以看成如下的一个过程:不断寻找合法的句法规则将局面进行转换,且最终得到只含一个词语(或句子终结符)的最终局面,即预设的解析结束条件。
要注意的是,对任何一个局面,可能有多条适用的句法规则,将该局面转化成新局面。因此从原始局面到最终局面的过程是一个树的搜索过程,原始局面是树的根节点。在搜索树中搜索到一条从根节点(即分词操作得到的分词序列)到叶子节点(即经句法解析后得到的分词序列)的成功路径后,从叶子节点回溯到根节点经过的路径即句法解析树。
搜索树的搜索空间非常巨大,穷举搜索是不可行的。
本申请可以采用蒙特卡洛树搜索方法进行搜索优化。具体来说,从某个节点(即句法解析树的根节点)向下搜索时,对于所有可能的子节点(即句法解析树的叶子节点),选择其中置信分数最高的。对于第i个子节点,其置信分数ri的计算公式为:
Figure M_221208145851369_369222001
其中,Si表示从第i个子节点向下成功搜索的次数,Ti表示从第i个子节点向下所有搜索的次数,C表示常数系数,T表示从当前节点向下所有搜索次数。
步骤S250、根据解析结果和分类结果,确定待审核的气象预警文本的审核结果。
若文本审核模型输出的分类结果为语义错误,和/或句法解析出的解析结果为句式解析失败,则确定待审核的气象预警文本的审核结果为预警内容存在错误,此时可以获取到预警内容存在错误对应的错误信息,如错误类型和文本中该错误类型对应的错误位置;
若分类结果为语义正确,且解析结果为句式解析成功,则确定待审核的气象预警文本的审核结果为预警内容不存在错误。
进一步的,确定待审核的气象预警文本的审核结果之后,若审核结果为待审核的气象预警文本存在错误,则向预警值班人员展示待审核的气象预警文本、审核结果和相应的错误信息,以使预警值班人员基于错误信息对待审核的气象预警文本进行修正;
若审核结果为待审核的气象预警文本不存在错误,则直接对该审核过的气象预警文本进行发布。
在一些实施例中,对于气象预警文本的审核不仅对语义进行审核,还需要对气象预警文本中的事实性信息进行审核,实现审核的全面性。事实性信息可以包括预警时间、预警区域、预警类型和预警严重级别等预警要素。
具体实施中,基于步骤S240得到的句法结构,可以得到分词序列中的预警要素分词,该预警要素分词可以包括预警时间、预警区域、预警类型、预警严重级别和预警指示信号等;
由于获取的气象预警文本是自然语言格式,需要将其转换成适合计算机处理的结构化信息,在自然语言信息中,部分结构化信息可能不全,例如可能没有年的信息,或者没有分秒的信息。例如,将自然语言格式的时间描述信息转换为计算机可处理的年月日时分秒,如预警时间可能会简单地写成1日8时,这时需要根据实际时间,将其转换成2022年10月1日8时00分。
具体的,基于预设的预警要素的结构化信息转换表,将各预警要素分词转换为相应的结构化信息;结构化信息转换表可以包括自然语言格式的预警时间对应的时间结构,如年月日时分秒的结构、自然语言格式的预警区域对应的预警区域编码表、自然语言格式的预警类型对应的预警类型编码表和自然语言格式的预警严重级别对应的预警级别编码表。
例如,将预警区域的自然语言信息在预警区域编码表中的信息进行查找,转换成预警区域编码。要注意的是,转换得到的预警区域编码可能不止一个。例如“临夏”既可能指622901(临夏市),也可能指 622921(临夏县)。再例如“海南”既可能指海南省,也可能指青海自治区下的海南藏族自治州。将预警类型的自然语言信息在预警类型编码表中进行查找,转换成预警类型编码。要注意的是,因为预警类型编码本身有交叉重复,得到的预警类型编码也可能不止一个。
之后,将转换后的结构化信息与所述待审核的气象预警文本对应的原始气象预警信息中相应预警要素的结构化信息进行比对,得到待审核的气象预警文本中预警要素的审核结果。预警要素的审核结果包括预警要素无异常或预警要素异常两种结果。
具体的,根据转换得到的结构化信息与原始气象预警信息,如预警CAP包中的结构化信息进行比对,检查可能存在的错误,再根据转换得到的结构化信息与原始气象预警信息中气象规则过滤表内定义的气象规则进行比对,检查可能存在的气象异常错误。
基于上述实施例,若需要对气象预警文本中的事实性信息进行审核,那么此时需要根据解析结果、分类结果和预警要素的审核结果,共同确定待审核的气象预警文本的审核结果。
其中,若网络输出的解析结果为语义句式解析成功、分类结果为语义无错误且预警要素的审核结果为预警要素无异常,则可以确定待审核的气象预警文本的审核结果为该气象预警文本不存在错误;
若网络输出的解析结果为语义句式解析失败,和/或,分类结果为语义错误,和/或预警要素的审核结果为预警要素异常,则可以确定待审核的气象预警文本的审核结果为该气象预警文本存在错误,同时获取该气象预警文本的错误信息。
该方法采用自然语言处理、深度学习、句法分析树技术,开展预警文本语义错误检测的模型构建。针对预警字词、语句错误和事实性错误等问题,借助自然语言处理技术,辅以一定的文本控制策略,进行文本语义和事实性词语的分析,由此实现了气象预警文本的准确、全面的审核,提高了错误预警文本正确分类水平,减少正确文本误报水平。
此外,对于文本审核模型的审核纠错效果的实验对比阶段:
为说明本申请中文本审核模型的实验效果,可以从2018年-2021年的气象预警文本中随机选取800条语义正确的气象预警文本进行负样本增强操作,以得到正负训练样本均衡的训练样本;选取全年错误预警文本与人工复核的正确预警文本各200余条进行实验,这里使用准确率(Acc)、召回率、特效度、精确率(Pre)和F1作为评价指标。对文本审核模型进行客观的性能指标评价,规定正确预警文本数量:错误预警文本数量=1:1,训练出文本审核模型,基于训练好的文本审核模型,得到四中错误类型的实验结果如下表所示:
错误类型 准确率 召回率 特效度 精确率 F 1
重复错误 0 .75 0 .95 0 .55 0 .67 0 .79
词序错误 0 .75 0 .95 0 .56 0 .68 0 .79
缺词错误 0 .75 0 .95 0 .56 0 .68 0 .79
替换错误 0 .98 0 .99 0 .96 0 .96 0 .98
平均值 0 .81 0 .96 0 .65 0 .73 0 .83
从图3可以看出对于每种错误类型,F1值均在0.79以上,说明文本审核模型的纠错效果较好。对于业务中常见的“替换”类错误(常见于输入错误),文本审核模型的纠错能力极强,有很高的应用价值。
与同类模型-BiLSTM-SVM文本分类模型对比的结果如图4所示,可知本申请的文本审核模型整体优于BiLSTM-SVM模型,且召回率优势很大,更适用于预警文本纠错的业务场景。
与上述方法对应的,本申请实施例还提供一种基于自然语言处理的气象预警信息审核装置,如图4所示,该装置包括:
获取单元410,用于获取待审核的气象预警文本;
以及,将所述待审核的气象预警文本输入训练好的文本审核模型,以使所述文本审核模型中的多头自注意力机制对所述待审核的气象预警文本的语义进行编码输出相应的高维语义特征向量,所述文本审核模型中的支持向量机对得到的高维语义特征向量进行语义正误的分类,得到所述文本审核模型中支持向量机输出的语义分类结果;所述语义分类结果包括语义正确和语义错误;
分词单元420,用于对所述待审核的气象预警文本进行分词,得到分词序列;
句法解析单元430,用于基于配置的句法规则集,对所述分词序列进行句法解析,得到解析结果;所述句法规则集包括不同预警句式对应的句法规则;
审核单元440,用于根据所述解析结果和所述分类结果,确定所述待审核的气象预警文本的审核结果。
本申请上述实施例提供的基于自然语言处理的气象预警信息审核装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本申请实施例提供的该装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本申请实施例还提供了一种电子设备,如图5所示,包括处理器510、通信接口520、存储器530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。
存储器530,用于存放计算机程序;
处理器510,用于执行存储器530上所存放的程序时,实现如下步骤:
获取待审核的气象预警文本;
将所述待审核的气象预警文本输入训练好的文本审核模型,以使所述文本审核模型中的多头自注意力机制对所述待审核的气象预警文本的语义进行编码输出相应的高维语义特征向量,所述文本审核模型中的支持向量机对得到的高维语义特征向量进行语义正误的分类,得到所述文本审核模型中支持向量机输出的语义分类结果;所述语义分类结果包括语义正确和语义错误;
对所述待审核的气象预警文本进行分词,得到分词序列;
基于配置的句法规则集,对所述分词序列进行句法解析,得到解析结果;所述句法规则集包括不同预警句式对应的句法规则;
根据所述解析结果和所述分类结果,确定所述待审核的气象预警文本的审核结果。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现,因此,本申请实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于自然语言处理的气象预警信息审核方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于自然语言处理的气象预警信息审核方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

Claims (8)

1.一种基于自然语言处理的气象预警信息审核方法,其特征在于,所述方法包括:
获取待审核的气象预警文本;
将所述待审核的气象预警文本输入训练好的文本审核模型,以使所述文本审核模型中的多头自注意力机制对所述待审核的气象预警文本的语义进行编码输出相应的高维语义特征向量,所述文本审核模型中的支持向量机对得到的高维语义特征向量进行语义正误的分类,得到所述文本审核模型中支持向量机输出的语义分类结果;所述语义分类结果包括语义正确和语义错误;
对所述待审核的气象预警文本进行分词,得到分词序列;
基于配置的句法规则集,对所述分词序列进行句法解析,得到解析结果;所述句法规则集包括不同预警句式对应的句法规则;
根据所述解析结果和所述分类结果,确定所述待审核的气象预警文本的审核结果;
其中,对所述待审核的气象预警文本进行分词,得到分词序列,包括:
根据配置的气象预警分词词表和所述待审核的气象预警文本中的各汉字位置,对所述待审核的气象预警文本进行分词,得到候选分词列表;所述候选分词列表包括每个汉字对应的至少一种分词组合;所述分词组合包括从所述气象预警分词词表中查到的第一分词组合和未从所述气象预警分词词表中查到的第二分词组合;
针对任一汉字,按照预设的分词组合评估函数,对所述汉字对应的至少一种分词组合进行评估,得到所述汉字对应的至少一种分词组合的评估值;并将最高评估值对应的分词组合确定为所述汉字的目标分词组合;
基于各汉字的目标分词组合,获取分词序列;
其中,所述预设的分词组合评估函数表示为:
Figure QLYQS_1
其中,s表示所述待审核的气象预警文本,uc表示所述第二分词组合的汉字长度总计,
Figure QLYQS_2
表示所述待审核的气象预警文本的汉字长度,uw表示所述第二分词组合的数量,k1与k2为预设的常数,w表示所述第一分词组合的数量。
2.如权利要求1所述的方法,其特征在于,所述文本审核模型是基于标定好语义类型的气象预警训练正样本和气象预警训练负样本,对多头自注意力机制和支持向量机神经网络进行训练得到的;所述语义类型包括语义正确和语义错误两种类型;
其中,对于气象预警训练负样本的获取步骤包括:
获取历史时间段内的多条历史气象预警文本的文本信息;所述文本信息包括所述多条历史气象预警文本中历史气象预警错误文本的数量、出现的错误类型和相应错误类型的出现次数;
计算所述历史气象预警错误文本中各错误类型的出现概率和相应错误类型的出现次数对应的平均值;
基于所述各错误类型的出现概率和相应出现次数的平均值,采用预设的错误添加算法,对获取的语义正确的多个当前气象预警样本进行处理,得到相应的气象预警训练负样本。
3.如权利要求1所述的方法,其特征在于,基于配置的句法规则集,对所述分词序列进行句法解析,得到解析结果,包括:
获取所述分词序列的句法结构;
在所述句法规则集中选取一个合法的句法规则,对所述分词序列进行句法解析,得到新的待处理的分词序列;所述合法的句法规则是指所述句法规则集中满足该句法结构的句法规则;
基于新的待处理的分词序列,返回执行步骤:获取所述分词序列的句法结构,直到得到的新的待处理的分词序列满足预设的解析结束条件停止执行循环操作,得到该新的待处理的分词序列的句法结构和句式解析成功的解析结果;
若得到的新的待处理的分词序列不满足预设的解析结束条件,且所述句法规则集中不存在相应分词序列对应合法的句法规则,则该新的待处理的分词序列的句法结构和句式解析失败的解析结果。
4.如权利要求1所述的方法,其特征在于,所述解析结果包括所述分词序列对应的句法结构;
基于所述句法结构,获取所述分词序列中的预警要素分词;预警要素分词包括预警时间、预警区域、预警类型和预警严重级别;
基于预设的预警要素的结构化信息转换表,将各预警要素分词转换为相应的结构化信息;
将转换的结构化信息与所述待审核的气象预警文本对应的原始气象预警信息中相应预警要素的结构化信息进行比对,得到所述待审核的气象预警文本中预警要素的审核结果;
根据所述解析结果和所述分类结果,确定所述待审核的气象预警文本的审核结果,包括:
根据所述解析结果、所述分类结果和所述预警要素的审核结果,确定所述待审核的气象预警文本的审核结果。
5.如权利要求1所述的方法,其特征在于,根据所述解析结果和所述分类结果,确定所述待审核的气象预警文本的审核结果之后,所述方法还包括:
若所述审核结果为所述待审核的气象预警文本存在错误,则向预警值班人员展示所述待审核的气象预警文本、所述审核结果和相应的错误位置与错误信息,以使所述预警值班人员基于所述错误信息对所述待审核的气象预警文本进行修正。
6.一种基于自然语言处理的气象预警信息审核装置,其特征在于,所述装置包括:
获取单元,用于获取待审核的气象预警文本;
以及,将所述待审核的气象预警文本输入训练好的文本审核模型,以使所述文本审核模型中的多头自注意力机制对所述待审核的气象预警文本的语义进行编码输出相应的高维语义特征向量,所述文本审核模型中的支持向量机对得到的高维语义特征向量进行语义正误的分类,得到所述文本审核模型中支持向量机输出的语义分类结果;所述语义分类结果包括语义正确和语义错误;
分词单元,用于对所述待审核的气象预警文本进行分词,得到分词序列;
句法解析单元,用于基于配置的句法规则集,对所述分词序列进行句法解析,得到解析结果;所述句法规则集包括不同预警句式对应的句法规则;
审核单元,用于根据所述解析结果和所述分类结果,确定所述待审核的气象预警文本的审核结果;
其中,所述分词单元,具体用于:
根据配置的气象预警分词词表和所述待审核的气象预警文本中的各汉字位置,对所述待审核的气象预警文本进行分词,得到候选分词列表;所述候选分词列表包括每个汉字对应的至少一种分词组合;所述分词组合包括从所述气象预警分词词表中查到的第一分词组合和未从所述气象预警分词词表中查到的第二分词组合;
针对任一汉字,按照预设的分词组合评估函数,对所述汉字对应的至少一种分词组合进行评估,得到所述汉字对应的至少一种分词组合的评估值;并将最高评估值对应的分词组合确定为所述汉字的目标分词组合;
基于各汉字的目标分词组合,获取分词序列;
其中,所述预设的分词组合评估函数表示为:
Figure QLYQS_3
其中,s表示所述待审核的气象预警文本,uc表示所述第二分词组合的汉字长度总计,
Figure QLYQS_4
表示所述待审核的气象预警文本的汉字长度,uw表示所述第二分词组合的数量,k1与k2为预设的常数,w表示所述第一分词组合的数量。
7.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-5任一所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN202211688001.0A 2022-12-28 2022-12-28 一种基于自然语言处理的气象预警信息审核方法及系统 Active CN115658853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211688001.0A CN115658853B (zh) 2022-12-28 2022-12-28 一种基于自然语言处理的气象预警信息审核方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211688001.0A CN115658853B (zh) 2022-12-28 2022-12-28 一种基于自然语言处理的气象预警信息审核方法及系统

Publications (2)

Publication Number Publication Date
CN115658853A CN115658853A (zh) 2023-01-31
CN115658853B true CN115658853B (zh) 2023-04-11

Family

ID=85022837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211688001.0A Active CN115658853B (zh) 2022-12-28 2022-12-28 一种基于自然语言处理的气象预警信息审核方法及系统

Country Status (1)

Country Link
CN (1) CN115658853B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383027B (zh) * 2023-06-05 2023-08-25 阿里巴巴(中国)有限公司 人机交互的数据处理方法及服务器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021114840A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 基于语义分析的评分方法、装置、终端设备及存储介质
CN113627191A (zh) * 2021-07-05 2021-11-09 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警样本语义自动化标注方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818668B (zh) * 2021-02-05 2024-03-29 上海市气象灾害防御技术中心(上海市防雷中心) 气象灾情数据语义识别分析方法和系统
CN113435652B (zh) * 2021-07-01 2023-01-24 贵州电网有限责任公司 一种一次设备缺陷诊断与预测方法
CN114282534A (zh) * 2021-12-30 2022-04-05 南京大峡谷信息科技有限公司 一种基于要素信息抽取的气象灾害事件聚合方法
CN114926150B (zh) * 2022-06-18 2024-05-14 国网辽宁省电力有限公司电力科学研究院 一种变压器技术符合性评估数字化智能审核方法与装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021114840A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 基于语义分析的评分方法、装置、终端设备及存储介质
CN113627191A (zh) * 2021-07-05 2021-11-09 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警样本语义自动化标注方法及系统

Also Published As

Publication number Publication date
CN115658853A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
US20230073695A1 (en) Systems and methods for synthetic database query generation
CN111198817B (zh) 一种基于卷积神经网络的SaaS软件故障诊断方法及装置
KR20080075501A (ko) 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템
KR101060973B1 (ko) 에세이에서 과도하게 반복되는 단어 사용의 자동 평가
CN115658853B (zh) 一种基于自然语言处理的气象预警信息审核方法及系统
CN109934251B (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
CN110019822B (zh) 一种少样本关系分类方法及系统
US11385988B2 (en) System and method to improve results of a static code analysis based on the probability of a true error
CN114398891B (zh) 基于日志关键词生成kpi曲线并标记波段特征的方法
CN114398898B (zh) 基于日志事件关系生成kpi曲线并标记波段特征的方法
CN112328469B (zh) 一种基于嵌入技术的函数级缺陷定位方法
Ye et al. Assessing hidden risks of LLMs: an empirical study on robustness, consistency, and credibility
Hillebrand et al. Towards automating numerical consistency checks in financial reports
CN111881288B (zh) 笔录信息真假的判断方法、装置、存储介质及电子设备
CN108021595B (zh) 检验知识库三元组的方法及装置
CN112434862A (zh) 上市企业财务困境预测方法及装置
Sankhe et al. Survey on sentiment analysis
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统
US11748573B2 (en) System and method to quantify subject-specific sentiment
CN115185920A (zh) 一种日志类型的检测方法、装置及设备
US11568153B2 (en) Narrative evaluator
WO2021160822A1 (en) A method for linking a cve with at least one synthetic cpe
CN112286807A (zh) 一种基于源代码文件依赖关系的软件缺陷定位系统
Abeynayake et al. A stylometric approach for reliable news detection using machine learning methods
CN111144088A (zh) 一种语料管理方法、语料管理装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant