CN114638222A

CN114638222A - 自然灾害数据的分类方法及其模型训练方法、装置

Info

Publication number: CN114638222A
Application number: CN202210531635.9A
Authority: CN
Inventors: 张坤宇; 丁传捷; 刘明伟; 詹威威; 崔志群; 杜志彪
Original assignee: Tianjin Troila Technology Development Co ltd
Current assignee: Tianjin Troila Technology Development Co ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-06-17
Anticipated expiration: 2042-05-17
Also published as: CN114638222B

Abstract

本发明提供了一种自然灾害数据的分类方法及其模型训练方法、装置，涉及数据分类技术领域，该模型在训练过程中结合训练文本中词语之间的语义关系，将不同词语所对应的本体特征向量、词语向量和字符向量融入到模型训练中，实现了对自然灾害语义关系的结合，提高了模型在不同使用功能场景下对自然灾害数据的分类精度，有利于降低人工分类成本。

Description

自然灾害数据的分类方法及其模型训练方法、装置

技术领域

本发明涉及数据分类技术领域，尤其是涉及一种自然灾害数据的分类方法及其模型训练方法、装置。

背景技术

自然灾害是自然环境中对生命安全和财产构成危害的极端事件，自然灾害的种类繁多，类型划分的越详细，描述的精度就越高，但分类难度也随之增加。随着大数据时代的到来，自然灾害数据的获取途径增加，获得的自然灾害数据量也随之增加，传统的人工分类方式已难以适应大数据量下的数据分类过程。

虽然现有技术中已存在利用神经网络模型对相关数据进行分类的手段，但还缺少用于自然灾害数据分类的相关模型；而且现有的神经网络模型在训练过程中缺少对自然灾害语义关系的结合手段，导致这类模型在进行自然灾害数据的分类过程中精度较低。

发明内容

有鉴于此，本发明的目的在于提供一种自然灾害数据的分类方法及其模型训练方法、装置，该模型在训练过程中结合训练文本中词语之间的语义关系，将不同词语所对应的本体特征向量、词语向量和字符向量融入到模型训练中，实现了对自然灾害语义关系的结合，提高了模型在不同使用功能场景下对自然灾害数据的分类精度，有利于降低人工分类成本。

第一方面，本发明实施例提供了一种用于自然灾害数据分类的模型训练方法，该方法包括以下步骤：

获取包含描述自然灾害的文本数据，并提取文本数据的词语向量和字符向量；

根据文本数据中的词语之间的语义关系，构建与自然灾害的类型相对应的领域本体数据集；

提取领域本体数据集中不同词语所对应的本体特征向量，并根据本体特征向量、词语向量和字符向量确定文本数据的特征融合向量；

将特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取特征融合向量的特征提取结果；

当特征提取结果满足预设阈值条件时，停止初始神经网络模型的特征提取训练，得到用于自然灾害数据分类的模型。

在一些实施方式中，获取包含描述自然灾害的文本数据，并提取文本数据的词语向量和字符向量的步骤，包括：

利用分词工具对文本数据进行分词处理，确定文本数据中包含的所有词语；

利用已完成训练的word2vec模型将词语转化为词语向量；

通过one-hot编码提取文本数据的字符特征向量，并将字符特征向量输入至已初始化的textCNN网络中进行语义处理，并将textCNN网络的输出结果确定为字符向量。

在一些实施方式中，根据文本数据中的词语之间的语义关系，构建与自然灾害的类型相对应的领域本体数据集的步骤，包括：

对文本数据进行分词处理，得到文本数据中包含的词语；

构建词语的语义网络图并获取各个词语的置信度结果，根据置信度结果确定文本数据中的关键词；

对关键词进行语义分析，并根据自然灾害的类型确定关键词之间的上下位关系结果及关键词对应的属性数据；其中，自然灾害的类型至少包括：洪水灾害、地震灾害、地质灾害、气象灾害、海洋灾害、生物灾害和森林草原火灾；

根据关键词、关键词之间的上下位关系结果以及关键词对应的属性数据，确定与自然灾害的类型相对应的领域本体数据集。

在一些实施方式中，构建词语的语义网络图并获取各个词语的置信度结果，根据置信度结果确定文本数据中的关键词的步骤，包括：

获取词语对应的语义类型，并根据语义类型对词语进行筛选，得到候选关键词；

根据候选关键词之间的语义关系，利用图传播算法构建语义网络图；

计算语义网络中候选关键词之间的置信度结果，并将置信度结果大于预设阈值的候选关键词确定为关键词。

在一些实施方式中，对关键词进行语义分析，并根据自然灾害的类型确定关键词之间的上下位关系结果及关键词对应的属性数据的步骤，包括：

根据关键词的语义结果，利用DBSCAN算法确定关键词之间的上下位关系；

获取自然灾害的类型，并根据类型确定关键词对应的属性值以及属性类型，并将属性值以及属性类型确定为属性数据；其中，属性类型至少包括：字符型、整数型、数值型、布尔型、枚举型和示例性。

在一些实施方式中，提取领域本体数据集中不同词语所对应的本体特征向量，并根据本体特征向量、词语向量和字符向量确定文本数据的特征融合向量的步骤，包括：

利用one-hot编码获得领域本体数据集中不同词语所对应的本体特征向量；

将字符向量输入至已完成训练的textCNN网络中进行字符提取，并将已提取的包含字符语义序列的字符向量记为字符特征向量；

将本体特征向量、词语向量和字符特征向量进行拼接处理，得到文本数据的特征融合向量。

在一些实施方式中，将特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取特征融合向量的特征提取结果的步骤，包括：

将预先构建的GRU循环神经网络确定为初始神经网络模型，并将特征融合向量双向输入至GRU循环神经网络中进行特征提取；

实时获取GRU循环神经网络输出的前向特征提取结果和后向特征提取结果，并将前向特征提取结果和后向特征提取结果确定为特征融合向量的特征提取结果。

第二方面，本发明实施例提供了一种自然灾害数据的分类方法，该方法包括以下步骤：

获取待分类的自然灾害数据；

将自然灾害数据输入至预先完成训练的自然灾害数据分类模型中，通过自然灾害数据分类模型实时生成自然灾害数据中不同词语对应的本体特征向量、词语向量和字符向量，确定自然灾害数据中包含的自然灾害关键词；其中，自然灾害数据分类模型通过第一方面提到的用于自然灾害数据分类的模型训练方法训练得到；

利用已确定的自然灾害关键词，对自然灾害数据进行分类，得到自然灾害数据的分类结果。

第三方面，本发明实施例提供了一种用于自然灾害数据分类的模型训练装置，该装置包括：

数据提取模块，用于获取包含描述自然灾害的文本数据，并提取文本数据的词语向量和字符向量；

领域本体数据集构建模块，用于根据文本数据中的词语之间的语义关系，构建与自然灾害的类型相对应的领域本体数据集；

特征融合向量确定模块，用于提取领域本体数据集中不同词语所对应的本体特征向量，并根据本体特征向量、词语向量和字符向量确定文本数据的特征融合向量；

模型训练模块，用于将特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取特征融合向量的特征提取结果；

模型获取模块，用于当特征提取结果满足预设阈值条件时，停止初始神经网络模型的特征提取训练，得到用于自然灾害数据分类的模型。

第四方面，本发明实施例提供了一种自然灾害数据的分类装置，该装置包括：

待分类数据获取模块，用于获取待分类的自然灾害数据；

数据分类执行模块，用于将自然灾害数据输入至预先完成训练的自然灾害数据分类模型中，通过自然灾害数据分类模型实时生成自然灾害数据中不同词语对应的本体特征向量、词语向量和字符向量，确定自然灾害数据中包含的自然灾害关键词；其中，自然灾害数据分类模型通过第一方面提到的用于自然灾害数据分类的模型训练方法训练得到；

分类结果确定模块，用于利用已确定的自然灾害关键词，对自然灾害数据进行分类，得到自然灾害数据的分类结果。

本发明实施例带来了以下有益效果：本发明实施例提供了一种自然灾害数据的分类方法及其模型训练方法、装置，在用于自然灾害数据分类的模型训练过程中，首先获取包含描述自然灾害的文本数据，并提取文本数据的词语向量和字符向量；再根据文本数据中的词语之间的语义关系，构建与自然灾害的类型相对应的领域本体数据集；然后提取领域本体数据集中不同词语所对应的本体特征向量，并根据本体特征向量、词语向量和字符向量确定文本数据的特征融合向量；再将特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取特征融合向量的特征提取结果；最后，当特征提取结果满足预设阈值条件时，停止初始神经网络模型的特征提取训练，得到用于自然灾害数据分类的模型。利用该模型进行自然灾害数据的分类过程时，首先获取待分类的自然灾害数据；然后将自然灾害数据输入至预先完成训练的自然灾害数据分类模型中，通过自然灾害数据分类模型实时生成自然灾害数据中不同词语对应的本体特征向量、词语向量和字符向量，确定自然灾害数据中包含的自然灾害关键词；最后利用已确定的自然灾害关键词，对自然灾害数据进行分类，得到自然灾害数据的分类结果。该模型在训练过程中结合训练文本中词语之间的语义关系，将不同词语所对应的本体特征向量、词语向量和字符向量融入到模型训练中，实现了对自然灾害语义关系的结合，提高了模型在不同使用功能场景下对自然灾害数据的分类精度，有利于降低人工分类成本。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法的流程图；

图2为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法中步骤S101的流程图；

图3为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法中步骤S102的流程图；

图4为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法中步骤S302的流程图；

图5为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法中步骤S303的流程图；

图6为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法中步骤S103的流程图；

图7为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法中步骤S104的流程图；

图8为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法中的语义网络图的示意图；

图9为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法中的关键词之间的上下位关系的示意图；

图10为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法中的初始神经网络模型的结构示意图；

图11为本发明实施例提供的一种自然灾害数据的分类方法的流程图；

图12为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法训练得到的分类准确度对比图；

图13为本发明实施例提供的一种用于自然灾害数据分类的模型训练方法训练得到的分类花费时长对比图；

图14为本发明实施例提供的一种用于自然灾害数据分类的模型训练装置的结构示意图；

图15为本发明实施例提供的一种自然灾害数据的分类装置的结构示意图；

图16为本发明实施例提供的一种电子设备的结构示意图。

图标：

1410-数据提取模块；1420-领域本体数据集构建模块；1430-特征融合向量确定模块；1440-模型训练模块；1450-模型获取模块；

1510-待分类数据获取模块；1520-数据分类执行模块；1530-分类结果确定模块；

101-处理器；102-存储器；103-总线；104-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

自然灾害是自然环境中对生命安全和财产构成危害的极端事件，以突发性灾害来说，主要包括地震、火山爆发、泥石流、海啸、台风、洪水等。突发性灾害作为一种典型的突发事件，其分类过程是根据事件的特征把各种突发事件划分为不同的类别。实际应用场景中，对事件的精准分类是应急管理工作的基础工作，只有首先确定该事件的类别，才能更快地找到处理问题的应对方案。

当前对于突发自然灾害事件的分类过程中还存在着领域间类别划分不统一、维度多样等问题。以教育领域为例，教育系统自然灾害突发事件分类主要参照教育领域相关的自然灾害类突发事件的分类与定级指标体系，涉及教育系统的自然灾害主要包括：洪涝灾害、气象灾害、地震灾害、地质灾害、海洋灾害、生物灾害和森林草原火灾等7类。自然灾害的种类繁多，类型划分的越详细，描述的精度就越高，但分类难度也随之增加。通过工作人员的主观经验对自然灾害数据进行类别划分，最终完成自然灾害数据的归类归档任务。

人工分类的方式存在诸多问题，例如：人工分类准确率不够高，且经验丰富的专家人员少且成本高；历史突发事件随时间积累增多，人工分类带来人力与时间成本的线性增加的难题；突发事件有可能归属时单个类别时无法更好地解释，存在多标签分类情况。随着大数据时代的到来，自然灾害数据的获取途径增加，获得的自然灾害数据量也随之增加，传统的人工分类方式已难以适应大数据量下的数据分类过程。

现有技术中已存在利用神经网络模型对相关数据进行分类的手段，在具体分类过程中，由于研究角度以及研究目的不同，在对突发事件的分类方式也不相同。在日常生活领域，通常利用事件属性进行分类，依据事件的定义提取事件的特征属性，并给每个特征属性赋予权重,利用特征属性对顶层事件类包含的事件进行分类；在工业生产领域，突发事件分类仍以定性分析为主，多数都是在经验的基础上进行归类与总结；在网络社交领域，利用DeepWalk方法将随机游走得到的节点序列当作句子，通过局部信息来学习节点的潜在表示，利用logistic回归算法进行事件多标签的分类；在交通运输领域，常使用HMAN-BiLSTMCRF的多任务联合学习模型，模型全连接层则根据输入的文本特征预测突发事件事件类别；而在新闻媒体领域，利用词语间相互关系或词语与类别间相互关系，构建双输入组合深度学习分类模型，实现突发事件新闻识别与分类；在网络安全领域，利用突发事件的时间和主体划分法，主要参考时间、事件主体等维度划分不同的类别。上述突发事件的分类是基于某种研究或实践需求而提出的，均具有非常强的领域针对性。但现有技术中还缺少用于自然灾害数据分类的相关模型；而且现有的神经网络模型在训练过程中缺少对自然灾害语义关系的结合手段，导致这类模型在进行自然灾害数据的分类过程中精度较低。

针对上述问题，本发明提出一种自然灾害数据的分类方法及其模型训练方法、装置，该模型在训练过程中结合训练文本中词语之间的语义关系，将不同词语所对应的本体特征向量、词语向量和字符向量融入到模型训练中，实现了对自然灾害语义关系的结合，提高了模型在不同使用功能场景下对自然灾害数据的分类精度，有利于降低人工分类成本。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种用于自然灾害数据分类的模型训练方法进行详细介绍，该方法的流程图如图1所示，包括以下步骤：

步骤S101，获取包含描述自然灾害的文本数据，并提取文本数据的词语向量和字符向量。

描述自然灾害的文本数据可通过自然灾害突发事件的相关标准、自然灾害主题词表以及自然灾害类的新闻报道等数据来进行获取，以文本数据进行保存和使用。实际获取过程中可能来源于纸质文档、照片等其它载体，通过扫描或拍照的方式获取其对应的文本数据。

文本数据获取后，通过相关分词工具将文本数据中包含的词语进行提取，并通过相关向量化操作来确定文本数据的词语向量和字符向量，并通过词语向量和字符向量来表征各自的语义。

步骤S102，根据文本数据中的词语之间的语义关系，构建与自然灾害的类型相对应的领域本体数据集。

领域本体是对于一个特定领域中的概念或关键词之间关系的一种描述，实际场景中，领域本体可用五元组来表达：O={C,R,F,A,I}；其中，C是本体概念的集合，用来描述领域内的实际概念；R是关系集合，用于描述概念之间的关系；F是上下文关系的集合；A是公理集合，代表本体内存在的事实关系；I是实例的集合。可见，领域本体中包含了多个集合，这些集合相互之间存在着语义关系，因此通过文本数据中词语之间的语义关系即可构建相应的领域本体数据集。

具体的说，以教育系统为例，可根据教育领域相关要求，明确教育系统自然灾害突发事件的定义和范围，确认自然在哈突发事件规定类型，明确教育系统自然灾害突发事件分类任务。然后，根据自然灾害主题词表、自然灾害公文公告和新闻报道、以及相关自然灾害标准文件，如GB/T 28921-2012 自然灾害分类与代码、GB 26376-2010 自然灾害管理基本术语等，通过信息处理技术提取文本预料，并抽取出可能成为概念或属性的候选词语并进行量化评价，从输入的领域相关语料中，使用模板匹配的方法自动抽取出语料存在的名词短语，作为自然灾害突发事件领域候选概念集，然后通过图传播方法对概念排序并得到其置信度，根据术语排序的置信度筛选出概率较大的概念作为核心概念。

对领域概念进行关系分析，构建核心概念之间的上下位关系；然后根据自然灾害突发事件类别描述，对概念属性进行确定，进一步明确属性值对应的范围以及属性值的类型。然后根据教育系统自然灾害突发事件历史数据语料，通过命名实体识别算法抽取出语料中的概念实例，形成教育系统自然灾害突发事件实例库，并与相应的本体概念形成关联，最终得到领域文本数据集。

步骤S103，提取领域本体数据集中不同词语所对应的本体特征向量，并根据本体特征向量、词语向量和字符向量确定文本数据的特征融合向量。

领域文本数据集中不同词语之间对应着不同的本体特征向量，结合已获取的词语向量和字符向量，可将这三个向量进行拼接操作得到文本数据的特征融合向量。

步骤S104，将特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取特征融合向量的特征提取结果。

该步骤将特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，值得一提的是，初始神经网络模型的结构不限于单一神经网络结构，可根据场景需求设置为混合神经网络模型。在模型的训练过程中对特征融合向量进行着实时特征提取，并将特征提取结果作为模型训练参数控制模型的训练进度。

步骤S105，当特征提取结果满足预设阈值条件时，停止初始神经网络模型的特征提取训练，得到用于自然灾害数据分类的模型。

特征提取结果主要考虑分类准确率和效率两个维度来对模型的训练结果进行整体评估，特征提取结果也可与已知的历史数据进行对比，进而判断特征提取结果的准确度。当准确度满足预设阈值条件时，例如，准确度高于90%，则停止初始神经网络的特征提取训练，得到用于自然灾害数据分类的模型。

在一些实施方式中，获取包含描述自然灾害的文本数据，并提取文本数据的词语向量和字符向量的步骤S101，如图2所示，包括：

步骤S201，利用分词工具对文本数据进行分词处理，确定文本数据中包含的所有词语。

具体的，可通过通过中文分词工具如jieba、LTP、SnowNLP、THULAC、NLPIR、HanLP等进行处理，最终得到文本数据中包含的所有词语。

步骤S202，利用已完成训练的word2vec模型将词语转化为词语向量；

使用word2vec模型生成词向量字典，根据词向量字典将可以得到每个分词的向量化表示，从而拼接成整个输入事件的词语向量。

步骤S203，通过one-hot编码提取文本数据的字符特征向量，并将字符特征向量输入至已初始化的textCNN网络中进行语义处理，并将textCNN网络的输出结果确定为字符向量。

通过one-hot编码提取文本数据的字符特征向量，字符特征向量通过textCNN层进一步提取出包含字符语义序列的字符，并记为字符向量。

在一些实施方式中，根据文本数据中的词语之间的语义关系，构建与自然灾害的类型相对应的领域本体数据集的步骤S102，如图3所示，包括：

步骤S301，对文本数据进行分词处理，得到文本数据中包含的词语。

具体可通过中文分词工具，如jieba、LTP、SnowNLP、THULAC、NLPIR、HanLP进行处理，得到文本数据中包含的词语。

步骤S302，构建词语的语义网络图并获取各个词语的置信度结果，根据置信度结果确定文本数据中的关键词。

通过信息处理技术提取文本语料，抽取出可能成为概念或属性的候选词语并进行量化评价，从输入的领域相关语料中，使用模板匹配的方法自动抽取出语料存在的名词短语，作为自然灾害突发事件领域候选概念集。

从自然灾害主题词表、自然灾害类公文公告和新闻报道，以及相关自然灾害标准等文件中抽取文本信息，将其作为构建本体的语料库，使用模板匹配的方法自动抽取出语料中存在的名词短语，作为候选术语词集。即给定一个特定领域的文档集D作为输入，从文档集D中抽取候选的术语，形式化地表示为

，对每一个候选术语

。候选术语

可以通过word2vec模型获取对应的术语向量

，两个术语的语义相关度可以通过术语间的术语向量的余弦相似度来衡量。因此，以候选术语为节点，术语间的语义相关度大于设定阈值时建立边关系，形成“术语语义网络”，通过图传播方法对概念排序并得到其置信度，根据术语排序的置信度筛选出概率较大的概念作为核心概念，即领域语料D对应的术语语义网络是一个全连通的带权无向图

，任意一个顶点集

中的顶点

代表一个

中的候选术语，即

；任意一条遍集

中的边

的权重

，代表候选术语

、

间的语义相关度，即这两个术语在语义上的相似程度。将顶点c在第k次迭代中的置信度值形式化表示为

，并将c的初始置信度值表示为

。若候选术语c在种子集合中，即

，否则令

。其中，术语种子集合可以人工构建也可以自动构建。设计传播算法的迭代过程如下：

其中，

为候选关键词

在第k+1次迭代中的置信度；

为候选关键词

在第k次迭代中的置信度；

为候选关键词

在所述语义网络中的邻居节点集合；

为第k次迭代中，候选关键词

传播给候选关键词

的置信度。

然后通过图传播方法对概念排序并得到其置信度，根据术语排序的置信度筛选出概率较大的概念作为核心概念，该核心概念即为关键词。

步骤S303，对关键词进行语义分析，并根据自然灾害的类型确定关键词之间的上下位关系结果及关键词对应的属性数据。

其中，自然灾害的类型至少包括：洪水灾害、地震灾害、地质灾害、气象灾害、海洋灾害、生物灾害和森林草原火灾。上述七种自然灾害类型主要对应教育系统中的自然灾害类型，对于此类关键词中很多父类字符串会以后缀的形式出现在子类中，如父类-灾害、子类-洪水灾害；子类的限定词和父类字符串没有直接相连，需要单独抽取子类限定词，最终构建关键词的上下位关系。

根据自然灾害突发事件类别描述，对关键词属性进行确定，进一步明确属性值对应的范围以及属性值的类型。

步骤S304，根据关键词、关键词之间的上下位关系结果以及关键词对应的属性数据，确定与自然灾害的类型相对应的领域本体数据集。

根据教育系统自然灾害突发事件历史数据语料，通过命名实体识别算法，如HMM、CRF、BiLSTM-CRF、BERT-BiLSTM-CRF等抽取出语料中的关键词实例，形成教育系统自然灾害突发事件实例库，并与相应的本体关键词形成关联，最终得到与自然灾害的类型相对应的领域本体数据集。

下面以文档内一端文本信息输入为例，“洪水灾害。由大雨、暴雨引起的水过多或过于集中，所形成的诸如水道急流、山洪暴发、河水泛滥、淹没农田、毁坏环境与各种设施等灾害现象”。在一些实施方式中，构建词语的语义网络图并获取各个词语的置信度结果，根据置信度结果确定文本数据中的关键词的步骤S302，如图4所示，包括：

步骤S401，获取词语对应的语义类型，并根据语义类型对词语进行筛选，得到候选关键词。

具体的说，对上述文本进行内分词处理，结合各个词语的语义类型，得到如下分词结果：“洪水|n 灾害|n 由|p 大雨|n 暴雨|n 引起|v 的|u 水|n 过多|a 或|c 过于|d 集中|v 所|u 形成|v 的|u 诸如|v 水道|n 急流|n 山洪|n 暴发|v 河水|n 泛滥|v 淹没|v农田|n 毁坏|v 环境|n 与|c 各种|r 设施|n 等|u 灾害|n 现象|n”。

通过筛选匹配出的候选关键词如下：“洪水灾害、大雨暴雨、水道急流、急流山洪、灾害现象、洪水、灾害、大雨、暴雨、水、水道、急流、山洪、河水、农田、环境、设施、灾害、现象”。

步骤S402，根据候选关键词之间的语义关系，利用图传播算法构建语义网络图。

构建的语义网络图的示意图如图8所示，再次不再赘述。

步骤S403，计算语义网络中候选关键词之间的置信度结果，并将置信度结果大于预设阈值的候选关键词确定为关键词。

通过计算各个候选关键词之间的置信度结果并进行阈值判断，最终得到的关键词为“洪水灾害、大雨暴雨、水道急流、洪水、水、急流、山洪、灾害”。在一些实施方式中，对关键词进行语义分析，并根据自然灾害的类型确定关键词之间的上下位关系结果及关键词对应的属性数据的步骤S303，如图5所示，包括：

步骤S501，根据关键词的语义结果，利用DBSCAN算法确定关键词之间的上下位关系。

上下位关系图如图9所示，再次不再赘述。

步骤S502，获取自然灾害的类型，并根据类型确定关键词对应的属性值以及属性类型，并将属性值以及属性类型确定为属性数据；其中，属性类型至少包括：字符型、整数型、数值型、布尔型、枚举型和示例性。

根据自然灾害突发事件类别描述，确定概念的属性，并定义属性值范围，以及属性值的类型。属性有着许多限制，如值的类型、枚举值、值的数量等，值类型有String/Integer/Number/Boolean/ Enumerated/Instanced等。例如概念“洪水灾害”的现象属性可以是枚举值，值类型为String，且范围为[大雨，暴雨，水道急流，山洪暴发，河水泛滥，淹没农田，毁坏环境，毁坏设施]。

实际场景中可与历史事件相关联，通过命名实体识别算法从教育系统自然灾害突发事件历史数据语料中抽取概念实例，形成教育系统自然灾害突发事件实例库，并与相应的本体概念形成关联。

以洪水灾害历史事件为例，事件描述文本信息为：

“某市‘8.16’流域性特大洪水灾害，是1965年以来某市最大的一次洪涝灾害，致使某市6个乡镇农业及水利、交通、电力、通讯等基础设施水毁极其严重，造成了重大经济损失。‘8.16’山洪灾害已成为某市2019年山洪灾害典型案例”。

从上述语料中通过算法可以抽取出概念实例“‘8.16’山洪灾害”、“某市‘8.16’流域性特大洪水灾害”，并人工将其归并到“山洪灾害”概念对应的实例库，形成本体概念与概念实例的关联。

在一些实施方式中，提取领域本体数据集中不同词语所对应的本体特征向量，并根据本体特征向量、词语向量和字符向量确定文本数据的特征融合向量的步骤S103，如图6所示，包括：

步骤S601，利用one-hot编码获得领域本体数据集中不同词语所对应的本体特征向量。

从本体数据集中相关概念层次关系文件中抽取领域本体，使用one-hot编码对领域本体进行特征标注，即领域本体特征。通过词语匹配本体将得到词语对应的本体特征，若词语没有对应的领域本体则即该词语对应本体特征向量为零向量，从而可实现词语本体特征向量拼接成整个输入事件的本体特征向量。

步骤S602，将字符向量输入至已完成训练的textCNN网络中进行字符提取，并将已提取的包含字符语义序列的字符向量记为字符特征向量。

字符向量输入至textCNN网络中进一步进行字符语义处理，最终得到字符特征向量。

步骤S603，将本体特征向量、词语向量和字符特征向量进行拼接处理，得到文本数据的特征融合向量。

在一些实施方式中，将特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取特征融合向量的特征提取结果的步骤S104，如图7所示，包括：

步骤S701，将预先构建的GRU循环神经网络确定为初始神经网络模型，并将特征融合向量双向输入至GRU循环神经网络中进行特征提取。

将本体特征向量、词语向量和字符特征向量进行拼接处理得到的特征融合向量作为双向GRU的输入进行特征提取。

步骤S702，实时获取GRU循环神经网络输出的前向特征提取结果和后向特征提取结果，并将前向特征提取结果和后向特征提取结果确定为特征融合向量的特征提取结果。

将前向GRU和后向GRU提取的特征作为注意力机制层的输入，进一步通过注意力机制丰富文本内部特征。

具体的说，该模型的结构示意图如图10所示，其完整的训练过程如下：

从json格式保存的概念层次关系文件抽取出领域本体，使用one-hot编码对领域本体进行特征标注，即领域本体特征，假设输入事件描述文本为s, jieba分词处理得到n个词语，通过词语匹配本体将得到词语对应的本体特征，若词语没有对应的领域本体则即该词语对应本体特征向量为零向量，从而可实现词语本体特征向量拼接成整个输入事件的本体特征向量

。

使用jieba分词工具对输入的事件描述文本进行分词处理，使用word2vec模型生成词向量字典，假设输入事件描述文本为s, 由m个字符组成，分词处理得到n个词语，根据词向量字典将可以得到每个分词的向量化表示，从而拼接成整个输入事件的词语向量，则该事件的词语向量特征记做

；同样使用 word2vec 工具，以单字为粒度进行字向量训练，生成字向量字典，根据字向量字典，确定第i个字

的字向量组成为

，则该事件的字符向量可记做

。

事件的字符向量

经过txtCNN层处理后得到处理后的事件字符向量

。

在特征融合层，事件的特征向量、词语向量、字符向量进行拼接形成事件的特征融合向量，即

。将

作为双向GRU的输入，进一步提取事件特征，将前向GRU和后向GRU提取的特征作为注意力机制层的输入，通过注意力机制丰富文本内部特征，一个事件最后经过混合神经网络特征提取输出一个7维向量

。

将7维向量

作为分类层的输入，通过Sortmax函数选定概率最大的类别作为分类结果。除此之外，增加事件特征维度时还可以考虑自然灾害突发事件的领域知识库、领域知识图谱、领域主题库等维度，可以单独或组合从其提取相应特征，与字符特征、词语特征进行融合形成事件特征作为本发明混合神经网络模型的输入。另外，本发明中教育系统自然灾害突发事件分类模型训练采用了一种混合神经网络结构，将网络结构部分层替换其他算法也能做模型训练，比如TextCNN层使用的TextCNN算法可以被替换成CNN；双向GRU层使用的Bi-GRU结构可以被替换成Bi-LSTM。

通过上述实施例提到的用于自然灾害数据分类的模型训练方法可知，该模型在训练过程中结合训练文本中词语之间的语义关系，将不同词语所对应的本体特征向量、词语向量和字符向量融入到模型训练中，实现了对自然灾害语义关系的结合，提高了模型在不同使用功能场景下对自然灾害数据的分类精度，有利于降低人工分类成本。

本发明实施例还提供了一种自然灾害数据的分类方法，如图11所示，该方法包括以下步骤：

步骤S1101，获取待分类的自然灾害数据；

步骤S1102，将自然灾害数据输入至预先完成训练的自然灾害数据分类模型中，通过自然灾害数据分类模型实时生成自然灾害数据中不同词语对应的本体特征向量、词语向量和字符向量，确定自然灾害数据中包含的自然灾害关键词。

值得一提的是，自然灾害数据分类模型通过上述实施例中提到的用于自然灾害数据分类的模型训练方法训练得到。

步骤S1103，利用已确定的自然灾害关键词，对自然灾害数据进行分类，得到自然灾害数据的分类结果。

本发明实施例所提供的自然灾害数据分类模型，其实现原理及产生的技术效果和前述用于自然灾害数据分类的模型训练方法训练得到的模型是相同的，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

实际场景中，利用该用于自然灾害数据分类的模型训练方法进行模型训练过程中，从教育系统自然灾害突发事件历史语料库中，随机挑选类别标注无误的4000条事件描述文本数据进行模型训练，另外，从上述语料库中随机挑选类别标注无误的1000条进行模型测试，准确度对比结果见图12，可见该模型训练方法的准确度有明显提升；花费时长对比结果见图13，可见该模型在对自然灾害数据分类过程中相比人工分类在效率上有明显提升。

对应于上述用于自然灾害数据分类的模型训练方法的实施例，本发明实施例提供了一种用于自然灾害数据分类的模型训练装置，如图14所示，该装置包括：

数据提取模块1410，用于获取包含描述自然灾害的文本数据，并提取文本数据的词语向量和字符向量；

领域本体数据集构建模块1420，用于根据文本数据中的词语之间的语义关系，构建与自然灾害的类型相对应的领域本体数据集；

特征融合向量确定模块1430，用于提取领域本体数据集中不同词语所对应的本体特征向量，并根据本体特征向量、词语向量和字符向量确定文本数据的特征融合向量；

模型训练模块1440，用于将特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取特征融合向量的特征提取结果；

模型获取模块1450，用于当特征提取结果满足预设阈值条件时，停止初始神经网络模型的特征提取训练，得到用于自然灾害数据分类的模型。

本发明实施例所提供的用于自然灾害数据分类的模型训练装置，其实现原理及产生的技术效果和前述用于自然灾害数据分类的模型训练方法的实施例相同，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

对应于上述自然灾害数据的分类方法的实施例，本发明实施例提供了一种自然灾害数据的分类装置，如图15所示，该装置包括：

待分类数据获取模块1510，用于获取待分类的自然灾害数据；

数据分类执行模块1520，用于将自然灾害数据输入至预先完成训练的自然灾害数据分类模型中，通过自然灾害数据分类模型实时生成自然灾害数据中不同词语对应的本体特征向量、词语向量和字符向量，确定自然灾害数据中包含的自然灾害关键词；其中，自然灾害数据分类模型通过上述实施例中提到的用于自然灾害数据分类的模型训练方法训练得到；

分类结果确定模块1530，用于利用已确定的自然灾害关键词，对自然灾害数据进行分类，得到自然灾害数据的分类结果。

本发明实施例所提供的自然灾害数据的分类装置，其实现原理及产生的技术效果和前述自然灾害数据的分类方法的实施例相同，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

本实施例还提供一种电子设备，为该电子设备的结构示意图如图16所示，该设备包括处理器101和存储器102；其中，存储器102用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述用于自然灾害数据的分类方法以及用于自然灾害数据分类的模型训练方法的步骤。

图16所示的服务器还包括总线103和通信接口104，处理器101、通信接口104和存储器102通过总线103连接。

其中，存储器102可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图16中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102，处理器101读取存储器102中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前述实施例的方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于自然灾害数据分类的模型训练方法，其特征在于，所述方法包括：

获取包含描述自然灾害的文本数据，并提取所述文本数据的词语向量和字符向量；

根据所述文本数据中的词语之间的语义关系，构建与所述自然灾害的类型相对应的领域本体数据集；

提取所述领域本体数据集中不同词语所对应的本体特征向量，并根据所述本体特征向量、所述词语向量和所述字符向量确定所述文本数据的特征融合向量；

将所述特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取所述特征融合向量的特征提取结果；

当所述特征提取结果满足预设阈值条件时，停止所述初始神经网络模型的特征提取训练，得到用于自然灾害数据分类的模型。

2.根据权利要求1所述的用于自然灾害数据分类的模型训练方法，其特征在于，获取包含描述自然灾害的文本数据，并提取所述文本数据的词语向量和字符向量的步骤，包括：

利用分词工具对所述文本数据进行分词处理，确定所述文本数据中包含的所有词语；

利用已完成训练的word2vec模型将所述词语转化为词语向量；

通过one-hot编码提取所述文本数据的字符特征向量，并将所述字符特征向量输入至已初始化的textCNN网络中进行语义处理，并将所述textCNN网络的输出结果确定为所述字符向量。

3.根据权利要求1所述的用于自然灾害数据分类的模型训练方法，其特征在于，根据所述文本数据中的词语之间的语义关系，构建与所述自然灾害的类型相对应的领域本体数据集的步骤，包括：

对所述文本数据进行分词处理，得到所述文本数据中包含的词语；

构建所述词语的语义网络图并获取各个词语的置信度结果，根据所述置信度结果确定所述文本数据中的关键词；

对所述关键词进行语义分析，并根据所述自然灾害的类型确定所述关键词之间的上下位关系结果及所述关键词对应的属性数据；其中，所述自然灾害的类型至少包括：洪水灾害、地震灾害、地质灾害、气象灾害、海洋灾害、生物灾害和森林草原火灾；

根据所述关键词、所述关键词之间的上下位关系结果以及所述关键词对应的属性数据，确定所述与所述自然灾害的类型相对应的领域本体数据集。

4.根据权利要求3所述的用于自然灾害数据分类的模型训练方法，其特征在于，构建所述词语的语义网络图并获取各个词语的置信度结果，根据所述置信度结果确定所述文本数据中的关键词的步骤，包括：

获取所述词语对应的语义类型，并根据所述语义类型对所述词语进行筛选，得到候选关键词；

根据所述候选关键词之间的语义关系，利用图传播算法构建所述语义网络图；

计算所述语义网络中所述候选关键词之间的置信度结果，并将置信度结果大于预设阈值的所述候选关键词确定为所述关键词。

5.根据权利要求3所述的用于自然灾害数据分类的模型训练方法，其特征在于，对所述关键词进行语义分析，并根据所述自然灾害的类型确定所述关键词之间的上下位关系结果及所述关键词对应的属性数据的步骤，包括：

根据所述关键词的语义结果，利用DBSCAN算法确定所述关键词之间的上下位关系；

获取所述自然灾害的类型，并根据所述类型确定所述关键词对应的属性值以及属性类型，并将所述属性值以及所述属性类型确定为所述属性数据；其中，所述属性类型至少包括：字符型、整数型、数值型、布尔型、枚举型和示例性。

6.根据权利要求1所述的用于自然灾害数据分类的模型训练方法，其特征在于，提取所述领域本体数据集中不同词语所对应的本体特征向量，并根据所述本体特征向量、所述词语向量和所述字符向量确定所述文本数据的特征融合向量的步骤，包括：

利用one-hot编码获得所述领域本体数据集中不同词语所对应的本体特征向量；

将所述字符向量输入至已完成训练的textCNN网络中进行字符提取，并将已提取的包含字符语义序列的所述字符向量记为字符特征向量；

将所述本体特征向量、所述词语向量和所述字符特征向量进行拼接处理，得到所述文本数据的特征融合向量。

7.根据权利要求1所述的用于自然灾害数据分类的模型训练方法，其特征在于，将所述特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取所述特征融合向量的特征提取结果的步骤，包括：

将预先构建的GRU循环神经网络确定为所述初始神经网络模型，并将所述特征融合向量双向输入至所述GRU循环神经网络中进行特征提取；

实时获取所述GRU循环神经网络输出的前向特征提取结果和后向特征提取结果，并将所述前向特征提取结果和所述后向特征提取结果确定为所述特征融合向量的特征提取结果。

8.一种自然灾害数据的分类方法，其特征在于，所述方法包括：

获取待分类的自然灾害数据；

将所述自然灾害数据输入至预先完成训练的自然灾害数据分类模型中，通过所述自然灾害数据分类模型实时生成所述自然灾害数据中不同词语对应的本体特征向量、词语向量和字符向量，确定所述自然灾害数据中包含的自然灾害关键词；其中，所述自然灾害数据分类模型通过权利要求1-7任一项所述的用于自然灾害数据分类的模型训练方法训练得到；

利用已确定的所述自然灾害关键词，对所述自然灾害数据进行分类，得到所述自然灾害数据的分类结果。

9.一种用于自然灾害数据分类的模型训练装置，其特征在于，所述装置包括：

数据提取模块，用于获取包含描述自然灾害的文本数据，并提取所述文本数据的词语向量和字符向量；

领域本体数据集构建模块，用于根据所述文本数据中的词语之间的语义关系，构建与所述自然灾害的类型相对应的领域本体数据集；

特征融合向量确定模块，用于提取所述领域本体数据集中不同词语所对应的本体特征向量，并根据所述本体特征向量、所述词语向量和所述字符向量确定所述文本数据的特征融合向量；

模型训练模块，用于将所述特征融合向量输入至预先构建的初始神经网络模型中进行特征提取训练，并实时获取所述特征融合向量的特征提取结果；

模型获取模块，用于当所述特征提取结果满足预设阈值条件时，停止所述初始神经网络模型的特征提取训练，得到用于自然灾害数据分类的模型。

10.一种自然灾害数据的分类装置，其特征在于，所述装置包括：

待分类数据获取模块，用于获取待分类的自然灾害数据；

数据分类执行模块，用于将所述自然灾害数据输入至预先完成训练的自然灾害数据分类模型中，通过所述自然灾害数据分类模型实时生成所述自然灾害数据中不同词语对应的本体特征向量、词语向量和字符向量，确定所述自然灾害数据中包含的自然灾害关键词；其中，所述自然灾害数据分类模型通过权利要求1-7任一项所述的用于自然灾害数据分类的模型训练方法训练得到；

分类结果确定模块，用于利用已确定的所述自然灾害关键词，对所述自然灾害数据进行分类，得到所述自然灾害数据的分类结果。