CN111079031B

CN111079031B - 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法

Info

Publication number: CN111079031B
Application number: CN201911387714.1A
Authority: CN
Inventors: 王鹤松; 杨震
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-09-12
Anticipated expiration: 2039-12-27
Also published as: CN111079031A

Abstract

本发明公开了一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法，包括以下步骤：步骤(1)接收社交媒体文本数据并预处理；步骤(2)构建灾难单词预训练词向量表，用于社交媒体文本数据转化为词向量；步骤(3)通过步骤(2)更新后的词向量表，把经过步骤(1)预处理后的社交媒体文本数据转化成维度为d的词向量，并利用XGBoost算法对社交媒体文本数据进行信息类别分类和重要性类别分类；步骤(4)对社交媒体文本数据的信息分类结果和警报性分类结果进行加权确定所含文本信息的重要性。实验结果表明，社交媒体文本数据的信息重要性分类效果有明显提升。

Description

一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法

技术领域

本发明涉及一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法，属于互联网信息分类技术领域。

背景技术

社交媒体已经成为人类生活中不可或缺的一部分，如推特、微博等。当自然灾害发生时，如火灾、地震、山洪、海啸、泥石流等自然灾害或枪击、抢劫等突发事件时，如果仅仅通过媒体转播，事件救援的周期会非常缓慢。2019年2月28日中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》，截至2018年12月，我国网民规模达8.29亿，普及率达59.6％，较2017年底提升3.8个百分点，全年新增网民5653万；我国手机网民规模达8.17亿，网民通过手机接入互联网比例高达98.6％，人们喜欢在社交媒体上进行灾后评估或活动。如何通过对社交媒体上的文本进行分类来过滤此类自然灾害或紧急情况并将重要信息报告给相关人员，让工作人员了解事件的进展情况以提供帮助，是一个很具有挑战性的工作。

发明内容

为了解决上述当灾难来临时评估社交媒体文本信息重要性的问题，本发明提出一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法，具体设计思路为社交媒体上的文本信息定义信息类别，以及警报性类别，并赋予每个类别的重要性分数，把社交媒体上的文本数据进行信息类别分类和警报性分类，通过加权函数对文本的信息类别和警报性类别进行加权，输出结果是一个重要性打分，例如，当地震发生时，受害群众通过社交平台发布的需要救援的信息，在本方法中就被分类为信息类别为请求救援类，警报性类别为严重，加权重要性得分为1，然后根据信息的重要性得分反馈给社交媒体，通过在社交媒体上扩散，来寻找附近可以提供帮助的人，利用社交平台来帮助灾难的救援。

本发明主要分为以下五步：

步骤(1)接收社交媒体文本数据并预处理

原始社交媒体文本数据包含许多非文本信息，这将对后续的模型训练产生负面影响。所使用的方法包括一下步骤：

步骤(1.1)文本预处理

对社交媒体文本数据进行分词、去除停用，英文大写转小写，中文繁体转简体。

步骤(1.2)消除数据中的冗余推文

数据中含有很有相似或者完全相同的推文，消除冗余的目的是去除掉这些相似或完全相同的推文；推文之间的相似性定义如下公式所示；

其中T₁,T₂表示两条推文，length(∩(T₁,T₂))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数。length(∪(T₁,T₂))表示两条推文的字符或字的总数。阈值θ设置为0.4,当两条推文的相似性大于等于阈值θ时，删除T₁和T₂之间字符或字总数较少的推文。

步骤(2)构建灾难单词预训练词向量表，用于社交媒体文本数据转化为词向量步骤(2.1)词向量的初始化

选择网络上基于相关自然灾害事件训练好的灾难单词预训练词向量表对训练数据进行转化，训练数据是由TREC官方提供的预处理后的有信息类别和警报性类别标签的推特数据，词向量维度d设置为200。

步骤(2.2)更新词向量表

利用训练数据对LSTM模型进行训练，更新灾难单词预训练词向量表，训练完成后提取更新后的灾难单词预训练词向量表用于社交媒体文本数据转化为词向量，作为后续分类模型的输入。

步骤(3)用XGBoost算法进行信息分类和警报性分类

其中K为树的总个数，f_k表示第k颗树，x_i代表通过更新后的词向量表转化为词向量的社交媒体文本数据，表示对x_i的分类结果，在警报性分类上，/>是单值，在信息分类上，是多值。

步骤(3.1)训练模型

训练数据是由TREC官方提供的预处理后有信息类别和警报性类别标签的推特数据，规模为三万条，推文的信息类别个数在五个以内，用XGBoost对每个信息类别进行二分类，信息类别分类概率阈值设置为0.6，训练25个分类器，对应信息类别个数，采用一对一(OVO)的方式集成多分类器。推文的警报性类别为一个，用XGBoost对警报类别进行四分类，训练一个四分类器。

步骤(3.2)验证模型

从TREC官方提供的测试数据集中选取推文作为验证集，验证分类模型的性能。

步骤(3.3)社交媒体文本数据信息类别分类

推文信息类别分类过程中，推文在信息类别上可以同时包含多个信息类，规定推文所包含的信息类个数不大于5，利用训练得到的信息分类模型对后续的无标签的社交媒体文本数据进行信息分类。

步骤(3.4)社交媒体文本数据警报性类别分类

推文警报性类别分类过程中，推文在警报性类别上只能包含一个类别，利用训练得到的警报性分类模型对后续无标签的社交媒体文本数据进行警报性分类。

步骤(4)对信息分类结果和警报性结果进行加权

步骤(4.1)创建信息类别分数表和警报性类别分数表

为TREC官方给定的信息类别和警报性类别设计重要性分数，对信息类别和警报性类别分别创建类别分数表。

步骤(4.2)对信息分类结果和警报性结果进行加权

根据社交媒体文本数据的信息类别和警报性类别对应表内的分数进行加权求和，并将分数标准化在[0,1]之间，加权公式如下：

其中x表示一条推文，f(x)表示推文结合信息分类和警报性分类的加权分数，分数在[0,1]之间，O(x)表示推文被XGBoost模型分类出来的信息类别，|O(x)|表示推文被分类完成后的信息类别的个数，Oⁱ(x)表示推文信息类别中第i个类别对应信息类别分数表的分数，G(x)表示推文警报性类别对应警报性类别分数表的分数，A表示信息类别分数表类别的平均分数，B表示警报性类别分数表类别的平均分数。

有益效果

本发明可以对社交媒体的关于灾害的文本数据进行分类，判断其信息的重要性，达到了比较精准的分类性能，通过本发明，当灾害发生时，可以将社交媒体上那些需要救援的信息和能提供帮助的信息反馈给社交平台，对灾害的救援活动提供帮助。

附图说明

图一为信息类别分数图。

图二为警报性类别分数图。

图三为验证集性能图。

图四为方法流程图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明步骤(1)接收社交媒体文本数据并预处理

本发明中采用的训练数据集是由TREC官方提供的关于灾难信息的有标签数据集，是推特文本数据，但本发明不限于推文，还可以适用于其他的分类，例如微信，微博等社交平台上的文本数据。数据集包含三万条已经标注好的信息类别和警报性类别的文本数据，信息类别和警报性类别是TREC官方提供的类别表，其中信息类别有25类，包括请求类(需要帮助/信息，请求搜索和救援)，号召行为类(转移人员/志愿者等)，报道类(新闻/天气等)，其他(讨论/情绪等)，每条数据可以包含多个信息类别，推文既可以是请求类(需要帮助)，也可以是报道类(新闻)，规定每条推文属于的信息类别不多于5个。警报性类别有四类：严重，高，中，低，每条推文只能有一个警报性类别。例如，当地震发生时，官方通过社交平台发布的需要救援的信息，文本的信息类别为请求救援类，同样也是报道新闻类，警报性类别为严重。

步骤(1.1)文本预处理

步骤(1.2)消除数据中的冗余推文

其中T₁,T₂表示两条推文，length(∩(T₁,T₂))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数。length(∪(T₁,T₂))表示两条推文的字符或字的总数。阈值θ的取值为0.4,当两条推文的相似性大于等于阈值θ时，删除T₁和T₂之间字符或字总数较少的推文。

例如推文一：One dead,three injured in Poway synagogue shooting.

推文二：One dead,three injured Poway synagogue shoot.

这两条推文的相似度为0.4，等于阈值θ，于是删除字数较少的推文二,保留推文一。

选择网络上基于相关自然灾害事件训练好的灾难单词预训练词向量表对训练数据进行转化，词向量维度d设置为200。

步骤(2.2)更新词向量表

步骤(3)用XGBoost算法进行信息分类和警报性分类

步骤(3.1)训练模型

训练数据是由TREC官方提供的预处理后有信息类别和警报性类别标签的推特数据，规模为三万条，推文的信息类别个数在五个以内，用XGBoost对每个信息类别进行二分类，信息类别分类概率阈值设置为0.6，当二分类中该信息类的概率大于等于0.6时，推文被分为该信息类。训练25个分类器，25为信息类别表中信息类别的个数，为每个分类器训练合适的树的个数K，采用一对一(OVO)的方式集成成多分类器。推文的警报性类别为一个，用XGBoost对警报类别进行四分类，训练一个四分类器。

步骤(3.2)验证模型

从TREC官方提供的测试数据集中随机选取推文作为验证集，验证分类模型的性能，分类器性能如图3所示。

步骤(3.3)推文信息类别分类

步骤(3.3)推文警报性类别分类

步骤(4)对信息分类结果和警报性结果进行加权

步骤(4.1)创建信息类别分数表和警报性类别分数表

为TREC官方给定的信息类别和警报性类别设计重要性分数，对信息类别和警报性类别分别创建类别分数表。(如图一，二所示)。

步骤(4.2)对信息分类结果和警报性结果进行加权

根据推文的信息类别和警报性类别对应表内的分数进行加权求和，并将分数标准化在[0,1]之间，加权公式如下：

Claims

1.一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法，其特征在于：

本方法的实施过程如下，

步骤(1)接收社交媒体文本数据并预处理；

步骤(2)构建灾难单词预训练词向量表，用于社交媒体文本数据转化为词向量；

步骤(3)通过步骤(2)更新后的词向量表，把经过步骤(1)预处理后的测试文本数据转化成维度为d的词向量，并利用XGBoost算法对社交媒体文本数据进行信息类别分类和警报性类别分类；

步骤(4)对社交媒体文本数据的信息分类结果和警报性分类结果进行加权确定所含文本信息的重要性；

具体的，步骤(3)中所述用XGBoost算法进行信息分类和警报性分类的模型如下：

其中K为树的总个数，f_k表示第k颗树，x_i代表通过更新后的词向量表转化为词向量的社交媒体文本数据，表示对x_i的分类结果，在警报性分类上，/>是单值，在信息分类上，/>是多值；

所述信息类别分类过程中，训练集是由TREC官方提供的预处理后已经标记好的有信息类别标签的文本数据，推文在信息类别上同时包含多个信息类，规定推文所包含的信息类个数不大于5，利用训练得到的信息分类模型对后续的无标签的数据进行信息分类；

所述警报性类别分类过程中，训练集是由TREC官方提供的预处理后已经标记好的有警报性类别标签的文本数据，社交媒体上的文本数据在警报性类别上只能包含一个类别，利用训练得到的警报性分类模型对后续无标签的数据进行警报性分类；步骤(4)的实施过程具体如下，

对信息类别和警报性类别分别创建类别分数表，类别分数表是根据每个信息类别和警报性类别的重要性自定义的分数表，根据推文被XGBoost分类完成后确定的信息类别和警报性类别对应表内的分数进行加权求和，并将分数标准化在[0,1]之间，加权公式如下：

2.根据权利要求1所述的一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法，其特征在于：步骤(1)所述预处理包括：

步骤(1.1)文本预处理

对社交媒体文本数据进行分词，去除停用，英文大写转小写，中文繁体转简体；

步骤(1.2)消除数据中的冗余推文，具体如下

计算推文之间的相似性定义如下公式所示；

其中T₁,T₂表示两条推文，length(∩(T₁,T₂))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数；length(∪(T₁,T₂))表示两条推文的字符或字的总数；当两条推文的相似性大于等于阈值θ时，删除T₁和T₂之间字符或字总数较少的推文。

3.根据权利要求1所述的一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法，其特征在于：步骤(2)的实施过程如下，

步骤(2.1)词向量的初始化

选择网络上基于自然灾害事件训练好的灾难单词预训练词向量表,对训练数据进行转化，转化为d维向量；

步骤(2.2)更新词向量表

利用训练数据对LSTM模型进行训练，更新灾难单词预训练词向量表，训练完成后提取更新后的灾难单词预训练词向量表用于预处理后的社交媒体文本数据转化为词向量，作为后续分类模型的输入。