CN111079031B - 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法 - Google Patents

一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法 Download PDF

Info

Publication number
CN111079031B
CN111079031B CN201911387714.1A CN201911387714A CN111079031B CN 111079031 B CN111079031 B CN 111079031B CN 201911387714 A CN201911387714 A CN 201911387714A CN 111079031 B CN111079031 B CN 111079031B
Authority
CN
China
Prior art keywords
information
classification
alarm
social media
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911387714.1A
Other languages
English (en)
Other versions
CN111079031A (zh
Inventor
王鹤松
杨震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911387714.1A priority Critical patent/CN111079031B/zh
Publication of CN111079031A publication Critical patent/CN111079031A/zh
Application granted granted Critical
Publication of CN111079031B publication Critical patent/CN111079031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法,包括以下步骤:步骤(1)接收社交媒体文本数据并预处理;步骤(2)构建灾难单词预训练词向量表,用于社交媒体文本数据转化为词向量;步骤(3)通过步骤(2)更新后的词向量表,把经过步骤(1)预处理后的社交媒体文本数据转化成维度为d的词向量,并利用XGBoost算法对社交媒体文本数据进行信息类别分类和重要性类别分类;步骤(4)对社交媒体文本数据的信息分类结果和警报性分类结果进行加权确定所含文本信息的重要性。实验结果表明,社交媒体文本数据的信息重要性分类效果有明显提升。

Description

一种基于深度学习和XGBoost算法的博文关于灾难信息重要 性加权分类方法
技术领域
本发明涉及一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法,属于互联网信息分类技术领域。
背景技术
社交媒体已经成为人类生活中不可或缺的一部分,如推特、微博等。当自然灾害发生时,如火灾、地震、山洪、海啸、泥石流等自然灾害或枪击、抢劫等突发事件时,如果仅仅通过媒体转播,事件救援的周期会非常缓慢。2019年2月28日中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》,截至2018年12月,我国网民规模达8.29亿,普及率达59.6%,较2017年底提升3.8个百分点,全年新增网民5653万;我国手机网民规模达8.17亿,网民通过手机接入互联网比例高达98.6%,人们喜欢在社交媒体上进行灾后评估或活动。如何通过对社交媒体上的文本进行分类来过滤此类自然灾害或紧急情况并将重要信息报告给相关人员,让工作人员了解事件的进展情况以提供帮助,是一个很具有挑战性的工作。
发明内容
为了解决上述当灾难来临时评估社交媒体文本信息重要性的问题,本发明提出一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法,具体设计思路为社交媒体上的文本信息定义信息类别,以及警报性类别,并赋予每个类别的重要性分数,把社交媒体上的文本数据进行信息类别分类和警报性分类,通过加权函数对文本的信息类别和警报性类别进行加权,输出结果是一个重要性打分,例如,当地震发生时,受害群众通过社交平台发布的需要救援的信息,在本方法中就被分类为信息类别为请求救援类,警报性类别为严重,加权重要性得分为1,然后根据信息的重要性得分反馈给社交媒体,通过在社交媒体上扩散,来寻找附近可以提供帮助的人,利用社交平台来帮助灾难的救援。
本发明主要分为以下五步:
步骤(1)接收社交媒体文本数据并预处理
原始社交媒体文本数据包含许多非文本信息,这将对后续的模型训练产生负面影响。所使用的方法包括一下步骤:
步骤(1.1)文本预处理
对社交媒体文本数据进行分词、去除停用,英文大写转小写,中文繁体转简体。
步骤(1.2)消除数据中的冗余推文
数据中含有很有相似或者完全相同的推文,消除冗余的目的是去除掉这些相似或完全相同的推文;推文之间的相似性定义如下公式所示;
其中T1,T2表示两条推文,length(∩(T1,T2))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数。length(∪(T1,T2))表示两条推文的字符或字的总数。阈值θ设置为0.4,当两条推文的相似性大于等于阈值θ时,删除T1和T2之间字符或字总数较少的推文。
步骤(2)构建灾难单词预训练词向量表,用于社交媒体文本数据转化为词向量步骤(2.1)词向量的初始化
选择网络上基于相关自然灾害事件训练好的灾难单词预训练词向量表对训练数据进行转化,训练数据是由TREC官方提供的预处理后的有信息类别和警报性类别标签的推特数据,词向量维度d设置为200。
步骤(2.2)更新词向量表
利用训练数据对LSTM模型进行训练,更新灾难单词预训练词向量表,训练完成后提取更新后的灾难单词预训练词向量表用于社交媒体文本数据转化为词向量,作为后续分类模型的输入。
步骤(3)用XGBoost算法进行信息分类和警报性分类
其中K为树的总个数,fk表示第k颗树,xi代表通过更新后的词向量表转化为词向量的社交媒体文本数据,表示对xi的分类结果,在警报性分类上,/>是单值,在信息分类上,是多值。
步骤(3.1)训练模型
训练数据是由TREC官方提供的预处理后有信息类别和警报性类别标签的推特数据,规模为三万条,推文的信息类别个数在五个以内,用XGBoost对每个信息类别进行二分类,信息类别分类概率阈值设置为0.6,训练25个分类器,对应信息类别个数,采用一对一(OVO)的方式集成多分类器。推文的警报性类别为一个,用XGBoost对警报类别进行四分类,训练一个四分类器。
步骤(3.2)验证模型
从TREC官方提供的测试数据集中选取推文作为验证集,验证分类模型的性能。
步骤(3.3)社交媒体文本数据信息类别分类
推文信息类别分类过程中,推文在信息类别上可以同时包含多个信息类,规定推文所包含的信息类个数不大于5,利用训练得到的信息分类模型对后续的无标签的社交媒体文本数据进行信息分类。
步骤(3.4)社交媒体文本数据警报性类别分类
推文警报性类别分类过程中,推文在警报性类别上只能包含一个类别,利用训练得到的警报性分类模型对后续无标签的社交媒体文本数据进行警报性分类。
步骤(4)对信息分类结果和警报性结果进行加权
步骤(4.1)创建信息类别分数表和警报性类别分数表
为TREC官方给定的信息类别和警报性类别设计重要性分数,对信息类别和警报性类别分别创建类别分数表。
步骤(4.2)对信息分类结果和警报性结果进行加权
根据社交媒体文本数据的信息类别和警报性类别对应表内的分数进行加权求和,并将分数标准化在[0,1]之间,加权公式如下:
其中x表示一条推文,f(x)表示推文结合信息分类和警报性分类的加权分数,分数在[0,1]之间,O(x)表示推文被XGBoost模型分类出来的信息类别,|O(x)|表示推文被分类完成后的信息类别的个数,Oi(x)表示推文信息类别中第i个类别对应信息类别分数表的分数,G(x)表示推文警报性类别对应警报性类别分数表的分数,A表示信息类别分数表类别的平均分数,B表示警报性类别分数表类别的平均分数。
有益效果
本发明可以对社交媒体的关于灾害的文本数据进行分类,判断其信息的重要性,达到了比较精准的分类性能,通过本发明,当灾害发生时,可以将社交媒体上那些需要救援的信息和能提供帮助的信息反馈给社交平台,对灾害的救援活动提供帮助。
附图说明
图一为信息类别分数图。
图二为警报性类别分数图。
图三为验证集性能图。
图四为方法流程图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明步骤(1)接收社交媒体文本数据并预处理
本发明中采用的训练数据集是由TREC官方提供的关于灾难信息的有标签数据集,是推特文本数据,但本发明不限于推文,还可以适用于其他的分类,例如微信,微博等社交平台上的文本数据。数据集包含三万条已经标注好的信息类别和警报性类别的文本数据,信息类别和警报性类别是TREC官方提供的类别表,其中信息类别有25类,包括请求类(需要帮助/信息,请求搜索和救援),号召行为类(转移人员/志愿者等),报道类(新闻/天气等),其他(讨论/情绪等),每条数据可以包含多个信息类别,推文既可以是请求类(需要帮助),也可以是报道类(新闻),规定每条推文属于的信息类别不多于5个。警报性类别有四类:严重,高,中,低,每条推文只能有一个警报性类别。例如,当地震发生时,官方通过社交平台发布的需要救援的信息,文本的信息类别为请求救援类,同样也是报道新闻类,警报性类别为严重。
步骤(1.1)文本预处理
对社交媒体文本数据进行分词、去除停用,英文大写转小写,中文繁体转简体。
步骤(1.2)消除数据中的冗余推文
数据中含有很有相似或者完全相同的推文,消除冗余的目的是去除掉这些相似或完全相同的推文;推文之间的相似性定义如下公式所示;
其中T1,T2表示两条推文,length(∩(T1,T2))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数。length(∪(T1,T2))表示两条推文的字符或字的总数。阈值θ的取值为0.4,当两条推文的相似性大于等于阈值θ时,删除T1和T2之间字符或字总数较少的推文。
例如推文一:One dead,three injured in Poway synagogue shooting.
推文二:One dead,three injured Poway synagogue shoot.
这两条推文的相似度为0.4,等于阈值θ,于是删除字数较少的推文二,保留推文一。
步骤(2)构建灾难单词预训练词向量表,用于社交媒体文本数据转化为词向量步骤(2.1)词向量的初始化
选择网络上基于相关自然灾害事件训练好的灾难单词预训练词向量表对训练数据进行转化,词向量维度d设置为200。
步骤(2.2)更新词向量表
利用训练数据对LSTM模型进行训练,更新灾难单词预训练词向量表,训练完成后提取更新后的灾难单词预训练词向量表用于社交媒体文本数据转化为词向量,作为后续分类模型的输入。
步骤(3)用XGBoost算法进行信息分类和警报性分类
其中K为树的总个数,fk表示第k颗树,xi代表通过更新后的词向量表转化为词向量的社交媒体文本数据,表示对xi的分类结果,在警报性分类上,/>是单值,在信息分类上,是多值。
步骤(3.1)训练模型
训练数据是由TREC官方提供的预处理后有信息类别和警报性类别标签的推特数据,规模为三万条,推文的信息类别个数在五个以内,用XGBoost对每个信息类别进行二分类,信息类别分类概率阈值设置为0.6,当二分类中该信息类的概率大于等于0.6时,推文被分为该信息类。训练25个分类器,25为信息类别表中信息类别的个数,为每个分类器训练合适的树的个数K,采用一对一(OVO)的方式集成成多分类器。推文的警报性类别为一个,用XGBoost对警报类别进行四分类,训练一个四分类器。
步骤(3.2)验证模型
从TREC官方提供的测试数据集中随机选取推文作为验证集,验证分类模型的性能,分类器性能如图3所示。
步骤(3.3)推文信息类别分类
推文信息类别分类过程中,推文在信息类别上可以同时包含多个信息类,规定推文所包含的信息类个数不大于5,利用训练得到的信息分类模型对后续的无标签的社交媒体文本数据进行信息分类。
步骤(3.3)推文警报性类别分类
推文警报性类别分类过程中,推文在警报性类别上只能包含一个类别,利用训练得到的警报性分类模型对后续无标签的社交媒体文本数据进行警报性分类。
步骤(4)对信息分类结果和警报性结果进行加权
步骤(4.1)创建信息类别分数表和警报性类别分数表
为TREC官方给定的信息类别和警报性类别设计重要性分数,对信息类别和警报性类别分别创建类别分数表。(如图一,二所示)。
步骤(4.2)对信息分类结果和警报性结果进行加权
根据推文的信息类别和警报性类别对应表内的分数进行加权求和,并将分数标准化在[0,1]之间,加权公式如下:
其中x表示一条推文,f(x)表示推文结合信息分类和警报性分类的加权分数,分数在[0,1]之间,O(x)表示推文被XGBoost模型分类出来的信息类别,|O(x)|表示推文被分类完成后的信息类别的个数,Oi(x)表示推文信息类别中第i个类别对应信息类别分数表的分数,G(x)表示推文警报性类别对应警报性类别分数表的分数,A表示信息类别分数表类别的平均分数,B表示警报性类别分数表类别的平均分数。

Claims (3)

1.一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法,其特征在于:
本方法的实施过程如下,
步骤(1)接收社交媒体文本数据并预处理;
步骤(2)构建灾难单词预训练词向量表,用于社交媒体文本数据转化为词向量;
步骤(3)通过步骤(2)更新后的词向量表,把经过步骤(1)预处理后的测试文本数据转化成维度为d的词向量,并利用XGBoost算法对社交媒体文本数据进行信息类别分类和警报性类别分类;
步骤(4)对社交媒体文本数据的信息分类结果和警报性分类结果进行加权确定所含文本信息的重要性;
具体的,步骤(3)中所述用XGBoost算法进行信息分类和警报性分类的模型如下:
其中K为树的总个数,fk表示第k颗树,xi代表通过更新后的词向量表转化为词向量的社交媒体文本数据,表示对xi的分类结果,在警报性分类上,/>是单值,在信息分类上,/>是多值;
所述信息类别分类过程中,训练集是由TREC官方提供的预处理后已经标记好的有信息类别标签的文本数据,推文在信息类别上同时包含多个信息类,规定推文所包含的信息类个数不大于5,利用训练得到的信息分类模型对后续的无标签的数据进行信息分类;
所述警报性类别分类过程中,训练集是由TREC官方提供的预处理后已经标记好的有警报性类别标签的文本数据,社交媒体上的文本数据在警报性类别上只能包含一个类别,利用训练得到的警报性分类模型对后续无标签的数据进行警报性分类;步骤(4)的实施过程具体如下,
对信息类别和警报性类别分别创建类别分数表,类别分数表是根据每个信息类别和警报性类别的重要性自定义的分数表,根据推文被XGBoost分类完成后确定的信息类别和警报性类别对应表内的分数进行加权求和,并将分数标准化在[0,1]之间,加权公式如下:
其中x表示一条推文,f(x)表示推文结合信息分类和警报性分类的加权分数,分数在[0,1]之间,O(x)表示推文被XGBoost模型分类出来的信息类别,|O(x)|表示推文被分类完成后的信息类别的个数,Oi(x)表示推文信息类别中第i个类别对应信息类别分数表的分数,G(x)表示推文警报性类别对应警报性类别分数表的分数,A表示信息类别分数表类别的平均分数,B表示警报性类别分数表类别的平均分数。
2.根据权利要求1所述的一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法,其特征在于:步骤(1)所述预处理包括:
步骤(1.1)文本预处理
对社交媒体文本数据进行分词,去除停用,英文大写转小写,中文繁体转简体;
步骤(1.2)消除数据中的冗余推文,具体如下
计算推文之间的相似性定义如下公式所示;
其中T1,T2表示两条推文,length(∩(T1,T2))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数;length(∪(T1,T2))表示两条推文的字符或字的总数;当两条推文的相似性大于等于阈值θ时,删除T1和T2之间字符或字总数较少的推文。
3.根据权利要求1所述的一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法,其特征在于:步骤(2)的实施过程如下,
步骤(2.1)词向量的初始化
选择网络上基于自然灾害事件训练好的灾难单词预训练词向量表,对训练数据进行转化,转化为d维向量;
步骤(2.2)更新词向量表
利用训练数据对LSTM模型进行训练,更新灾难单词预训练词向量表,训练完成后提取更新后的灾难单词预训练词向量表用于预处理后的社交媒体文本数据转化为词向量,作为后续分类模型的输入。
CN201911387714.1A 2019-12-27 2019-12-27 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法 Active CN111079031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911387714.1A CN111079031B (zh) 2019-12-27 2019-12-27 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911387714.1A CN111079031B (zh) 2019-12-27 2019-12-27 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法

Publications (2)

Publication Number Publication Date
CN111079031A CN111079031A (zh) 2020-04-28
CN111079031B true CN111079031B (zh) 2023-09-12

Family

ID=70319263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911387714.1A Active CN111079031B (zh) 2019-12-27 2019-12-27 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法

Country Status (1)

Country Link
CN (1) CN111079031B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069313A (zh) * 2020-08-12 2020-12-11 北京工业大学 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法
CN112000867A (zh) * 2020-08-17 2020-11-27 桂林电子科技大学 一种基于社交媒体平台的文本分类方法
CN111813922B (zh) * 2020-09-10 2021-01-05 中国科学院地理科学与资源研究所 一种基于微博文本数据的高温事件检测方法及系统
US20230252060A1 (en) * 2022-02-09 2023-08-10 Bank Of America Corporation Artificial Intelligence (AI)-based Engine for Processing Service Requests

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815369A (zh) * 2017-01-24 2017-06-09 中山大学 一种基于Xgboost分类算法的文本分类方法
CN109271523A (zh) * 2018-11-23 2019-01-25 中电科大数据研究院有限公司 一种基于信息检索的政府公文主题分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014066698A1 (en) * 2012-10-24 2014-05-01 Metavana, Inc. Method and system for social media burst classifications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815369A (zh) * 2017-01-24 2017-06-09 中山大学 一种基于Xgboost分类算法的文本分类方法
CN109271523A (zh) * 2018-11-23 2019-01-25 中电科大数据研究院有限公司 一种基于信息检索的政府公文主题分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的社交网络舆情分类;金保华 等;电子世界(第07期);第76-79页 *

Also Published As

Publication number Publication date
CN111079031A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111079031B (zh) 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法
CN112069313A (zh) 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法
Wang et al. Spatio-temporal modeling of criminal incidents using geographic, demographic, and Twitter-derived information
CN111045847B (zh) 事件审计方法、装置、终端设备以及存储介质
Kumar et al. A comparative analysis of machine learning techniques for disaster-related tweet classification
Pekar et al. Early detection of heterogeneous disaster events using social media
CN110457562A (zh) 一种基于神经网络模型的食品安全事件分类方法及装置
Qiao et al. Topic modelling and sentiment analysis of global warming tweets: evidence from big data analysis
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
Zhang et al. Semi-supervised discovery of informative tweets during the emerging disasters
Sari et al. Sentiment Analysis of Customer Satisfaction on Transportation Network Company Using Naive Bayes Classifier
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
Phopli et al. Microblog entity detection for natural disaster management
Van Quan et al. Real-time earthquake detection using convolutional neural network and social data
Lin et al. Towards an accurate social media disaster event detection system based on deep learning and semantic representation
CN110008699A (zh) 一种基于神经网络的软件漏洞检测方法及装置
Dahou et al. A social media event detection framework based on transformers and swarm optimization for public notification of crises and emergency management
Zhao et al. Extracting and classifying typhoon disaster information based on volunteered geographic information from Chinese Sina microblog
Mukherjee et al. Managing a natural disaster: actionable insights from microblog data
Bokolo et al. Cyberbullying detection on social media using machine learning
CN111597580B (zh) 机器人听觉隐私信息监听处理方法
CN110059189B (zh) 一种游戏平台消息的分类系统及方法
Kreiner et al. Crisis management knowledge from social media
Kaliyar et al. SMS spam filtering on multiple background datasets using machine learning techniques: A novel approach
Ahsan et al. Detection of context-varying rumors on Twitter through deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant