CN107590196A

CN107590196A - 一种社交网络中地震应急信息筛选评价方法及系统

Info

Publication number: CN107590196A
Application number: CN201710698083.XA
Authority: CN
Inventors: 张晓东; 邹再超; 赵晓凤; 苏伟; 李林; 苏晓慧; 刘峻明; 王庆; 赵祖亮
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2018-01-16

Abstract

本发明提供一种社交网络中地震应急信息筛选评价方法及系统，所述方法包括：获取社交网络中的地震应急信息，通过NLPIR中文分词系统对所述地震应急信息进行分词处理，并通过主题词库对所述地震应急信息进行过滤；使用分类器对过滤后的地震应急信息进行分类；根据信息评价指标体系，对分类后的所述地震应急信息进行可信度评价和危急度评价。本发明提供的方法，通过对大量的地震应急信息进行过滤筛选，并对信息进行分类，同时对信息的可信度和危急度进行了评价，使得社交网络中的有价值的应急信息可以有效的服务于灾情研判和救援保障，提高地震灾害应急服务的时效性与精确性。

Description

一种社交网络中地震应急信息筛选评价方法及系统

技术领域

本发明涉及数据处理领域，更具体地，涉及一种社交网络中地震应急信息筛选评价方法及系统。

背景技术

在地震发生后，互联网中大量的社交网络信息中既隐含了可用于灾情研判、救援保障等有价值的应急信息；同时也存在数据量庞大、真伪性有待考证、且信息类别多样等问题。针对这些问题已经有很多学者在理论层面和技术层面进行了研究。

在网络信息筛选方面：徐玉萍，刘瑞华制定了竞争情报的信息筛选指标体系，分为时间和内容两个方面，同时具备，缺一不可，其中时间指及时性、新颖性；内容指针对性、相关性、准确性、可靠性。Yanen Li利用Twitter数据及时性强的特点来监测地震这一特定灾害事件，对Twitter进行实时事件研究，提出了基于支持向量机方法，构建了基于相关关键词、信息数量和Twitter上下文的分类模型。

在地震应急信息语义评价方面；2013年，如莫祖英等通过构建网络信息质量评价的指标体系，并采用层次分析法对指标权重进行设置，最终实现了网络信息质量评价模型的构建，为信息质量评价的实施提供了理论框架；2016年，张方浩等研究了基于互联网的地震应急信息分类编码问题，为计算机系统实现灾情信息分类存储、统计查询和分析研判等功能提供技术基础。

在现有技术中，从社交网络上获取到的灾情信息中存在许多的冗余信息、虚假信息，这类信息对地震救援起到干扰作用，但是没有有效的方法区分这些无效信息，同时针对社交网络信息语义评价技术的研究已经日趋成熟，评价方法也非常多；但是还没有一种比较好的方法能兼顾灾情信息分类和评价的精度和时效性，也没有构建完整的用于灾情信息评价的主题词库。

发明内容

为解决现有技术中，尚没有一种比较好的方法能兼顾灾情信息分类和评价的精度和时效性，也没有构建完整的用于灾情信息评价的主题词库的问题，提出一种社交网络中地震应急信息筛选评价方法及系统。

根据本发明的第一方面，提供一种社交网络中地震应急信息筛选评价方法，包括：

S1，获取社交网络中的地震应急信息，通过NLPIR中文分词系统对所述地震应急信息进行分词处理，并通过主题词库对所述地震应急信息进行过滤；

S2，使用分类器对过滤后的地震应急信息进行分类；

S3，根据信息评价指标体系，对分类后的所述地震应急信息进行可信度评价和危急度评价。

其中，所述S1之前还包括基于社交网络中的历史地震应急信息，构建非紧急信息的主题词库

其中，所述S1中通过主题词库对所述地震应急信息进行过滤的步骤具体包括：通过正则表达式的信息处理方式，将所述地震应急信息中与所述主题词库文本匹配成功的信息进行筛选过滤。

其中，所述分类器为朴素贝叶斯分类器、支持向量机和循环神经网络中的一种。

其中，所述S2中还包括：

构建分类器训练集，对所述训练集中的地震应急信息进行分词，构建向量空间模型，获得所述训练集中的地震应急信息的TF-IDF权重矩阵；

使用所述分类器训练集对所述分类器进行训练。

其中，所述S3中对所述地震应急信息进行可信度评价具体包括：

通过信息内容质量、信息来源质量和信息传播与反馈，通过熵权模型，计算所述地震应急信息的可信度。

其中，所述S3中对所述地震应急信息进行危急度评价具体包括：

S31，构建灾情信息危急度评价主题词库；

S32，对所述地震应急信息通过正则表达式和所述危急度评价主题词库进行匹配，获取对应主题词数量和权重值；

S33，通过熵权模型计算出所述灾情信息的危急评价值；

S34，通过危急评价值和阈值进行比对，判断所述地震应急信息的危急度。

根据本发明的第二方面，提供一种社交网络中地震应急信息筛选评价系统，包括：

预处理模块，用于获取社交网络中的地震应急信息，通过NLPIR中文分词系统对所述地震应急信息进行分词处理，并通过主题词库对所述地震应急信息进行过滤；

信息分类模块：用于使用分类器对过滤后的地震应急信息进行分类；

信息评价模块：用于根据信息评价指标体系，对分类后的所述地震应急信息进行可信度评价和危急度评价。

根据本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行上述第一方面的各种可能的实现方式所提供的一种社交网络中地震应急信息筛选评价方法。

根据本发明的第四方面，提供一种社交网络中地震应急信息筛选评价设备，包括：

至少一个处理器；以及

与所述处理器连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下操作：

获取社交网络中的地震应急信息，通过NLPIR中文分词系统对所述地震应急信息进行分词处理，并通过主题词库对所述地震应急信息进行过滤；

使用分类器对过滤后的地震应急信息进行分类；

根据信息评价指标体系，对分类后的所述地震应急信息进行可信度评价和危急度评价。

本发明提供的方法，通过对大量的地震应急信息进行过滤筛选，并对信息进行分类，同时对信息的可信度和危急度进行了评价，使得社交网络中的有价值的应急信息可以有效的服务于灾情研判和救援保障，提高地震灾害应急服务的时效性与精确性。

附图说明

图1为本发明实施例提供的一种社交网络中地震应急信息筛选评价方法的流程示意图；

图2为本发明实施提供的一种社交网络中地震应急信息筛选评价方法中贝叶斯分类器用于灾情信息分类的原理图；

图3为本发明实施例提供的一种社交网络中地震应急信息筛选评价方法中灾情信息评价的层次结构图；

图4为本发明实施例提供的一种社交网络中地震应急信息筛选评价方法中结果显示图；

图5为本发明实施例提供的一种社交网络中地震应急信息筛选评价系统的结构示意图；

图6为本发明实施例提供的一种社交网络中地震应急信息筛选评价设备结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

参考图1，图1为本发明实施例提供的一种社交网络中地震应急信息筛选评价方法的流程示意图，所述方法包括：

具体的，基于C#编程语言调用NLPIR中文分词系统来对文本信息进行分词处理，并去除停用词，对剩余分词文本进行结构化表示，即构建向量空间模型(VSM)；并依据正则表达式和主题词库，对文本进行匹配，将危急程度不高的信息进行筛序过滤。

通过此方法，对大量的地震应急信息进行预处理，过滤掉噪音和冗余信息，降低了冗余信息，虚假信息对地震救援起到的干扰作用。

S2，使用分类器对过滤后的地震应急信息进行分类。

具体的，使用分类器，对S1中过滤后留下的地震应急信息进行分类处理，其中，地震应急信息的分类包括生命线工程、次生灾害、震情灾情、医疗防疫、抢险救灾等分类。

具体的，从灾情信息的内容、信息来源质量、信息传播与反馈等角度，对信息的可信度进行评价，最后将评价值较小的虚假信息筛选出来，并人工审核处理。另一方面，依据构建的灾情信息评价的指标体系和主题词库，采用熵权模型对信息的危急度进行评价，最终将灾情信息划分为危急、重要、关注和其他四个类别，其中危急类信息是指在震后需要实施紧急救援的相关事件信息。

通过此方法，针对地震灾害的发生具有连续性、破坏性强的特点，在地震发生后的一段时间里往往会出现应急资源急缺，而已有的应急资源又无法及时准确的分配给急需点和受灾点等问题；针对灾害发生后产生的这类信息壁垒问题，通过聚类和评价来从海量的社交网络信息中把少量有价值的灾情信息挖掘出来，为灾情救援提供可靠的数据支持，提高了地震灾害应急服务的时效性与精确性。

在上述实施例的基础上，所述S1之前还包括基于社交网络中的历史地震应急信息，构建非紧急信息的主题词库。

具体的，基于微博中历史的地震应急信息，构建了表1中的祈祷祝福类、教育宣传类等非紧急信息的主题词库。

表1非紧急类信息的主题词表

在上述实施例的基础上，所述S1中通过主题词库对所述地震应急信息进行过滤的步骤具体包括：通过正则表达式的信息处理方式，将所述地震应急信息中与所述主题词库文本匹配成功的信息进行筛选过滤。

具体的，正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

基于上述正则表达式的规则，对预处理后的结构化向量文本和表2中的主题词库进行文本匹配，并返回是否匹配成功的逻辑值(true/false)；将匹配成功的冗余信息筛选出来，最后结合信息的可信度、危急度评价值，将对应评价值较小的冗余信息予以过滤。匹配形式为：

bool flag1＝text.StartWith("主题词")；

bool flag2＝text.Contains("主题词")；

bool Class1＝flag1|flag2..；

通过此方法，可有效的将对地震救援价值不高的灾情信息进行滤除，提升了数据支持的精度，提高了地震灾害应急服务的时效性与精确性。

在上述各实施例的基础上，所述分类器为朴素贝叶斯分类器、支持向量机和循环神经网络中的一种。

具体的，信息文本情感分类的方法研究已经比较成熟，如目前广泛关注的朴素贝叶斯(Naive Bayes)、支持向量机(SVM)、循环神经网络(RNN)等这类基于训练集的机器学习模型，已经在分类精度和速度上满足了公众的基本应用需求。

针对不同的分类需求，不同的分类器具有各自优势，例如：朴素贝叶斯分类器有着坚实的数学基础，稳定的分类效率；支持向量机分类器在分类时能够提高泛化性能，同时可以解决文本的非线性问题；循环神经网络具有分类的准确度高和联想记忆的功能等优点。

在上述各实施例的基础上，所述S2中还包括：

使用所述分类器训练集对所述分类器进行训练。

具体的，以2012年以来发生的六级以上地震为研究对象，共收集到1万多条微博灾情信息。以此为基础构建了用于分类的具体类别和部分训练集，如表2所示：

表2，用于分类的灾情信息训练集

在构建的信息分类训练集的基础上，地震应急信息分类的流程是，首先对构建的训练集进行文本分词、构建向量空间模型、生成TF-IDF权重矩阵、类型标签化等预处理操作；其次将预处理后的信息输入到朴素贝叶斯分类器中，通过多次的训练学习构建一个达到精度要求的分类模型；最后，是将待分类的灾情信息以数据流的形式，进行预处理操作并输入到分类模型中，并输出最终的分类结果。

其中，朴素贝叶斯分类模型发源于古典数学理论，是利用概率统计知识进行分类；其分类原理就是利用贝叶斯公式，根据构建训练集的先验概率计算出待分类样本的后验概率(即该灾情信息属于某一类的概率)，然后选择具有最大后验概率的类作为该对象所属的类。

以上是贝叶斯公式，其中P(A|B)是已知B发生后，属于A类型的条件概率，也由于得自B的取值而被称作A的后验概率。

本实施例中，结合社交网络中灾情信息文本简短、特征稀疏、以及信息分类界限模糊等特点，将贝叶斯定理进行如下推导：

结合图2示出的本发明实施提供的贝叶斯分类器用于灾情信息分类的原理图，其中x＝{a₁,a₂…a_m}是一个待分类的灾情信息，a_i为信息x中所包含的特征属性，yi是训练集中已经明确类别的灾情信息，分别计算P(y₁|x),P(y₂|x)…P(y_n|x)，即基于训练集y_i，计算出待分类的灾情信息x分别属于不同类别y的概率是多少；最后通过比较，得出最大概率P(y_k|x)＝max{P(y₁|x),P(y₂|x)…P(y_n|x)}，即待分类的灾情信息属于类别y_k。

在上述各实施例的基础上，所述S3中对所述地震应急信息进行可信度评价具体包括：通过信息内容质量、信息来源质量和信息传播与反馈，通过熵权模型，计算所述地震应急信息的可信度。

具体的，信息可信度评价基于以上几个评价因素，和图3构建的信息质量评价体系；通过使用层次分析法和各因素的重要性比例标度计算出三个因素各自的权重值。基于以上内容构建了灾情信息评价的熵权模型公式如下：

可信度p＝a*信息内容质量+b*信息来源质量+c*信息传播与反馈

其中a、b和c为分别对应指标的权重参数。

在信息来源质量中，一般认为，用户的身份信息越真实，发布信息的可靠程度就越高。这里以用户的身份认证、注册信息的完整度、粉丝数/关注数、用户的活跃度这几个指标来表示信息的来源质量。

信息内容质量中，主要指发布的信息中是否包含灾情照片、视频、音频以及链接等，可辅助与判别灾情信息可靠度的内容；通常，这些元素构成了社交网络信息内容的集合，它们都会影响用户对灾情事件信息可信度的判断。

信息传播与反馈，社交信息在节点之间的传播与反馈的过程中，会形成用户基于新闻事件和话题的互动。互动的内容中不仅有用户的观点信息，还会有更多的灾情信息补充；互动的形式包括社交信息的转发、评论、点赞，这些均可以作为评价信息可信度的指标。

在上述实施例的基础上，所述S3中对所述地震应急信息进行危急度评价具体包括：

S31，构建灾情信息危急度评价主题词库；

S33，通过熵权模型计算出所述灾情信息的危急评价值；

具体的，结合熵权模型，对信息的危急性进行语义计算。评价的指标包括信息发布的位置、时间，信息内容的主体、行为、程度、时间度量等，并依据各指标重要性的不同赋予不同的权重，最后进行文本向量的加权计算便可获得这条信息危急性的评价结果。而权重的确定主要通过层次分析法和各因素间危急性的比例标度计算获得。

表3构建了用于灾情信息危急度评价的指标体系和不同类型的主题词库。依据社交媒体中灾情信息的语义特点，将危急度主要划分为危急、重要、关注和其他这四个等级，并对划分依据作了解释。接下来详细说明了对文本进行语义分析的内容构成，包括灾情信息中包含的主体词、程度词、行为词和时间度量等要素。

表3危急度评价的指标体系和主题词库

对灾情信息的危急度进行语义计算的流程是：灾情信息的预处理；借助正则表达式和主题词库进行文本匹配，并获取对应的主题词数量和权重值；综合熵权模型计算出文本的评价值；最后是进行评价值和阈值间的比较，并获得最终的危急度评价结果。基于此构建了灾情信息危急度的评价模型，如下：

式中的Urgent代表单条灾情信息的危急度评价值；Topic、Act、Adj、Time、Locate分表代表信息中匹配到的主体词、行为词、程度词，时间和位置度量的权重值，取值范围为0～1；V_i为对应类型的主题词数量，i为该要素所对应的关注、重要、危急三个等级，取值为1～3；最后结合危急度评价值和灾情信息的详细内容，进行危急、重要和关注三个程度间的阈值划分，阈值的最终确定与地震灾情的严重性和获取的信息数量相关。

层次分析法(AHP)的基本思想是把一个复杂的评价问题分解为各个组成因素，并形成一个有序的递阶层次结构。通过两两比较的方式确定层次中诸因素的相对重要性，然后综合人的判断以确定诸因素相对重要性的总排序。结合灾情信息中可靠性和危急性间的层次关系和地震应急中积累的先验知识，构建了如图3所示的灾情信息评价的层次结构图。

运用层次分析法构造灾情信息的评价模型时，包括以下步骤：构造判断矩阵；根据表3中构建的危急度评价指标体系，以及表4中各因素重要性比例标度的含义，对各因素的危急性进行两两比较，得到危急性标度值，并构造对应的判断矩阵。

表4重要性比例标度含义表

标度	含义
		1	表示两个因素相比，具有同样重要性；
3	表示两个因素相比，一个元素比另一个元素稍微重要；
		5	表示两个因素相比，一个元素比另一个元素明显重要；
7	表示两个因素相比，一个元素比另一个元素强烈重要；
		9	表示两个因素相比，一个元素比另一个元素极端重要；

判断矩阵公式如下：

公式中的a_nn代表灾情信息中所包含的各特征元素的标度值，并具有下述性质：a_ij>0；a_ij＝1/a_ij；a_ii＝1。

其后，计算单一准则下元素的相对重要性，再根据单层次判断矩阵A的一致性检验；通过构造的判断矩阵A，以及各因素间的相对危急性。可以计算出最大特征根λ_max和其对应的经归一化后的特征向量W＝(w₁,w₂,…,w_n)^T；经一致性检验无误后，向量W就可作为可信度或危急度评价中各因素的权重向量。

通过对地震应急信息进行危急度计算后，最后输出一系列的分类和计算结果，分类计算结果如图4所示。

通过此方法，根据筛选评价方法生成的分析结果。结果中既包含了内容详情、发生时间、空间位置等应急时不可或缺的要素，也包含了经筛选评价后的不同危急程度、不同事件类别的要素信息。这样可以快速的从海量的灾情信息中，把危急程度特别高的灾情事件或某一特定类别的灾情事件，提取出来服务于应急救援。

在本发明的另一实施例中，参考图5，图5为本发明实施例提供的一种社交网络中地震应急信息筛选评价系统的结构示意图，包括：预处理模块51、信息分类模块52和信息评价模块53。

其中，预处理模块51用于获取社交网络中的地震应急信息，通过NLPIR中文分词系统对所述地震应急信息进行分词处理，并通过主题词库对所述地震应急信息进行过滤。

通过此系统，对大量的地震应急信息进行预处理，过滤掉噪音和冗余信息，降低了冗余信息，虚假信息对地震救援起到的干扰作用。

其中，信息分类模块52用于用于使用分类器对过滤后的地震应急信息进行分类。

具体的，以2012年以来发生的六级以上地震为研究对象，共收集到1万多条微博灾情信息。以此为基础构建了用于分类的具体类别和部分训练集，在构建的信息分类训练集的基础上，使用分类器，对预处理模块51中过滤后留下的地震应急信息进行分类处理。

其中，信息评价模块53用于根据信息评价指标体系，对分类后的所述地震应急信息进行可信度评价和危急度评价。

具体的，从灾情信息的内容、信息来源质量、信息传播与反馈等角度，对信息的可信度进行评价，最后将评价值较小的虚假信息进行筛选出来，并人工审核处理。另一方面，依据构建的灾情信息评价的指标体系和主题词库，采用熵权模型对信息的危急度进行评价，最终将灾情信息划分为危急、重要、关注和其他四个类别，其中危急类信息是指在震后需要实施紧急救援的相关事件信息。

在上述实施例的基础上，所述系统还包括：显示模块，用于信息展示、查询、管理的部分；其中数据展示的内容包括灾情信息详情内容、发生时间、位置、聚类后的类别、危急度等信息。

图4示出了根据本发明设计的信息展示模块，以及根据筛选评价方法生成的分析结果。结果中既包含了内容详情、发生时间、空间位置等应急时不可或缺的要素，也包含了经筛选评价后的不同危急程度、不同事件类别的要素信息。这样可以快速的从海量的灾情信息中，把危急程度特别高的灾情事件或某一特定类别的灾情事件，提取出来服务于应急救援。

通过此系统，针对地震灾害的发生具有连续性、破坏性强的特点，在地震发生后的一段时间里往往会出现应急资源急缺，而已有的应急资源又无法及时准确的分配给急需点和受灾点等问题；针对灾害发生后产生的这类信息壁垒问题，通过聚类和评价来从海量的社交网络信息中把少量有价值的灾情信息挖掘出来，为灾情救援提供可靠的数据支持，提高了地震灾害应急服务的时效性与精确性。

参考图6，图6为本发明实施例提供的一种社交网络中地震应急信息筛选评价设备结构图，所述设备包括：处理器601、存储器602及总线603。

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法，例如包括，获取社交网络中的地震应急信息，通过NLPIR中文分词系统对所述地震应急信息进行分词处理，并通过主题词库对所述地震应急信息进行过滤；使用分类器对过滤后的地震应急信息进行分类；根据信息评价指标体系，对分类后的所述地震应急信息进行可信度评价和危急度评价。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种社交网络中地震应急信息筛选评价方法，其特征在于，包括：

S2，使用分类器对过滤后的地震应急信息进行分类；

2.根据权利要求1所述的方法，其特征在于，所述S1之前还包括基于社交网络中的历史地震应急信息，构建非紧急信息的主题词库。

3.根据权利要求2所述的方法，其特征在于，所述S1中通过主题词库对所述地震应急信息进行过滤的步骤具体包括：通过正则表达式的信息处理方式，将所述地震应急信息中与所述主题词库文本匹配成功的信息进行筛选过滤。

4.根据权利要求1所述的方法，其特征在于，所述分类器为朴素贝叶斯分类器、支持向量机和循环神经网络中的一种。

5.根据权利要求1所述的方法，其特征在于，所述S2中还包括：

使用所述分类器训练集对所述分类器进行训练。

6.根据权利要求1所述的方法，其特征在于，所述S3中对所述地震应急信息进行可信度评价具体包括：

7.根据权利要求1所述的方法，其特征在于，所述S3中对所述地震应急信息进行危急度评价具体包括：

S31，构建灾情信息危急度评价主题词库；

S33，通过熵权模型计算出所述灾情信息的危急评价值；

8.一种社交网络中地震应急信息筛选评价系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述方法的步骤。

10.一种社交网络中地震应急信息筛选评价设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-7中任一所述的方法。