CN113887584A

CN113887584A - 一种基于社交媒体数据的应急交通策略评估方法

Info

Publication number: CN113887584A
Application number: CN202111087045.3A
Authority: CN
Inventors: 李健; 查文斌
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-01-04
Anticipated expiration: 2041-09-16
Also published as: CN113887584B

Abstract

本发明涉及一种基于社交媒体数据的应急交通策略评估方法，具体包括以下步骤：S1、从多源社交媒体平台上采集关于目标应急交通策略的网络数据，并进行预处理；S2、通过文本情感预训练模型对网络数据进行句子级情感分类，提取出负面数据；S3、通过熵权法和杰卡德距离相结合的主题数优化方法，对LDA模型进行优化，将负面数据输入LDA模型，提取出公众策略需求信息；S4、根据公众策略需求信息，结合杰卡德距离，计算得到调整前后的两个连续策略的调整效果，作为目标应急交通策略的评估结果进行输出。与现有技术相比，本发明具有提高评估的应急交通策略的实施效果的准确性，帮助交通决策者在公共突发事件中能够及时制定应对策略等优点。

Description

一种基于社交媒体数据的应急交通策略评估方法

技术领域

本发明涉及社交媒体数据挖掘与交通应急管理领域，尤其是涉及一种突发事件下基于社交媒体数据的应急交通策略评估方法。

背景技术

突发公共事件与人类社会共存。突发公共事件是突然发生造成或可能造成重大人员伤亡、财产损失、生态环境破坏和严重社会危害，危及公共安全的紧急事件，一般具有突发性、紧急性、高度不确定性和非常态决策等特征。突发公共事件可分为自然灾害、事故灾难、突发公共卫生事件、社会安全事件等。

交通在突发公共事件应急响应中起着关键的角色。自然灾害、事故灾难下需要组织疏散和救援路线，突发公共卫生事件下交通系统既要保证必要出行以支撑社会有序运转，又要通过主动干预降低交通工具、交通场所人员通过流动集中、换乘带来的扩散风险。在应急响应中充满随机性和不确定性，交通决策者需要在动态环境中制定交通组织和管理方案。因此，交通策略如何应对不断变化的事件并随之演变；在应急事件的不同阶段，哪些需求在决策中应该优先考虑等问题，目前的研究和技术没有做出回答。

近年来，在社交媒体平台上由用户产生的大规模的文本内容，已成为在不同的产业领域理解用户行为，改善用户体验，优化运营管理的数据资源。比如，应用在商业智能、学术热点趋势研究、应急救灾等领域。与传统媒体(如印刷杂志和报纸，以及电视和广播)相比，社交媒体数据在覆盖面、频率、可用性、即时性和持久性等很多方面具有优势。此外，社交媒体以对话式的信息传播模式区别于传统媒体单向式的信息传播模式(即一个信息源对多个接收者)。这种双向沟通的模式给相关部门及时了解和响应公众需求提供了渠道。因此，考虑到社交媒体数据的优点，在现有相关研究的基础上，有必要提出一个全面综合的应急事件影响下城市交通策略评估和决策方法，帮助交通决策者在公共突发事件中能够及时制定应对策略，监测交通策略过程，评估策略实施的有效性并在必要时及时做出调整以减少意料之外的结果带来的负面影响。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于社交媒体数据的应急交通策略评估方法，帮助交通决策者在公共突发事件中能够及时制定应对策略，监测交通策略过程，评估策略实施的有效性并在必要时及时做出调整以减少意料之外的结果带来的负面影响。

本发明的目的可以通过以下技术方案来实现：

一种基于社交媒体数据的应急交通策略评估方法，具体包括以下步骤：

S1、从多源社交媒体平台上采集关于目标应急交通策略的网络数据，并对网络数据进行预处理；

S2、通过文本情感预训练模型对完成预处理的网络数据进行句子级情感分类，提取出对应的负面数据；

S3、通过熵权法和杰卡德距离相结合的主题数优化方法，对LDA模型进行优化，将负面数据输入优化后的LDA模型，提取出公众策略需求信息；

S4、根据公众策略需求信息，结合杰卡德距离，计算得到调整前后的两个连续策略的调整效果，作为目标应急交通策略的评估结果进行输出。

所述步骤S1中对网络数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词。

进一步地，所述步骤S1中句子分词和去除停用词通过预先构建的交通领域分词词典和停用词词典进行预处理，以避免交通相关的短语词汇被分词算法切分，同时过滤出现频率高但对于信息挖掘无用的词汇。

所述步骤S2中采用文本情感预训练模型进行句子级情感分类，从公众的主观响应评估单个策略实施的效果好坏。

所述LDA模型通过超参数集(K，α，β)进行构建，其中K代表LDA模型的预选话题数，代表LDA模型中多项式文档-主题分布的先验参数，β代表LDA 模型中多项式主题-词汇分布的先验参数。

进一步地，K∈[1,K_max)，K_max代表可数无穷个正整数主题数；参数的取值范围为∈(0,1]；参数的取值范围为∈(0,1]。

进一步地，每一组所述超参数集(K，α，β)对应一个LDA模型，通过网格搜索算法计算每一个LDA模型的评价指标。

进一步地，所述步骤S3中通过熵权法综合全部的评价指标，以综合得分最高的那一组超参数集对应的值作为LDA模型的最优话题数。

进一步地，所述熵权法计算综合得分的过程包括以下步骤：

S301、获取预选话题数的可选方案及每种类型可选方案的评价指标，构建第一参数矩阵；

S302、标准化处理第一参数矩阵，得到第二参数矩阵；

S303、正规化处理第二参数矩阵，得到第三参数矩阵，根据第三参数矩阵计算每个评价指标的信息熵；

S304、根据评价指标的信息熵，计算得到评价指标的权重；

S305、结合评价指标的信息熵和权重，计算得到每个可选方案的综合得分。

进一步地，所述第一参数矩阵Q的公式如下所示：

Q＝(k_ij)_W×J

其中，k_ij为第i个可选方案的第j个评价指标的值，W为可选方案的总数，J为评价指标的总数；

所述第二参数矩阵D的公式如下所示：

D＝(s_ij)_W×J

所述第三参数矩阵P的公式如下所示：

P＝(p_ij)_W×J

其中，i＝1,2,...,W，j＝1,2,...,，评价指标的信息熵的计算公式如下所示：

其中，E_j为第j个评价指标的信息熵；

所述评价指标的权重的计算公式如下所示：

其中，w_j为第j个评价指标的权重；

所述可选方案的综合得分的计算公式如下所示：

其中，score_i为第i个可选方案的综合得分。

进一步地，在数据量有限的情况下，为了避免模型欠拟合，如果出现最优话题数为＝1的情况，则选择下一个综合评分最高的组合对应的。

所述步骤S4中计算两个连续策略的调整效果的过程具体包括：

S401、获取LDA模型输出的应急交通策略下每个话题的词列表，计算每两个话题之间的杰卡德距离，即相似度，根据预设的话题相似度阈值对话题进行合并；

S402、话题合并完成后，计算两个连续应急交通策略对应话题之间的杰卡德距离，形成杰卡德矩阵，并计算平均杰卡德距离进行相似度判定，作为目标应急交通策略的评估结果。

进一步地，如果两个应急交通策略对应的话题之间存在两个话题距离小于话题相似度阈值，即认为前一个策略对应的话题需求在第二个策略里仍未得到满足。下一阶段策略的调整应该着重处理该需求，当存在多个未得到满足的需求时，按相似度值大小排列处理优先级。

进一步地，所述平均杰卡德距离Ave_Diff_Matrix_P1P2的计算公式如下所示：

其中，Diff_Matrix_{P1P2_}代表每个话题包含个词汇的杰卡德矩阵 Diff_Matrix_P1P2，N代表语料尺寸大小范围内的话题可包含词汇的组数；

所述杰卡德矩阵Diff_Matrix的计算公式如下所示：

其中，P1和P2为两个连续应急交通策略，1≤i≤K₁，1≤j≤K₂，0≤P_i,j≤1，Termset_i＝{term₁，term₂，…，term_n}_i，Termset_j＝{term₁，term₂，…，term_n}j，D_J为两个话题之间的杰卡德距离，n代表话题中包含的词汇数量，term_n为话题中的词汇。

所述LDA模型的输出是代表每个话题Topic的词列表，如下所示：

Topic_i＝(i-1，p₁*″term₁″+p₂*″term₂″+，…，p_n*″term_n″)

其中，1≤i≤K，i-1代表模型结果中话题索引，p_n代表词汇term_n属于话题i的概率。在理想的LDA模型结果中，不同的话题之间应该互不相关，即集合 Termset的各个子集合(代表各个话题)之间没有重复出现的词汇。

与现有技术相比，本发明具有以下有益效果：

本发明从多源社交媒体平台上采集关于目标应急交通策略的网络数据，通过文本情感预训练模型从网络数据中提取出对应的负面数据，通过熵权法和杰卡德距离，对LDA模型进行优化，计算得到调整前后的两个连续策略的调整效果，有效提高了评估的应急交通策略的实施效果的准确性，帮助交通决策者在公共突发事件中能够及时制定应对策略，监测交通策略过程，评估策略实施的有效性并在必要时及时做出调整以减少意料之外的结果带来的负面影响。

附图说明

图1为本发明的流程示意图；

图2为本发明基于熵权法的LDA模型话题数优化方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，一种基于社交媒体数据的应急交通策略评估方法，使用了情感分析、文本主题建模和集合间相似度度量等多种方法评估应急交通策略实施的效果，具体包括以下步骤：

S2、通过文本情感预训练SKEP(Sentiment Knowledge Enhanced Pre-trainingfor Sentiment Analysis)模型对完成预处理的网络数据进行句子级情感分类，提取出对应的负面数据；

步骤S1中对网络数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词。

步骤S1中句子分词和去除停用词通过预先构建的交通领域分词词典和停用词词典进行预处理，以避免交通相关的短语词汇被分词算法切分，同时过滤出现频率高但对于信息挖掘无用的词汇，本实施例中，通过百度词库和搜狗词库构建交通领域分词词典和停用词词典。

步骤S2中采用文本情感预训练模型进行句子级情感分类，从公众的主观响应评估单个策略实施的效果好坏。

LDA模型通过超参数集(K，α，β)进行构建，其中K代表LDA模型的预选话题数，α代表LDA模型中多项式文档-主题分布的先验参数，β代表LDA模型中多项式主题-词汇分布的先验参数。

K∈[1，K_max)，K_max代表可数无穷个正整数主题数；参数α的取值范围为α∈(0，1]；参数β的取值范围为β∈(0，1]。

每一组超参数集(K，α，β)对应一个LDA模型，通过网格搜索算法计算每一个LDA模型的评价指标。

步骤S3中通过熵权法综合全部的评价指标，以综合得分最高的那一组超参数集对应的K值作为LDA模型的最优话题数。

如图2所示，熵权法计算综合得分的过程包括以下步骤：

S302、标准化处理第一参数矩阵，得到第二参数矩阵；

S304、根据评价指标的信息熵，计算得到评价指标的权重；

本实施例中，选取了困惑度(Perplexity)和话题一致性(C_Vcoherence)两个指标量化LDA模型的可解释性。

第一参数矩阵Q的公式如下所示：

Q＝(k_ij)_W×J

第二参数矩阵D的公式如下所示：

D＝(s_ij)_W×J

第三参数矩阵P的公式如下所示：

P＝(p_ij)_W×J

其中，i＝1，2，...，W，j＝1，2，...，J，评价指标的信息熵的计算公式如下所示：

其中，E_j为第j个评价指标的信息熵；

评价指标的权重的计算公式如下所示：

其中，w_j为第j个评价指标的权重；

可选方案的综合得分的计算公式如下所示：

其中，score_i为第i个可选方案的综合得分。

在数据量有限的情况下，为了避免模型欠拟合，如果出现最优话题数为K＝1 的情况，则选择下一个综合评分最高的组合对应的K。

步骤S4中计算两个连续策略的调整效果的过程具体包括：

S402、话题合并完成后，计算两个连续应急交通策略对应话题之间的杰卡德距离，形成杰卡德矩阵，并计算平均杰卡德距离进行相似度判定，作为目标应急交通策略的评估结果，使距离度量结果更加可靠和稳定。

平均杰卡德距离Ave_Diff_Matrix_P1P2的计算公式如下所示：

其中，Diff_Matrix_{P1P2_n}代表每个话题包含n个词汇的杰卡德矩阵 Diff_Matrix_P1P2，N代表语料尺寸大小范围内的话题可包含词汇的组数(比如，话题包含的词汇数从50按100的步长递增到2050，组数为21)；

杰卡德矩阵Diff_Matrix的计算公式如下所示：

其中，P1和P2为两个连续应急交通策略，1≤i≤K₁，1≤j≤K₂，0≤P_i，j≤1，Termset_i＝{term₁，term₂，…，term_n}_i，Termset_j＝{term₁，term₂，…，term_n}_j，D_J为两个话题之间的杰卡德距离，n代表话题中包含的词汇数量，term_n为话题中的词汇。

LDA模型的输出是代表每个话题Topic的词列表，如下所示：

本实施例中，话题相似度阈值为0.9(可根据实际情况调整，取值范围为0-1，阈值越高则要求话题间的相似度越低)，小于0.9的两个话题说明相互之间比较相似，最后将这两个话题合并为一个话题。如果两个应急交通策略对应的话题之间存在两个话题距离小于话题相似度阈值，即认为前一个策略对应的话题需求在第二个策略里仍未得到满足。下一阶段策略的调整应该着重处理该需求，当存在多个未得到满足的需求时，按相似度值大小排列处理优先级。

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于社交媒体数据的应急交通策略评估方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种基于社交媒体数据的应急交通策略评估方法，其特征在于，所述步骤S1中对网络数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词。

3.根据权利要求2所述的一种基于社交媒体数据的应急交通策略评估方法，其特征在于，所述步骤S1中句子分词和去除停用词通过预先构建的交通领域分词词典和停用词词典进行预处理。

4.根据权利要求1所述的一种基于社交媒体数据的应急交通策略评估方法，其特征在于，所述LDA模型通过超参数集(K，α，β)进行构建，其中K代表LDA模型的预选话题数，代表LDA模型中多项式文档-主题分布的先验参数，β代表LDA模型中多项式主题-词汇分布的先验参数。

5.根据权利要求4所述的一种基于社交媒体数据的应急交通策略评估方法，其特征在于，每一组所述超参数集(K，α，β)对应一个LDA模型，通过网格搜索算法计算每一个LDA模型的评价指标。

6.根据权利要求5所述的一种基于社交媒体数据的应急交通策略评估方法，其特征在于，所述步骤S3中通过熵权法综合全部的评价指标，以综合得分最高的那一组超参数集对应的值作为LDA模型的最优话题数。

7.根据权利要求6所述的一种基于社交媒体数据的应急交通策略评估方法，其特征在于，所述熵权法计算综合得分的过程包括以下步骤：

S302、标准化处理第一参数矩阵，得到第二参数矩阵；

S304、根据评价指标的信息熵，计算得到评价指标的权重；

8.根据权利要求7所述的一种基于社交媒体数据的应急交通策略评估方法，其特征在于，所述第一参数矩阵Q的公式如下所示：

Q＝(k_ij)_W×J

所述第二参数矩阵D的公式如下所示：

D＝(s_ij)_W×J

所述第三参数矩阵P的公式如下所示：

P＝(p_ij)_W×J

其中，i＝1,2,...,W，j＝1,2,...,J，评价指标的信息熵的计算公式如下所示：

其中，E_j为第j个评价指标的信息熵；

所述评价指标的权重的计算公式如下所示：

其中，w_j为第j个评价指标的权重；

所述可选方案的综合得分的计算公式如下所示：

其中，score_i为第i个可选方案的综合得分。

9.根据权利要求1所述的一种基于社交媒体数据的应急交通策略评估方法，其特征在于，所述步骤S4中计算两个连续策略的调整效果的过程具体包括：

S401、获取LDA模型输出的应急交通策略下每个话题的词列表，计算每两个话题之间的杰卡德距离，根据预设的话题相似度阈值对话题进行合并；

10.根据权利要求9所述的一种基于社交媒体数据的应急交通策略评估方法，其特征在于，所述话题的词列表如下所示：

Topic_i＝(i-1,p₁*"term₁"p₂*"term₂",…,p_n*"tetm_n"

其中，1≤K,i-1代表模型结果中话题索引，p_n代表词汇_n属于话题i的概率，n代表话题中包含的词汇数量，term_n为话题中的词汇；

所述平均杰卡德距离Ave_Diff_Matrix_P1P2的计算公式如下所示：

其中，Diff_Matrix_{P1P2_}代表每个话题包含个词汇的杰卡德矩阵Diff_Matrix_P1P2，N代表语料尺寸大小范围内的话题可包含词汇的组数；

所述杰卡德矩阵Diff_Matrix的计算公式如下所示：

其中，P1和P2为两个连续应急交通策略，1≤i≤K₁，1≤j≤K₂，0≤P_i,j≤1，Twrmset_i＝{term₁,term₂,…,term_n}_i，Termset_j＝{term₁,term₂,…,term_n}_j，D_J为两个话题之间的杰卡德距离。