CN113887584A - 一种基于社交媒体数据的应急交通策略评估方法 - Google Patents
一种基于社交媒体数据的应急交通策略评估方法 Download PDFInfo
- Publication number
- CN113887584A CN113887584A CN202111087045.3A CN202111087045A CN113887584A CN 113887584 A CN113887584 A CN 113887584A CN 202111087045 A CN202111087045 A CN 202111087045A CN 113887584 A CN113887584 A CN 113887584A
- Authority
- CN
- China
- Prior art keywords
- topic
- strategy
- emergency traffic
- calculating
- lda model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000000694 effects Effects 0.000 claims abstract description 19
- 230000008451 emotion Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 45
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 13
- 239000002131 composite material Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 230000010485 coping Effects 0.000 abstract 1
- 230000004044 response Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于社交媒体数据的应急交通策略评估方法,具体包括以下步骤:S1、从多源社交媒体平台上采集关于目标应急交通策略的网络数据,并进行预处理;S2、通过文本情感预训练模型对网络数据进行句子级情感分类,提取出负面数据;S3、通过熵权法和杰卡德距离相结合的主题数优化方法,对LDA模型进行优化,将负面数据输入LDA模型,提取出公众策略需求信息;S4、根据公众策略需求信息,结合杰卡德距离,计算得到调整前后的两个连续策略的调整效果,作为目标应急交通策略的评估结果进行输出。与现有技术相比,本发明具有提高评估的应急交通策略的实施效果的准确性,帮助交通决策者在公共突发事件中能够及时制定应对策略等优点。
Description
技术领域
本发明涉及社交媒体数据挖掘与交通应急管理领域,尤其是涉及一种突发事件下基于社交媒体数据的应急交通策略评估方法。
背景技术
突发公共事件与人类社会共存。突发公共事件是突然发生造成或可能造成重大人员伤亡、财产损失、生态环境破坏和严重社会危害,危及公共安全的紧急事件,一般具有突发性、紧急性、高度不确定性和非常态决策等特征。突发公共事件可分为自然灾害、事故灾难、突发公共卫生事件、社会安全事件等。
交通在突发公共事件应急响应中起着关键的角色。自然灾害、事故灾难下需要组织疏散和救援路线,突发公共卫生事件下交通系统既要保证必要出行以支撑社会有序运转,又要通过主动干预降低交通工具、交通场所人员通过流动集中、换乘带来的扩散风险。在应急响应中充满随机性和不确定性,交通决策者需要在动态环境中制定交通组织和管理方案。因此,交通策略如何应对不断变化的事件并随之演变;在应急事件的不同阶段,哪些需求在决策中应该优先考虑等问题,目前的研究和技术没有做出回答。
近年来,在社交媒体平台上由用户产生的大规模的文本内容,已成为在不同的产业领域理解用户行为,改善用户体验,优化运营管理的数据资源。比如,应用在商业智能、学术热点趋势研究、应急救灾等领域。与传统媒体(如印刷杂志和报纸,以及电视和广播)相比,社交媒体数据在覆盖面、频率、可用性、即时性和持久性等很多方面具有优势。此外,社交媒体以对话式的信息传播模式区别于传统媒体单向式的信息传播模式(即一个信息源对多个接收者)。这种双向沟通的模式给相关部门及时了解和响应公众需求提供了渠道。因此,考虑到社交媒体数据的优点,在现有相关研究的基础上,有必要提出一个全面综合的应急事件影响下城市交通策略评估和决策方法,帮助交通决策者在公共突发事件中能够及时制定应对策略,监测交通策略过程,评估策略实施的有效性并在必要时及时做出调整以减少意料之外的结果带来的负面影响。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于社交媒体数据的应急交通策略评估方法,帮助交通决策者在公共突发事件中能够及时制定应对策略,监测交通策略过程,评估策略实施的有效性并在必要时及时做出调整以减少意料之外的结果带来的负面影响。
本发明的目的可以通过以下技术方案来实现:
一种基于社交媒体数据的应急交通策略评估方法,具体包括以下步骤:
S1、从多源社交媒体平台上采集关于目标应急交通策略的网络数据,并对网络数据进行预处理;
S2、通过文本情感预训练模型对完成预处理的网络数据进行句子级情感分类,提取出对应的负面数据;
S3、通过熵权法和杰卡德距离相结合的主题数优化方法,对LDA模型进行优化,将负面数据输入优化后的LDA模型,提取出公众策略需求信息;
S4、根据公众策略需求信息,结合杰卡德距离,计算得到调整前后的两个连续策略的调整效果,作为目标应急交通策略的评估结果进行输出。
所述步骤S1中对网络数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词。
进一步地,所述步骤S1中句子分词和去除停用词通过预先构建的交通领域分词词典和停用词词典进行预处理,以避免交通相关的短语词汇被分词算法切分,同时过滤出现频率高但对于信息挖掘无用的词汇。
所述步骤S2中采用文本情感预训练模型进行句子级情感分类,从公众的主观响应评估单个策略实施的效果好坏。
所述LDA模型通过超参数集(K,α,β)进行构建,其中K代表LDA模型的预选话题数,代表LDA模型中多项式文档-主题分布的先验参数,β代表LDA 模型中多项式主题-词汇分布的先验参数。
进一步地,K∈[1,Kmax),Kmax代表可数无穷个正整数主题数;参数的取值范围为∈(0,1];参数的取值范围为∈(0,1]。
进一步地,每一组所述超参数集(K,α,β)对应一个LDA模型,通过网格搜索算法计算每一个LDA模型的评价指标。
进一步地,所述步骤S3中通过熵权法综合全部的评价指标,以综合得分最高的那一组超参数集对应的值作为LDA模型的最优话题数。
进一步地,所述熵权法计算综合得分的过程包括以下步骤:
S301、获取预选话题数的可选方案及每种类型可选方案的评价指标,构建第一参数矩阵;
S302、标准化处理第一参数矩阵,得到第二参数矩阵;
S303、正规化处理第二参数矩阵,得到第三参数矩阵,根据第三参数矩阵计算每个评价指标的信息熵;
S304、根据评价指标的信息熵,计算得到评价指标的权重;
S305、结合评价指标的信息熵和权重,计算得到每个可选方案的综合得分。
进一步地,所述第一参数矩阵Q的公式如下所示:
Q=(kij)W×J
其中,kij为第i个可选方案的第j个评价指标的值,W为可选方案的总数,J为评价指标的总数;
所述第二参数矩阵D的公式如下所示:
D=(sij)W×J
所述第三参数矩阵P的公式如下所示:
P=(pij)W×J
其中,i=1,2,...,W,j=1,2,...,,评价指标的信息熵的计算公式如下所示:
其中,Ej为第j个评价指标的信息熵;
所述评价指标的权重的计算公式如下所示:
其中,wj为第j个评价指标的权重;
所述可选方案的综合得分的计算公式如下所示:
其中,scorei为第i个可选方案的综合得分。
进一步地,在数据量有限的情况下,为了避免模型欠拟合,如果出现最优话题数为=1的情况,则选择下一个综合评分最高的组合对应的。
所述步骤S4中计算两个连续策略的调整效果的过程具体包括:
S401、获取LDA模型输出的应急交通策略下每个话题的词列表,计算每两个话题之间的杰卡德距离,即相似度,根据预设的话题相似度阈值对话题进行合并;
S402、话题合并完成后,计算两个连续应急交通策略对应话题之间的杰卡德距离,形成杰卡德矩阵,并计算平均杰卡德距离进行相似度判定,作为目标应急交通策略的评估结果。
进一步地,如果两个应急交通策略对应的话题之间存在两个话题距离小于话题相似度阈值,即认为前一个策略对应的话题需求在第二个策略里仍未得到满足。下一阶段策略的调整应该着重处理该需求,当存在多个未得到满足的需求时,按相似度值大小排列处理优先级。
进一步地,所述平均杰卡德距离Ave_Diff_MatrixP1P2的计算公式如下所示:
其中,Diff_MatrixP1P2_代表每个话题包含个词汇的杰卡德矩阵 DiffMatrixP1P2,N代表语料尺寸大小范围内的话题可包含词汇的组数;
所述杰卡德矩阵DiffMatrix的计算公式如下所示:
其中,P1和P2为两个连续应急交通策略,1≤i≤K1,1≤j≤K2,0≤Pi,j≤1,Termseti={term1,term2,…,termn}i,Termsetj={term1,term2,…,termn}j,DJ为两个话题之间的杰卡德距离,n代表话题中包含的词汇数量,termn为话题中的词汇。
所述LDA模型的输出是代表每个话题Topic的词列表,如下所示:
Topici=(i-1,p1*″term1″+p2*″term2″+,…,pn*″termn″)
其中,1≤i≤K,i-1代表模型结果中话题索引,pn代表词汇termn属于话题i的概率。在理想的LDA模型结果中,不同的话题之间应该互不相关,即集合 Termset的各个子集合(代表各个话题)之间没有重复出现的词汇。
与现有技术相比,本发明具有以下有益效果:
本发明从多源社交媒体平台上采集关于目标应急交通策略的网络数据,通过文本情感预训练模型从网络数据中提取出对应的负面数据,通过熵权法和杰卡德距离,对LDA模型进行优化,计算得到调整前后的两个连续策略的调整效果,有效提高了评估的应急交通策略的实施效果的准确性,帮助交通决策者在公共突发事件中能够及时制定应对策略,监测交通策略过程,评估策略实施的有效性并在必要时及时做出调整以减少意料之外的结果带来的负面影响。
附图说明
图1为本发明的流程示意图;
图2为本发明基于熵权法的LDA模型话题数优化方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种基于社交媒体数据的应急交通策略评估方法,使用了情感分析、文本主题建模和集合间相似度度量等多种方法评估应急交通策略实施的效果,具体包括以下步骤:
S1、从多源社交媒体平台上采集关于目标应急交通策略的网络数据,并对网络数据进行预处理;
S2、通过文本情感预训练SKEP(Sentiment Knowledge Enhanced Pre-trainingfor Sentiment Analysis)模型对完成预处理的网络数据进行句子级情感分类,提取出对应的负面数据;
S3、通过熵权法和杰卡德距离相结合的主题数优化方法,对LDA模型进行优化,将负面数据输入优化后的LDA模型,提取出公众策略需求信息;
S4、根据公众策略需求信息,结合杰卡德距离,计算得到调整前后的两个连续策略的调整效果,作为目标应急交通策略的评估结果进行输出。
步骤S1中对网络数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词。
步骤S1中句子分词和去除停用词通过预先构建的交通领域分词词典和停用词词典进行预处理,以避免交通相关的短语词汇被分词算法切分,同时过滤出现频率高但对于信息挖掘无用的词汇,本实施例中,通过百度词库和搜狗词库构建交通领域分词词典和停用词词典。
步骤S2中采用文本情感预训练模型进行句子级情感分类,从公众的主观响应评估单个策略实施的效果好坏。
LDA模型通过超参数集(K,α,β)进行构建,其中K代表LDA模型的预选话题数,α代表LDA模型中多项式文档-主题分布的先验参数,β代表LDA模型中多项式主题-词汇分布的先验参数。
K∈[1,Kmax),Kmax代表可数无穷个正整数主题数;参数α的取值范围为α∈(0,1];参数β的取值范围为β∈(0,1]。
每一组超参数集(K,α,β)对应一个LDA模型,通过网格搜索算法计算每一个LDA模型的评价指标。
步骤S3中通过熵权法综合全部的评价指标,以综合得分最高的那一组超参数集对应的K值作为LDA模型的最优话题数。
如图2所示,熵权法计算综合得分的过程包括以下步骤:
S301、获取预选话题数的可选方案及每种类型可选方案的评价指标,构建第一参数矩阵;
S302、标准化处理第一参数矩阵,得到第二参数矩阵;
S303、正规化处理第二参数矩阵,得到第三参数矩阵,根据第三参数矩阵计算每个评价指标的信息熵;
S304、根据评价指标的信息熵,计算得到评价指标的权重;
S305、结合评价指标的信息熵和权重,计算得到每个可选方案的综合得分。
本实施例中,选取了困惑度(Perplexity)和话题一致性(CVcoherence)两个指标量化LDA模型的可解释性。
第一参数矩阵Q的公式如下所示:
Q=(kij)W×J
其中,kij为第i个可选方案的第j个评价指标的值,W为可选方案的总数,J为评价指标的总数;
第二参数矩阵D的公式如下所示:
D=(sij)W×J
第三参数矩阵P的公式如下所示:
P=(pij)W×J
其中,i=1,2,...,W,j=1,2,...,J,评价指标的信息熵的计算公式如下所示:
其中,Ej为第j个评价指标的信息熵;
评价指标的权重的计算公式如下所示:
其中,wj为第j个评价指标的权重;
可选方案的综合得分的计算公式如下所示:
其中,scorei为第i个可选方案的综合得分。
在数据量有限的情况下,为了避免模型欠拟合,如果出现最优话题数为K=1 的情况,则选择下一个综合评分最高的组合对应的K。
步骤S4中计算两个连续策略的调整效果的过程具体包括:
S401、获取LDA模型输出的应急交通策略下每个话题的词列表,计算每两个话题之间的杰卡德距离,即相似度,根据预设的话题相似度阈值对话题进行合并;
S402、话题合并完成后,计算两个连续应急交通策略对应话题之间的杰卡德距离,形成杰卡德矩阵,并计算平均杰卡德距离进行相似度判定,作为目标应急交通策略的评估结果,使距离度量结果更加可靠和稳定。
平均杰卡德距离Ave_Diff_MatrixP1P2的计算公式如下所示:
其中,Diff_MatrixP1P2_n代表每个话题包含n个词汇的杰卡德矩阵 DiffMatrixP1P2,N代表语料尺寸大小范围内的话题可包含词汇的组数(比如,话题包含的词汇数从50按100的步长递增到2050,组数为21);
杰卡德矩阵DiffMatrix的计算公式如下所示:
其中,P1和P2为两个连续应急交通策略,1≤i≤K1,1≤j≤K2,0≤Pi,j≤1,Termseti={term1,term2,…,termn}i,Termsetj={term1,term2,…,termn}j,DJ为两个话题之间的杰卡德距离,n代表话题中包含的词汇数量,termn为话题中的词汇。
LDA模型的输出是代表每个话题Topic的词列表,如下所示:
Topici=(i-1,p1*″term1″+p2*″term2″+,…,pn*″termn″)
其中,1≤i≤K,i-1代表模型结果中话题索引,pn代表词汇termn属于话题i的概率。在理想的LDA模型结果中,不同的话题之间应该互不相关,即集合 Termset的各个子集合(代表各个话题)之间没有重复出现的词汇。
本实施例中,话题相似度阈值为0.9(可根据实际情况调整,取值范围为0-1,阈值越高则要求话题间的相似度越低),小于0.9的两个话题说明相互之间比较相似,最后将这两个话题合并为一个话题。如果两个应急交通策略对应的话题之间存在两个话题距离小于话题相似度阈值,即认为前一个策略对应的话题需求在第二个策略里仍未得到满足。下一阶段策略的调整应该着重处理该需求,当存在多个未得到满足的需求时,按相似度值大小排列处理优先级。
此外,需要说明的是,本说明书中所描述的具体实施例,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (10)
1.一种基于社交媒体数据的应急交通策略评估方法,其特征在于,具体包括以下步骤:
S1、从多源社交媒体平台上采集关于目标应急交通策略的网络数据,并对网络数据进行预处理;
S2、通过文本情感预训练模型对完成预处理的网络数据进行句子级情感分类,提取出对应的负面数据;
S3、通过熵权法和杰卡德距离相结合的主题数优化方法,对LDA模型进行优化,将负面数据输入优化后的LDA模型,提取出公众策略需求信息;
S4、根据公众策略需求信息,结合杰卡德距离,计算得到调整前后的两个连续策略的调整效果,作为目标应急交通策略的评估结果进行输出。
2.根据权利要求1所述的一种基于社交媒体数据的应急交通策略评估方法,其特征在于,所述步骤S1中对网络数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词。
3.根据权利要求2所述的一种基于社交媒体数据的应急交通策略评估方法,其特征在于,所述步骤S1中句子分词和去除停用词通过预先构建的交通领域分词词典和停用词词典进行预处理。
4.根据权利要求1所述的一种基于社交媒体数据的应急交通策略评估方法,其特征在于,所述LDA模型通过超参数集(K,α,β)进行构建,其中K代表LDA模型的预选话题数,代表LDA模型中多项式文档-主题分布的先验参数,β代表LDA模型中多项式主题-词汇分布的先验参数。
5.根据权利要求4所述的一种基于社交媒体数据的应急交通策略评估方法,其特征在于,每一组所述超参数集(K,α,β)对应一个LDA模型,通过网格搜索算法计算每一个LDA模型的评价指标。
6.根据权利要求5所述的一种基于社交媒体数据的应急交通策略评估方法,其特征在于,所述步骤S3中通过熵权法综合全部的评价指标,以综合得分最高的那一组超参数集对应的值作为LDA模型的最优话题数。
7.根据权利要求6所述的一种基于社交媒体数据的应急交通策略评估方法,其特征在于,所述熵权法计算综合得分的过程包括以下步骤:
S301、获取预选话题数的可选方案及每种类型可选方案的评价指标,构建第一参数矩阵;
S302、标准化处理第一参数矩阵,得到第二参数矩阵;
S303、正规化处理第二参数矩阵,得到第三参数矩阵,根据第三参数矩阵计算每个评价指标的信息熵;
S304、根据评价指标的信息熵,计算得到评价指标的权重;
S305、结合评价指标的信息熵和权重,计算得到每个可选方案的综合得分。
8.根据权利要求7所述的一种基于社交媒体数据的应急交通策略评估方法,其特征在于,所述第一参数矩阵Q的公式如下所示:
Q=(kij)W×J
其中,kij为第i个可选方案的第j个评价指标的值,W为可选方案的总数,J为评价指标的总数;
所述第二参数矩阵D的公式如下所示:
D=(sij)W×J
所述第三参数矩阵P的公式如下所示:
P=(pij)W×J
其中,i=1,2,...,W,j=1,2,...,J,评价指标的信息熵的计算公式如下所示:
其中,Ej为第j个评价指标的信息熵;
所述评价指标的权重的计算公式如下所示:
其中,wj为第j个评价指标的权重;
所述可选方案的综合得分的计算公式如下所示:
其中,scorei为第i个可选方案的综合得分。
9.根据权利要求1所述的一种基于社交媒体数据的应急交通策略评估方法,其特征在于,所述步骤S4中计算两个连续策略的调整效果的过程具体包括:
S401、获取LDA模型输出的应急交通策略下每个话题的词列表,计算每两个话题之间的杰卡德距离,根据预设的话题相似度阈值对话题进行合并;
S402、话题合并完成后,计算两个连续应急交通策略对应话题之间的杰卡德距离,形成杰卡德矩阵,并计算平均杰卡德距离进行相似度判定,作为目标应急交通策略的评估结果。
10.根据权利要求9所述的一种基于社交媒体数据的应急交通策略评估方法,其特征在于,所述话题的词列表如下所示:
Topici=(i-1,p1*"term1"p2*"term2",…,pn*"tetmn"
其中,1≤K,i-1代表模型结果中话题索引,pn代表词汇n属于话题i的概率,n代表话题中包含的词汇数量,termn为话题中的词汇;
所述平均杰卡德距离Ave_Diff_MatrixP1P2的计算公式如下所示:
其中,Diff_MatrixP1P2_代表每个话题包含个词汇的杰卡德矩阵DiffMatrixP1P2,N代表语料尺寸大小范围内的话题可包含词汇的组数;
所述杰卡德矩阵DiffMatrix的计算公式如下所示:
其中,P1和P2为两个连续应急交通策略,1≤i≤K1,1≤j≤K2,0≤Pi,j≤1,Twrmseti={term1,term2,…,termn}i,Termsetj={term1,term2,…,termn}j,DJ为两个话题之间的杰卡德距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111087045.3A CN113887584B (zh) | 2021-09-16 | 2021-09-16 | 一种基于社交媒体数据的应急交通策略评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111087045.3A CN113887584B (zh) | 2021-09-16 | 2021-09-16 | 一种基于社交媒体数据的应急交通策略评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113887584A true CN113887584A (zh) | 2022-01-04 |
CN113887584B CN113887584B (zh) | 2022-07-05 |
Family
ID=79009762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111087045.3A Active CN113887584B (zh) | 2021-09-16 | 2021-09-16 | 一种基于社交媒体数据的应急交通策略评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887584B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016169290A1 (zh) * | 2015-04-21 | 2016-10-27 | 华南理工大学 | 一种面向道路交通事故应急处置的决策支持系统及方法 |
CN106909643A (zh) * | 2017-02-20 | 2017-06-30 | 同济大学 | 基于知识图谱的社交媒体大数据主题发现方法 |
CN107622354A (zh) * | 2017-09-29 | 2018-01-23 | 中国科学技术大学 | 一种基于区间二元语义的突发事件应急能力评估方法 |
CN109523061A (zh) * | 2018-10-22 | 2019-03-26 | 哈尔滨工业大学 | 一种基于情景分析的突发事件应急决策方法 |
CN111553153A (zh) * | 2020-04-21 | 2020-08-18 | 湖北智旅云科技有限公司 | 一种采用多数据源采集技术用于游客画像分析的方法 |
CN111639845A (zh) * | 2020-05-22 | 2020-09-08 | 武汉理工大学 | 一种考虑完整性和可操作性的应急预案有效性评估方法 |
CN112035603A (zh) * | 2020-08-03 | 2020-12-04 | 北京宏博知微科技有限公司 | 一种综合计算事件的传播影响力评估方法 |
CN112434933A (zh) * | 2020-11-20 | 2021-03-02 | 温州大学瓯江学院 | 一种公众社交平台的媒体影响力定量评估方法 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN112784010A (zh) * | 2021-01-04 | 2021-05-11 | 中国石油大学(华东) | 一种基于多模型非线性融合的中文句子相似度计算方法 |
CN112989061A (zh) * | 2021-01-05 | 2021-06-18 | 杭州数梦工场科技有限公司 | 应急资源推荐方法、装置、电子设备及存储介质 |
CN113064991A (zh) * | 2021-03-17 | 2021-07-02 | 西北工业大学 | 一种基于人机协作的微博事件真假检测方法 |
CN113282841A (zh) * | 2021-07-19 | 2021-08-20 | 中国传媒大学 | 基于建模的公众话题传播评估方法及系统 |
-
2021
- 2021-09-16 CN CN202111087045.3A patent/CN113887584B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016169290A1 (zh) * | 2015-04-21 | 2016-10-27 | 华南理工大学 | 一种面向道路交通事故应急处置的决策支持系统及方法 |
CN106909643A (zh) * | 2017-02-20 | 2017-06-30 | 同济大学 | 基于知识图谱的社交媒体大数据主题发现方法 |
CN107622354A (zh) * | 2017-09-29 | 2018-01-23 | 中国科学技术大学 | 一种基于区间二元语义的突发事件应急能力评估方法 |
CN109523061A (zh) * | 2018-10-22 | 2019-03-26 | 哈尔滨工业大学 | 一种基于情景分析的突发事件应急决策方法 |
CN111553153A (zh) * | 2020-04-21 | 2020-08-18 | 湖北智旅云科技有限公司 | 一种采用多数据源采集技术用于游客画像分析的方法 |
CN111639845A (zh) * | 2020-05-22 | 2020-09-08 | 武汉理工大学 | 一种考虑完整性和可操作性的应急预案有效性评估方法 |
CN112035603A (zh) * | 2020-08-03 | 2020-12-04 | 北京宏博知微科技有限公司 | 一种综合计算事件的传播影响力评估方法 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN112434933A (zh) * | 2020-11-20 | 2021-03-02 | 温州大学瓯江学院 | 一种公众社交平台的媒体影响力定量评估方法 |
CN112784010A (zh) * | 2021-01-04 | 2021-05-11 | 中国石油大学(华东) | 一种基于多模型非线性融合的中文句子相似度计算方法 |
CN112989061A (zh) * | 2021-01-05 | 2021-06-18 | 杭州数梦工场科技有限公司 | 应急资源推荐方法、装置、电子设备及存储介质 |
CN113064991A (zh) * | 2021-03-17 | 2021-07-02 | 西北工业大学 | 一种基于人机协作的微博事件真假检测方法 |
CN113282841A (zh) * | 2021-07-19 | 2021-08-20 | 中国传媒大学 | 基于建模的公众话题传播评估方法及系统 |
Non-Patent Citations (2)
Title |
---|
QING HE,ET AL: "《Queuing Analysis at Toll Stations under the Tollfree Policy in Holidays in Shanghai》", 《2018 21ST INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS (ITSC)》 * |
李先彪: "《基于电商消费者负面评论的产品创新侦测研究》", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113887584B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11615695B2 (en) | Coverage agent for computer-aided dispatch systems | |
Kumar et al. | A deep multi-modal neural network for informative Twitter content classification during emergencies | |
Kumar et al. | A comparative analysis of machine learning techniques for disaster-related tweet classification | |
CN107992609A (zh) | 一种基于文本分类技术和决策树的投诉倾向判断方法 | |
CN110009475A (zh) | 风险稽核监察方法、装置、计算机设备及存储介质 | |
CN112528163A (zh) | 一种基于图卷积网络的社交平台用户职业预测方法 | |
Teodorescu | SN voice and text analysis as a tool for disaster effects estimation—A preliminary exploration | |
Zaharia et al. | Dialect identification through adversarial learning and knowledge distillation on romanian bert | |
Pogrebnyakov et al. | Identifying emergency stages in facebook posts of police departments with convolutional and recurrent neural networks and support vector machines | |
Chung et al. | Politicization of a disaster and victim blaming: Analysis of the Sewol ferry case in Korea | |
CN113887584B (zh) | 一种基于社交媒体数据的应急交通策略评估方法 | |
Sandagiri et al. | Deep neural network-based approach to identify the crime related twitter posts | |
CN111597580B (zh) | 机器人听觉隐私信息监听处理方法 | |
CN118297418A (zh) | 基于知识图谱的城市火灾应急决策方法 | |
Fahim et al. | Identifying social media content supporting proud boys | |
CN112950011B (zh) | 轨道交通系统风险链分析方法和装置 | |
Cerbin et al. | Understanding the anti-mask debate on social media using machine learning techniques | |
Alshehri et al. | An ensemble learning for detecting situational awareness tweets during environmental hazards | |
Oz et al. | Attribution of responsibility and blame regarding a man-made disaster:# flintwatercrisis | |
CN115471036A (zh) | 一种热点事件的群体情绪分析方法、存储介质及设备 | |
Wicke et al. | Red and blue language: Word choices in the Trump & Harris 2024 presidential debate | |
Wolbring | COVID-19, its aftermath and disabled people: What is the connection to ethics | |
CN113887197A (zh) | 基于tf-idf和lda的应急事件辅助决策方法 | |
Anam et al. | Identifying the context of hurricane posts on twitter using wavelet features | |
CN111581982B (zh) | 一种基于本体的医疗纠纷案件舆情预警等级的预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |