CN113064989A

CN113064989A - 一种交通舆情感知特征模块及分析治理应用

Info

Publication number: CN113064989A
Application number: CN202011304311.9A
Authority: CN
Inventors: 龚越; 滕靖; 刘韶杰
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-07-02
Anticipated expiration: 2040-11-19
Also published as: CN113064989B

Abstract

一种交通舆情感知特征模块及分析治理应用。步骤1，主题特征提取步骤：首先，将文本数据向量化；接着，建立多种文本分类模型；然后，采集并标注交通舆情数据，得到训练数据集和测试数据集；利用训练数据集训练并标定模型参数，得到具体的主题特征提取模型；步骤2，时空特征提取步骤，包括基于规则的交通舆情时间特征和基于空间词库的交通舆情空间特征提取两个方面；步骤3，情感特征提取方法：建立基于词典的交通类文本情感倾向性模型；步骤4，演变特征提取方法步骤。

Description

一种交通舆情感知特征模块及分析治理应用

技术领域

本发明交通舆情感知和特征提取技术。

背景技术

交通舆情是网络舆情研究的分支，是舆情研究在特定领域的体现。借鉴“舆情”定义，“交通舆情”是指“在一定的时间空间内，围绕中介性交通事件的发生、发展和变化，作为主体的民众对作为客体的交通要素、交通参与者和交通管理者产生和持有的信念、态度、意见和情绪等表现的总和”。

最接近的现有技术及其缺点：

交通舆情分析在本应用领域尚处于起步阶段。目前，行业对交通舆情的研究较少，特别是在交通舆情基本特征、特征提取方法等基础技术方面的研究尚为空白。

第一，部分交通运输管理部门舆情危机预警技术手段不足。危机主体信息获取和发布不及时，未形成交通网络舆情监测联动机制，交通舆情信息获取单一化和局部化；

第二，网络舆情信息抓取中交通术语特色空白。交通运输行业术语特色是目前所有商业类舆情监测的空白点，很难从已有的通用性词库中发掘行业本身语义特色，在网络舆情信息抓取时候易产生误判和丢失，且影响舆情的感知效率和精度。

第三，交通舆情感知特征未成体系，提取技术研究不足。舆情感知特征是进行交通舆情信息提取、危机预警以及应对的基础，交通运输的行业特色决定其舆情特征与通用舆情特征存在差异。

因此，有必要对交通舆情分析方法进行系统研究，建立交通舆情概念、特征、研究方法等技术体系。

发明内容

本发明目的在于克服现有技术不足，公开一种交通舆情感知特征模块及分析治理及监测应用。本发明首次面向交通监测与决策建立一种交通舆情感知特征模块，包括主题特征、时空特征、情感特征、演变特征四个特征，同时有体现出了交通拥堵、时间、地点等二级特征，为本领域开创新地构建了适用于交通舆情感知特征体系。

技术方案为：

一种交通舆情感知特征模块及分析治理应用，特征是，包括

步骤1，主题特征提取步骤

首先，将文本数据向量化；接着，建立多种文本分类模型；然后，采集并标注(本领域常规技术)交通舆情数据，得到训练数据集和测试数据集；利用训练数据集训练并标定模型参数，得到具体的主题特征提取模型；

步骤2，时空特征提取步骤，包括基于规则的交通舆情时间特征和基于空间词库的交通舆情空间特征提取两个方面

步骤3，情感特征提取方法

建立基于词典的交通类文本情感倾向性模型；

步骤4，演变特征提取方法步骤。

基于舆情的生命周期并面向交通监测与决策，本申请首次创设和建立了交通舆情感知特征体系。该体系理论原理及意义：

1)主题特征：

结合交通事件的划分和民众关注的热点交通问题，本申请将主题特征确定为：交通事故、交通拥堵、交通管理和共享交通。

只有识别出交通舆情中的交通主题特征，才能发现舆情涉及的交通问题类型。有助于提高应对对策的针对性。交通舆情往往由交通事件引起。通过分析近年来重点交通舆情事件，发现涉及的交通事件主要为交通事故，气象灾害、重大集会、道路养护等交通事件往往会导致交通拥堵。民众对交通管理和共享交通较为关注。

2)时空特征：交通事故、交通拥堵的发生都具有很强的时空特征。交通管理、共享交通具有很强的空间地理特征。因此，确定交通舆情的时空特征具有科学性和实用性。有助于分析交通问题发生的具体位置和时间，便于解决交通问题。从根源了解、疏导交通舆情。

3)情感特征：交通舆情的情感特征是衡量民众对某交通事件的态度是倾向于正面还是负面还是中立。通过情感分析技术能够更直接、快速地获取民众的态度、立场和倾向性。有助于交通管理者有效的了解民意，制定合理的决策。

4)演变特征：用以描述网络舆情从发生、发展直到消亡的生命周期。提取交通舆情的演变特征，有助于实时监测交通舆情的当前形势，并对其变化趋势进行预测。如果预测结果是该交通舆情会导致重大负面影响，应及时做出预警。

附图说明

图1为本发明模块方法流程图

图2为实施例空间特征提取策略

具体实施方式

以下结合附图对本发明技术方案做详细介绍。

一种交通舆情感知特征模块及分析治理及监测应用，详述如下。

如图1所示。

步骤1，主题特征提取步骤

首先，将文本数据向量化。接着，建立多种文本分类模型。然后，采集并标注(本领域常规技术)交通舆情数据，得到训练数据集和测试数据集。利用训练数据集训练并标定模型参数，得到具体的主题特征提取模型。

作为实施例，详述如下：

步骤1.1文本向量化

要对文本进行分类，就需要把文本转化成特征向量。组成文本的语言单位包括字、词、短语、句子以及句群等等，这些都可以作为文本的特征。本实施例选取词作为特征。使用Ansj中文分词工具，在词典中拓展地名、路名、交通专有名词等词典里没有的词汇，对文本进行分词。

本实施例采用向量空间模型将文本转化为向量，选取词作为文本的特征项。每一篇文本表示为n维向量空间中的一个向量，向量中每一维对应于一个特征项，表示为：

V＝(w(f₁),w(f₂),…,w(f_n)) (1)

其中，w(f_i)表示特征项f_i在文本向量中的权值，表征了该特征在描述文本语义内容的能力和重要程度。

选取词作为文本的特征项，TF-IDF(Term Frequency/Inverse DocumentFrequency)作为每一个词的权值。计算公式为：

其中，TF(f_i)为词频，是词f_i在一篇文档中出现的频率，出现的频率越高，说明它对此类文档的重要程度越高；D表示语料库中的总文档数，D_i表示语料库中含有词f_i的文档数，

称为反文档频率(Inverse Document Frequency，简称IDF)，表示一个词f_i出现的次数越多，通过它辨识文档类型越难。

通常在每个文本内对TF-IDF做归一化，以排除文本长度的影响，得到词f_i的权重w(f_i)计算公式为：

步骤1.2：文本分类和构建模型

将文本表示成向量后，文本分类问题等价于求待分类文本向量与已知的主题向量的相似程度。如果相似度高，则待分类文本与该已知主题为同一主题。本文利用向量的余弦相似度建立主题分类模型。

假设待分类文本向量为X＝(x₁,L,x_n)，已分类文本向量为χ_i＝(χ_i1,L,χ_im)，其中χ_i表示五类主题向量，

{χ_i|χ₁＝交通拥堵类,χ₂＝交通事故类,χ₃＝共享交通类,χ₄＝交通管控类,χ₅＝其它类}。

利用余弦定理，建立交通舆情主题分类模型如下：

表示待分类文本X与已知主题文本χ_i之间的相似度，取相似度最大的χ_i作为X的主题类型Class(X)。需要特别指出的是，由于待分类文本向量 X的维度要低于已分类文本向量χ_i，在计算公式(4)的分子，即两个向量内积时，只需考虑X和χ_i共同的特征项f_i的特征值w(f_i)，本文为待分类文本与已分类文本中相同的词语的TF-IDF值，分子最多为n项。因为只在χ_i中存在的特征项在X 中的特征值为0，相乘的结果也为0，不影响分子的计算结果，却可以大大减少计算的复杂度。

在使用本模型前，需要标定模型参数χ_ij。本实施例首先融合每类训练集中的所有文本，得到五个大型文本，对应五类主题。分别对五个大型文本进行文本向量化后，得到已知分类主题的文本向量集合{χ_i}。模型参数标定工作完成。

其中，基于规则的交通舆情时间特征提取方法为：

本实施例用数词、名词来表达时间，在语法上构成时间短语时有固定的搭配，称之为时间表达模式。本发明确立了五种时间表达模式如下表所示：

表1-1时间表达模式

(Num表示数词，N表示时间名词)

通过建立时间表达模式，将时间特征的提取问题具体化为时间表达模式的识别问题。首先对文本分词，得到一串词语序列。本实施例采用以下策略识别时间表达模式：

Step1：从第一个词开始，与N模式的时间名词库中的词语进行比对，发现相同的词语则识别为N模式的时间表达模式，提取出作为该文本的时间特征。直到检测完最后一个词。

Step2：从第一个词开始，判断该词是否为数词，若是，则判断紧跟该数词后的单元。情形1：若是名词，则与时间名词库进行比对，发现相同的词语则识别出Num+N模式的时间表达模式，提取出作为该文本的时间特征。情形2：若是“：”或“.”或“/”符号，则继续判断紧跟该符号的单元是否为数词，若是数词则识别出Num:Num或Num.Num或Num/Num时间表达模式，提取出作为该文本时间特征。直到检测完最后一个词。

上述策略需要对文本的词语序列进行两次遍历，有可能存在同一文本提取出多个时间特征的情形。此时应将时间表达模式所在的句子及其上下句同时提取，才能理解不同时间特征的含义。

其中，所述基于空间词库的交通舆情空间特征提取方法为：

交通事件的交通舆情都会蕴含空间地理信息。所述空间地理信息的表达由“国家名、省名、城市名、交通设施名、方向词、距离短语”中的一个或多个构成。因此，只要识别出文本中的上述词语，并按照其表达的空间范围从大到小排列，即可得到文本的空间特征。

为了识别文本中的空间地理信息，需要建立空间特征词库。本实施例建立了五层树状空间特征词库。

词库的第一层为国家词库，包括中国、法国、德国等。

第二层为国家下的“省、自治区、州”的词库，隶属与第一层中的具体国家，如江苏、安徽等隶属于中国，是中国词库下的子库。

第三层为城市库，隶属于第二层中的具体省、自治区、州，如苏州库是江苏库的子库；直辖市则直接隶属于第一层中的具体国家，如上海市是中国库的子库。

第四层为“区、县、乡镇”词库，隶属于第三层中的具体城市，如杨浦区、嘉定区等隶属于上海库，是上海库下的子库。

第五层为交通设施词库，包括路段名、场站名等交通设施词汇，是第四层区、县、乡镇库下的子库。

至此，上述五层树状空间特征词库建立完毕。

利用五层树状空间特征词库，将词库中的词语与网络文本中的词语比对，找出网络文本中包含的空间词汇，并按照所在层数按照从小到大排列，即可提取出网络文本中的空间地理信息。按照此思路，设计如下提取策略(如图2所示)：

步骤2.1开始，输入网络文本，进行Ansj分词后进入步骤2.2；

步骤2.2匹配、记录程序

步骤2.2.1匹配所有第一层库，如有子库则进一步匹配该词第二层子库，否则递进进入匹配下一层(第二层库)，直到对该层(第一层)空间信息记录起来或者依次逐层递进进入最后一层，进入最后一层则将第五层空间信息记录起来；

逐层执行并将逐层的空间信息都记录起来；

步骤2.3提取记录下来的空间特征。

步骤3，情感特征提取方法

本发明建立基于词典的交通类文本情感倾向性模型。

步骤3.1建立交通类情感词典

定义seedP₀＝{快、通畅、便利、舒适}为正面情感词种子， seedN₀＝{慢、拥堵、车祸、混乱}为负面情感词种子。本实施例在《哈工大信息检索研究室同义词词林扩展版》的77,343条词语中，寻找种子集的同义词和反义词对种子集进行扩展，得到seedP₁和seedN₁。再寻找新的种子集seedP₁和seedN₁的同义词和反义词，进一步扩展种子集。经过k次迭代，当种子集seedP_k和seedN_k的数量不变时，停止迭代，得到交通类情感词扩展词库。但仅有交通类情感词还不够完善，因为舆情中不止有交通类情感词，还有基础情感词。因此需要融合HowNet、NTUSD和得到的交通类情感词。除此之外，为了应对丰富的网络词语，还需加入“蓝瘦香菇”、“猴赛雷”等网络情感词语。最终得到交通类情感词典。

步骤3.2计算文本情感倾向性

文本的情感倾向性主要依赖于名词、动词、副词以及形容词，在语法上构成情感倾向时有一定的固定搭配，本发明称之为情感模式。本实施例找出文本中的情感模式并对文本进行降维，剔除中性词语，减少情感倾向性计算的复杂度。本发明确立五种常见情感模式，见下表所示，其中情感词是情感词典中出现的词汇，程度副词为表示程度的“很”、“非常”等词汇。

表1-2五种常见情感模式

程度副词起到改变文本情感倾向程度的作用，因此必须定义程度副词对文本情感的影响权重。本实施例定义程度副词的权重如下表所示。

表1-3程度副词对文本情感的影响权重表

假设情感倾向性表示为Sentiment(ψⁱ),i＝1...5，分别表示五种情感模式。程度副词的权重为Weight(w_d)，建立如下模型计算每种情感模式的情感倾向性：

Sentiment(S)＝Polarity(w_s) (3)

Sentiment(DS)＝Weight(w_d)×Polarity(w_s) (4)

Sentiment(NS)＝(-1)ⁿPolarity(w_s) (5)

Sentiment(DNS)＝(-1)ⁿWeight(w_d)Polarity(w_s) (6)

Polarity(w_s)表示情感词w_s的极性，为-1或1。n为否定词的个数。只包含情感词的短语(S型情感模式)的情感极性由情感词的极性决定，计算公式为(6)；程度副词起到改变短语情感极性强弱的作用，因此含有程度副词的短语(DS型情感模式)需要乘以相应的权重，计算公式为(7)；否定词起到反转情感极性的作用，因此其权重为-1，NS型情感模式的计算公式为(8)。程度副词与否定词的位置关系决定了它们改变情感极性的强弱，对于DNS型情感模式，程度副词起到加强否定的作用，因此两者的效果是正向的，计算公式为(9)；对于NDS型的情感模式，否定词起到削弱程度副词的作用，两者的效果是反向的，因此程度副词的权重变为原来的倒数，计算公式为(10)。

为了消除文本长度对文本极性的影响，便于不同文本之间情感极性的比较，应对文本的总体极性进行归一化，计算公式为：

Sentiment(T)为文本的总体倾向性，

分别为正面情感模式和负面情感模式的情感极性。公式(11)的含义为正面情感度占文本总体情感度的比例，计算结果位于[0,1]区间。设定阈值0＜λ₁≤λ₂＜1，文本的情感极性判别式如下所示：

阈值根据实际应用场景设定，应尽可能地使情感极性的判别更加准确。

步骤4，演变特征提取方法步骤

本发明设正面舆情计量指标为r_p(t)，负面舆情计量指标为r_n(t)。在新闻媒体、微博上的正面新闻数和微博数之和为x_p(t)，转发量为y_p(t)；负面新闻数和微博数之和为x_n(t)，转发量y_n(t)。其中t为时间周期，t＝1,2,…,表示在时间周期t内的统计结果。则交通舆情演变特征计量指标的计算方法为：

即用正面、负面舆情的变化率r_p(t)、r_n(t)作为演变特征的计量指标，以消除发文数量的影响，研究交通舆情的演变规律。

本发明的应用价值在于：

1)交通感知：目前较成熟的交通信息感知技术包括固定传感器技术(感应线圈、视频监控和微波探测等)、浮动车技术和移动通信终端信令分析技术。这些技术虽然应用广泛，但难以有效捕捉交通问题背后的原因，如它们不能区分演唱会造成的拥堵还是车辆事故造成的拥堵。而现实事件会作用到互联网上，交通舆情感知特征提取自互联网，不但可以感知现实中发生的交通事件，也是一个很好的用于研究交通问题致因的资源；

2)舆情监控：有利于指导交通舆情监控工作，可根据特征来明确舆情信息采集的数据来源、地域范围和传播渠道,增强对交通舆情形势的把握度,把握受众的态度倾向,及时判断网络舆情的潜在问题，以此作为采取预警、响应措施以及决策应对的判断依据，降低交通舆情对社会的不良影响。

Claims

1.一种交通舆情感知特征模块，特征是，包括

步骤1，主题特征提取步骤

首先，将文本数据向量化；接着，建立多种文本分类模型；然后，采集并标注交通舆情数据，得到训练数据集和测试数据集；利用训练数据集训练并标定模型参数，得到具体的主题特征提取模型；

步骤3，情感特征提取方法

建立基于词典的交通类文本情感倾向性模型；

步骤4，演变特征提取方法步骤。

2.如权利要求1所述的模块，特征是，所述步骤1包括：

步骤1.1文本向量化

对文本进行分类，把文本转化成特征向量；选取词作为特征；对文本进行分词；

将文本转化为向量，选取词作为文本的特征项；每一篇文本表示为n维向量空间中的一个向量，向量中每一维对应于一个特征项，表示为：

V＝(w(f₁),w(f₂),…,w(f_n)) (1)

其中，w(f_i)表示特征项f_i在文本向量中的权值，表征了该特征在描述文本语义内容的能力和重要程度；

选取词作为文本的特征项，TF-IDF(Term Frequency/Inverse Document Frequency)作为每一个词的权值；计算公式为：

称为反文档频率(Inverse Document Frequency，简称IDF)，表示一个词f_i出现的次数越多，通过它辨识文档类型越难；

步骤1.2：文本分类和构建模型

将文本表示成向量后，文本分类问题等价于求待分类文本向量与已知的主题向量的相似程度；如果相似度高，则待分类文本与该已知主题为同一主题；

利用余弦定理，建立交通舆情主题分类模型如下：

Similarity(χ_i)表示待分类文本X与已知主题文本χ_i之间的相似度，取相似度最大的χ_i作为X的主题类型Class(X)；

在使用本模型前，标定模型参数χ_ij；

首先融合每类训练集中的所有文本，得到五个大型文本，对应五类主题；分别对五个大型文本进行文本向量化后，得到已知分类主题的文本向量集合{χ_i}；模型参数标定工作完成。

3.如权利要求1所述的模块，特征是，所述步骤2包括：

步骤2，时空特征提取步骤，包括基于规则的交通舆情时间特征和基于空间词库的交通舆情空间特征提取两个方面。

4.如权利要求3所述的模块，特征是，其中，基于规则的交通舆情时间特征提取方法为：

用数词、名词来表达时间，在语法上构成时间短语时有固定的搭配，称之为时间表达模式；确立了五种时间表达模式如下表所示：

表1-1时间表达模式

(Num表示数词，N表示时间名词)

通过建立时间表达模式，将时间特征的提取问题具体化为时间表达模式的识别问题；首先对文本分词，得到一串词语序列。

5.如权利要求4所述的模块，特征是，采用以下策略识别时间表达模式：

Step1：从第一个词开始，与N模式的时间名词库中的词语进行比对，发现相同的词语则识别为N模式的时间表达模式，提取出作为该文本的时间特征；直到检测完最后一个词；

Step2：从第一个词开始，判断该词是否为数词，若是，则判断紧跟该数词后的单元；情形1：若是名词，则与时间名词库进行比对，发现相同的词语则识别出Num+N模式的时间表达模式，提取出作为该文本的时间特征；情形2：若是“：”或“.”或“/”符号，则继续判断紧跟该符号的单元是否为数词，若是数词则识别出Num:Num或Num.Num或Num/Num时间表达模式，提取出作为该文本时间特征；直到检测完最后一个词。

6.如权利要求3所述的模块，特征是，其中，所述基于空间词库的交通舆情空间特征提取方法为：

交通事件的交通舆情都会蕴含空间地理信息；所述空间地理信息的表达由“国家名、省名、城市名、交通设施名、方向词、距离短语”中的一个或多个构成；识别出文本中的上述词语，并按照其表达的空间范围从大到小排列，即可得到文本的空间特征；

为了识别文本中的空间地理信息，建立五层树状空间特征词库：

词库的第一层为国家词库；

第二层为国家下的“省、自治区、州”的词库，隶属与第一层中的具体国家，是第一层词库下的子库；

第三层为城市库，隶属于第二层中的具体省、自治区、州；直辖市则直接隶属于第一层词库的子库；

第四层为“区、县、乡镇”词库，隶属于第三层词库下的子库；

第五层为交通设施词库，包括交通设施词汇，是第四层词库下的子库；

至此，上述五层树状空间特征词库建立完毕。

7.如权利要求6所述的模块，特征是，利用五层树状空间特征词库，将词库中的词语与网络文本中的词语比对，找出网络文本中包含的空间词汇，并按照所在层数按照从小到大排列，即可提取出网络文本中的空间地理信息；提取策略：

步骤2.1开始，输入网络文本，进行Ansj分词后进入步骤2.2；

步骤2.2匹配、记录程序

逐层执行并将逐层的空间信息都记录起来；

步骤2.3提取记录下来的空间特征。

8.如权利要求1所述的模块，特征是，所述步骤3建立基于词典的交通类文本情感倾向性模型,包括

步骤3.1建立交通类情感词典

定义seedP₀＝{快、通畅、便利、舒适}为正面情感词种子，seedN₀＝{慢、拥堵、车祸、混乱}为负面情感词种子；

步骤3.2计算文本情感倾向性

文本的情感倾向性依赖于名词、动词、副词以及形容词，在语法上构成情感倾向时有一定的固定搭配，称之为情感模式；确立五种常见情感模式，其中情感词是情感词典中出现的词汇，程度副词为表示程度的词汇；程度副词起到改变文本情感倾向程度的作用；

假设情感倾向性表示为Sentiment(ψⁱ),i＝1...5，分别表示五种情感模式；程度副词的权重为Weight(w_d)，建立如下模型计算每种情感模式的情感倾向性：

Sentiment(S)＝Polarity(w_s) (3)

Sentiment(DS)＝Weight(w_d)×Polarity(w_s) (4)

Sentiment(NS)＝(-1)ⁿPolarity(w_s) (5)

Sentiment(DNS)＝(-1)ⁿWeight(w_d)Polarity(w_s) (6)

Polarity(w_s)表示情感词w_s的极性，为-1或1；n为否定词的个数；只包含情感词的短语(S型情感模式)的情感极性由情感词的极性决定，计算公式为(6)；

程度副词起到改变短语情感极性强弱的作用，含有程度副词的短语(DS型情感模式)需要乘以相应的权重，计算公式为(7)；

否定词起到反转情感极性的作用，其权重为-1，NS型情感模式的计算公式为(8)；

程度副词与否定词的位置关系决定了它们改变情感极性的强弱，对于DNS型情感模式，程度副词起到加强否定的作用，两者的效果是正向的，计算公式为(9)；

对于NDS型的情感模式，否定词起到削弱程度副词的作用，两者的效果是反向的，程度副词的权重变为原来的倒数，计算公式为(10)；

Sentiment(T)为文本的总体倾向性，

分别为正面情感模式和负面情感模式的情感极性；公式(11)的含义为正面情感度占文本总体情感度的比例，计算结果位于[0,1]区间；设定阈值0＜λ₁≤λ₂＜1，文本的情感极性判别式如下所示：

9.如权利要求1所述的模块，特征是，所述步骤4建立基于词典的交通类文本情感倾向性模型：

设正面舆情计量指标为r_p(t)，负面舆情计量指标为r_n(t)；

在新闻媒体、微博上的正面新闻数和微博数之和为x_p(t)，转发量为y_p(t)；

负面新闻数和微博数之和为x_n(t)，转发量y_n(t)；

其中t为时间周期，t＝1,2,…,表示在时间周期t内的统计结果；则交通舆情演变特征计量指标的计算方法为：

10.交通舆情感知特征模块在交通分析治理及监测中的应用。