CN107577702B

CN107577702B - 一种社交媒体中交通信息的辨别方法

Info

Publication number: CN107577702B
Application number: CN201710627376.9A
Authority: CN
Inventors: 王璞; 郑治豪; 吴文兵; 陈鑫; 胡荣鑫; 柳鑫
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2020-11-17
Anticipated expiration: 2037-07-28
Also published as: CN107577702A

Abstract

本发明公开了一种社交媒体中交通信息的辨别方法，包括步骤一：预处理社交媒体数据，步骤二：社交媒体数据的分类和步骤三：社交媒体数据的命名实体识别。本发明利用多项式模型、条件随机场算法等机器学习技术对社交媒体信息进行分类及命名实体识别，将社交媒体中与交通有关的信息提取出来，并对其中的事件地点进行提取。该方法可以为交通管理部门及时提供交通舆情及突发交通事件的态势、影响范围、起因等信息。在交通信息采集该方法建设较为薄弱的地区，该方法可以为交通管理提供信息补充。

Description

一种社交媒体中交通信息的辨别方法

技术领域

本发明涉及一种社交媒体中交通信息的辨别方法。

背景技术

基于浮动车GPS轨迹、磁感线圈、视频监控等数据的交通数据采集方法在智能交通的建设和发展中发挥了重要作用，这些方法的应用有如下几种：第一，是基于浮动车GPS数据，能够获取路段区间运行速度与行程时间信息，从而判断路段通行情况，改善传统交通检测方式高投入、精度低的缺点。第二，对道路线圈的感应数据可以获取车辆的速度信息。第三，利用视频处理技术可以分析交通流特征，并提高车辆识别的精度。

这些数据自身结构和特点使它们在某些应用方面存在不足。例如，某些时刻很多路段上并没有出租车行驶，浮动车数据在一定程度上缺乏完整性；感应线圈的埋置深度、性能和寿命、线圈与导线接头的可靠性和防潮绝缘性能等均有待进一步完善和改进，而视频检测设备在气象恶劣的情况和低光照强度下，很难得到清晰可靠的图像。这些交通信息采集手段在运营成本和时空覆盖范围上仍然存在较大的局限性。

综上所述，现有交通信息检测技术大多依赖于硬件，其检测范围受到硬件布设的数量与范围的限制，且检测设备的数据较为机械，较难捕捉到多层次多维度的交通信息。

发明内容

本发明所解决的技术问题是，针对现有技术的不足，提出一种社交媒体中交通信息的辨别方法，利用社交媒体数据空间分布的广泛性和语言信息的直观性，获取更详细的交通信息，该信息能够与传统的交通信息检测方式形成互补，弥补传统交通检测方式在空间布置上的局限性及事件详细信息的缺失。该方法通过建立一个庞大的机器学习训练集对大量的真实社交媒体数据进行训练，生成了相应的机器学习模型，相关模型分别用于社交媒体数据的话题分类及命名实体识别。

为了实现上述技术目的，本发明的技术方案是，

一种社交媒体中交通信息的辨别方法，包括以下步骤：

步骤一：预处理社交媒体数据，将社交媒体数据中无实际含义与信息的内容去除；

步骤二：社交媒体数据的分类，首先将经过预处理的社交媒体数据进行向量化，然后通过多项式模型算法和分类模型对向量化后的社交媒体数据进行分类，提取出其中与交通信息相关的有效数据；

步骤三：社交媒体数据的命名实体识别，首先将步骤二中得到的社交媒体数据中与交通信息相关的有效数据进行分词及序列化，然后通过条件随机场算法基于命名实体识别模型进行命名实体标注，再逐行遍历标注结果，根据标注的标识提取出相关的词语并进行组合得到交通时间实体和交通地点实体，完成交通信息的辨别。

所述的一种社交媒体中交通信息的辨别方法，所述的步骤一中，无实际含义与信息的内容包括文本长度小于5个字符的数据、表情符号、话题标签、链接、转义字符、用户引用和多余的空格。

所述的一种社交媒体中交通信息的辨别方法，所述的步骤二中，对社交媒体数据进行向量化的步骤包括通过Gensim工具包内的简易分词工具对文本进行分词，将文本中的单词转化为单词列表，并利用词典将文档转换为词频表示的向量，再将词频表示的向量转化为TF-IDF表示的向量，最后将TF-IDF表示的向量转化为LSA表示的向量。

所述的一种社交媒体中交通信息的辨别方法，所述的词典是通过人工筛选出相等数量的有效社交媒体数据与无效社交媒体数据，利用LTP中文停止词表去除停止词后，分别存入两个文档中作为不同的分类，再存储两个文档中各个词语出现情况的文件。

所述的一种社交媒体中交通信息的辨别方法，所述的步骤二中，分类模型是采用生成词典时所使用的两个分别存储了去除停止词之后的有效社交媒体数据与无效社交媒体数据文档，然后将两个文档转换为词频表示的向量，再将词频表示的向量转化为TF-IDF表示的向量，最后将TF-IDF表示的向量转化为LSA表示的向量，输入到多项式模型算法进行训练得到的。

所述的一种社交媒体中交通信息的辨别方法，所述的步骤三中，将社交媒体数据进行分词及序列化，是利用LTP工具包加载LTP分词模型及词性标注模型，来对输入的文本进行分词及词性标注，生成一个词序列文档，每一行分别为分好的词及相应的词性。

所述的一种社交媒体中交通信息的辨别方法，所述的步骤三中，通过条件随机场算法基于命名实体识别模型进行命名实体标注，是通过CRF++工具包输入训练好的命名实体识别模型和文本词序列文件进行的。

所述的一种社交媒体中交通信息的辨别方法，所述的命名实体识别模型是选取生成词典时人工筛选出的未过滤停止词的有效社交媒体数据进行分词序列化处理及词性标注后，进行人工命名实体标注，作为训练真值来获得的模型，其中对于时间实体的界定方法为：从常用最大时间单位年开始至最小时间单位秒位置为一个时间实体；地点实体的界定方法为：在连续的地理位置描述中，以两个相同等级的地名为地点实体分隔点，每个地点实体由最高等级地名开始至最低等级地名结束，地名等级是指地名所包含的地理范围，范围越大则等级越高。

所述的一种社交媒体中交通信息的辨别方法，所述的步骤三中，进行命名实体标注是对包含多个含义内容的实体词语拆分为语开头的起始字、词语结尾的结尾字和除起始结尾字之外的内容作为中间字，并分别对起始字、中间字和结尾字标注B、I、E作为标签前部，将只包含一个含义内容的实体词语作为完整词并标注S作为标签前部，然后将地点实体词语标注Ns，对时间实体词语标注Nm作为标签尾部；

根据标注的标识提取出相关的词语并进行组合得到交通时间实体和交通地点实体，是通过标签尾部的Ns和Nm标识判断该词是一个交通地点实体还是一个交通时间实体的组成部分，再通过标签前部的B、I、E、S标识判断该词属于该实体的哪一部分。若是S标签，该词即为一个完整的实体；若是B标签，则读取至下一个E标签处，将这两个标签之间对应的词组合起来作为一个实体。

所述的一种社交媒体中交通信息的辨别方法，所述的步骤三中，当得到交通时间实体和交通地点实体后，还包括选取所得到的交通时间实体中较早的时间作为事件发生时间，以及当存在社交媒体数据定位地点时，选取社交媒体数据定位地点作为事件发生地点的步骤。

本发明的技术效果在于，利用多项式模型、条件随机场算法等机器学习技术对社交媒体信息进行分类及命名实体识别，将社交媒体中与交通有关的信息提取出来，并对其中的事件地点进行提取。该方法可以为交通管理部门及时提供交通舆情及突发交通事件的态势、影响范围、起因等信息。在交通信息采集该方法建设较为薄弱的地区，该方法可以为交通管理提供信息补充。附表说明

表3为社交媒体数据词序列示例及词性符号说明。

表4为命名实体标注方法。

表5为命名实体标注不同模板的设置方案与评估结果

附图说明

图1为文本向量化流程图。

图2为时间实体与地点实体示例。

图3为文本命名实体标注结果。

图4为方法应用流程图流程图。

图5为本发明处理的与交通有关的社交媒体信息的结果在地图上的展示。

具体实施方式

下面结合附图对本发明作进一步详细描述，但不作为对本发明的限定。

本实施例包括以下步骤：

步骤一：社交媒体数据内容语义消歧与交通话题筛选。中文具有一词多义的特点，带有关键词的社交媒体数据可能与交通无关，且与交通相关的社交媒体数据也不一定带有实际的交通信息，对社交媒体数据进行语义消歧和交通话题筛选，减少对无效数据的后续处理，提高效率，本实施例中所称的社交媒体是包括微博、微信朋友圈等媒体。

步骤二：社交媒体数据数据中交通信息的有效识别与提取。社交媒体数据中包含的交通事件发生地点往往比普通的地点实体更复杂，对社交媒体数据中的交通相关信息进行准确的界定，并选择相应的算法提取这些信息。

进一步地，在所述的步骤一中，对社交媒体数据进行语义消歧与交通话题筛选具体包括以下步骤：

1.1)社交媒体数据的预处理

社交媒体数据的通常包含了发布时间，正文，定位等内容。其中正文可能含有一些特定符号，包括表情符号、话题标签(##)、链接、转义字符、用户引用(@xx)以及多余的空格等，这些内容没有实际含义与信息，剔除后不影响全文语义表达。该方法使用正则表达式对这些符号匹配剔除。

1.2)有效社交媒体数据与无效社交媒体数据的定义

定义1有效社交媒体数据

有效社交媒体数据包含下表1中的关键词，所讨论的话题属于交通话题，且描述实际交通情况。

表1用于初步筛选社交媒体信息的关键词表

堵	车祸	剐蹭	事故	绕行	红绿灯
						路	追尾	相撞	塞车	高速	交通

定义2无效社交媒体数据

无效社交媒体数据包含表1关键词，但其描述的话题与交通无关，或者其虽然属于交通话题，但并不描述实际交通情况。

1.3)社交媒体数分类训练集的制作

本发明通过人工筛选出5000条有效社交媒体数据与5000条无效社交媒体数据，利用LTP中文停止词表去除停止词后，分别存入两个文档中，其分类标签分别为1和0。之后将社交媒体数据文本向量化，本发明使用Gensim工具包提供的隐性语义分析(LatentSemantic Analysis,LSA)进行向量化，流程如图1所示。本阶段生成词典后不需要再次生成。

1.4)分类算法的评估

文本分类算法则主要基于朴素贝叶斯(Naive Bayes,NB)、K最近邻(k-NearestNeighbor,KNN)、决策树(Decision Tree,DT)等算法。Scikit-learn是Python中的一个机器学习包，提供了多种分类器算法。KNN方法中，K表示分类决策时选取的最相似数据的个数，测试选取1NN、3NN、5NN；NB方法中，可以选择不同的模型训练，该方法选取高斯模型(GaussianNB)和多项式模型(MultinomialNB)；DT方法中，形参criterion表示构造决策树时节点测试属性选取的标准，测试选取信息熵(entropy)和基尼不纯度(gini)。

在训练分类模型时，采用十折交叉验证法，对十次训练得到的模型评估参数取平均值作为最终评估模型的参数。

该方法选择MUC会议制定的评估体系。其评价模型性能的指标有准确率(Precision)、召回率(Recall)和F-score。其中，准确率是预测结果为有效社交媒体数据中预测正确的比例，召回率是预测结果为有效社交媒体数据中预测正确的数量占全部人工标注的有效社交媒体数据数量的比例，F-Score的计算公式如下：

其中λ是召回率相对于准确率的权重，当λ取值小于1时，结果偏向准确率；大于1时，结果偏向召回率。在本次分类中，准确率和召回率同等重要，λ取值为1。在利用训练集对所有算法进行测试之后，测试结果如下表2所示。

表2不同分类算法的评估结果

算法	Precision	Recall	F1-score
				1NN	0.693	0.685	0.683
3NN	0.725	0.699	0.692
				5NN	0.727	0.717	0.717
GaussianNB	0.645	0.626	0.618
				MultinomialNB	0.766	0.768	0.767
DT(criterion＝’entropy’)	0.676	0.687	0.676
				DT(criterion＝'gini')	0.674	0.677	0.672

由表2结果可以看出，MultinomialNB算法总体表现优异，MultinomialNB以文档中的单词作为特征，对应的特征值是单词在文档中出现的次数，是典型的词袋模型，适用于文本分类；GaussianNB假定训练集中的各样本特征值服从高斯分布，而这一假定并不一定符合社交媒体数据语料的实际情况。KNN算法整体的表现不佳，这与KNN算法的归纳偏置密切相关：一个新数据的分类标签总是与其在欧式空间中若干个临近数据的多数标签相同。在算法应用的过程中，数据间的距离是根据数据的所有属性计算的，近邻间的距离往往会被大量的不相关属性所主导，从而降低KNN算法的分类性能。对比不同k值的KNN算法可以看出，当k增大时，分类性能有所提升，说明在一定范围内k值增大能够更好地排除错误数据与噪声的影响，提高分类性能；朴素贝叶斯分类器采用不同的模型时，分类性能差异较大。高斯分布的朴素贝叶斯分类器的性能明显低于多项式分布的朴素贝叶斯分类器。决策树算法在测试中表现较差。构造决策树时节点测试属性选取标准的不同，并不会对最终的分类性能产生明显的影响。

综上所述，本发明使用MultinomialNB算法对训练语料进行训练，自动提取用LSA向量表示的社交媒体数据中的关键特征，生成分类模型用于社交媒体信息的分类。

进一步地，在所述的步骤二中，对社交媒体数据中交通信息的有效识别与提取具体包括以下步骤：

2.1)命名实体识别训练集的制作

该方法选取分类阶段中筛选出的5000条未过滤停止词的有效社交媒体数据进行分词序列化处理及词性标注后，进行人工命名实体标注，作为训练真值。其中社交媒体数据词序列示例及词性符号说明见下表3，

表3社交媒体数据词序列示例及词性符号说明

命名实体标注方法如表4所示。

表4命名实体标注方法

该方法对于地点实体的界定方法为：在连续的地理位置描述中，以两个相同等级的地名为地点实体分隔点，每个地点实体由最高等级地名开始至最低等级地名结束。例如“G30连霍高速宝天段观音山隧道”这一描述中，“G30”是“连霍高速”的代号，故二者属于平行关系，该方法将“G30”作为单独的地点实体。“连霍高速”和“观音山隧道”分别是该描述中最高级和最低级的地名，故该方法将“连霍高速宝天段观音山隧道”标注为一个地点实体。“附近”一词不具有定位意义，不作标注。该方法能够清晰地标定社交媒体数据文本中的交通地点实体，减少判定尺度不一致带来的误差。

2.2)命名实体识别算法的评估

该方法采用条件随机场算法(CRF)进行命名实体识别，CRF算法的模型训练过程需要人工设定训练模板以指定需要考虑的特征及特征之间的相关关系。本方法采用三套特征模板进行十折交叉验证试验，模板的设定方式和性能如下表5所示，

表5命名实体标注不同模板的设置方案与评估结果

方案	窗口大小	考虑的列	考虑的相对关系	Precision	Recall	F1-score
							一	3	a	N/A	0.790	0.665	0.720
二	3	a,b	N/A	0.798	0.743	0.769
							三	3	a,b	a,b	0.794	0.754	0.773

表中该方法用a代表分词结果，b代表词性。根据测试结果，方案三的F1值最高，在准确率和召回率上都有良好的表现，故该方法采用方案三的模板作为训练模板，对全部的命名实体训练集进行训练，生成命名实体识别模型。方案三即同时考虑训练语料每一行的前后各一行，考虑分词结果和词性两个特征。

本发明的应用流程如图4所示。

步骤一：处理社交媒体数据，清洗掉文本长度小于5个字符的数据，清洗文本中没有实际意义的符号，包括表情符号、话题标签(##)、链接、转义字符、用户引用(@xx)以及多余的空格等。

步骤二：社交媒体数据的分类

步骤1：利用Gensim工具包将社交媒体数据的文本向量化。工具包内内置的简易分词工具对文本进行第一次分词，将文本中的单词转化为单词列表，利用生成好的词典将文档转换为词频表示的向量，再将词频表示的向量转化为TF-IDF表示的向量，最后将TF-IDF表示的向量转化为LSA表示的向量。在这个步骤后，每一条社交媒体数据都由一个LSA向量来表示。

步骤2：利用MultinomialNB算法工具包和训练好的分类模型对向量化的社交媒体数据进行分类，提取出其中与交通信息相关的有效数据。

利用scikit-learn工具包中的MultinomialNB算法函数加载训练好的模型对每一条社交媒体数据的LSA向量进行类别判断，即通过MultinomialNB算法和分类模型对向量化后的社交媒体数据进行分类，提取出其中与交通信息相关的有效数据。

步骤三：社交媒体数据的命名实体识别

步骤1：利用LTP工具包将社交媒体数据的文本进行第二次分词及序列化。

利用LTP工具包加载LTP分词模型及词性标注模型，两个模型会自动对输入的文本进行分词及词性标注，生成一个词序列文档，每一行分别为分好的词及相应的词性。

步骤2：利用CRF算法工具包及训练好的CRF模型对社交媒体数据文本序列进行命名实体识别。

利用CRF算法对文本序列进行命名实体识别需要用到两个文件，一个是训练好的CRF模型，一个是文本词序列文件，调用CRF++工具包中的crf_test命令并输入上述两个文件即可对文本词序列文件完成每个词的命名实体标注。

步骤3：逐行遍历标注结果并提取出相关的词语并将其组合起来，如图3所示。该方法通过标签尾部的Ns和Nm标识判断该词是一个交通地点实体还是一个交通时间实体的组成部分，再通过标签前部的B、I、E、S标识判断该词属于该实体的哪一部分。若是S标签，该词即为一个完整的实体；若是B标签，则读取至下一个E标签处，将这两个标签之间对应的词组合起来作为一个实体。

在获取了社交媒体数据中的交通时间实体和交通地点实体后，不能直接将其作为交通事件的发生时间和地点。因为该方法在采集如微博、朋友圈等相关社交媒体数据时获得了其发布时间，所以选取两个时间中较早的时间作为事件发生时间。同时，在社交媒体定位地点不缺省时，该方法优先选择社交媒体定位地点作为事件发生地点。

Claims

1.一种社交媒体中交通信息的辨别方法，其特征在于，包括以下步骤：

步骤三：社交媒体数据的命名实体识别，首先将步骤二中得到的社交媒体数据中与交通信息相关的有效数据进行分词及序列化，然后通过条件随机场算法基于命名实体识别模型进行命名实体标注，再逐行遍历标注结果，根据标注的标识提取出相关的词语并进行组合得到交通时间实体和交通地点实体，完成交通信息的辨别；

所述的步骤二中，对社交媒体数据进行向量化的步骤包括通过Gensim工具包内的简易分词工具对文本进行分词，将文本中的单词转化为单词列表，并利用词典将文档转换为词频表示的向量，再将词频表示的向量转化为TF-IDF表示的向量，最后将TF-IDF表示的向量转化为LSA表示的向量；

所述的词典是通过人工筛选出相等数量的有效社交媒体数据与无效社交媒体数据，利用LTP中文停止词表去除停止词后，分别存入两个文档中作为不同的分类，再存储两个文档中各个词语出现情况的文件；

所述的步骤二中，分类模型是采用生成词典时所使用的两个分别存储了去除停止词之后的有效社交媒体数据与无效社交媒体数据文档，然后将两个文档转换为词频表示的向量，再将词频表示的向量转化为TF-IDF表示的向量，最后将TF-IDF表示的向量转化为LSA表示的向量，输入到多项式模型算法进行训练得到的。

2.根据权利要求1所述的一种社交媒体中交通信息的辨别方法，其特征在于，所述的步骤一中，无实际含义与信息的内容包括文本长度小于5个字符的数据、表情符号、话题标签、链接、转义字符、用户引用和多余的空格。

3.根据权利要求1所述的一种社交媒体中交通信息的辨别方法，其特征在于，所述的步骤三中，将社交媒体数据进行分词及序列化，是利用LTP工具包加载LTP分词模型及词性标注模型，来对输入的文本进行分词及词性标注，生成一个词序列文档，每一行分别为分好的词及相应的词性。

4.根据权利要求1所述的一种社交媒体中交通信息的辨别方法，其特征在于，所述的步骤三中，通过条件随机场算法基于命名实体识别模型进行命名实体标注，是通过CRF++工具包输入训练好的命名实体识别模型和文本词序列文件进行的。

5.根据权利要求3所述的一种社交媒体中交通信息的辨别方法，其特征在于，所述的命名实体识别模型是选取生成词典时人工筛选出的未过滤停止词的有效社交媒体数据进行分词序列化处理及词性标注后，进行人工命名实体标注，作为训练真值来获得的模型，其中对于时间实体的界定方法为：从常用最大时间单位年开始至最小时间单位秒位置为一个时间实体；地点实体的界定方法为：在连续的地理位置描述中，以两个相同等级的地名为地点实体分隔点，每个地点实体由最高等级地名开始至最低等级地名结束，地名等级是指地名所包含的地理范围，范围越大则等级越高。

6.根据权利要求1所述的一种社交媒体中交通信息的辨别方法，其特征在于，所述的步骤三中，进行命名实体标注是对包含多个含义内容的实体词语拆分为语开头的起始字、词语结尾的结尾字和除起始结尾字之外的内容作为中间字，并分别对起始字、中间字和结尾字标注B、I、E作为标签前部，将只包含一个含义内容的实体词语作为完整词并标注S作为标签前部，然后将地点实体词语标注Ns，对时间实体词语标注Nm作为标签尾部；

根据标注的标识提取出相关的词语并进行组合得到交通时间实体和交通地点实体，是通过标签尾部的Ns和Nm标识判断该词是一个交通地点实体还是一个交通时间实体的组成部分，再通过标签前部的B、I、E、S标识判断该词属于该实体的哪一部分，若是S标签，该词即为一个完整的实体；若是B标签，则读取至下一个E标签处，将这两个标签之间对应的词组合起来作为一个实体。

7.根据权利要求1所述的一种社交媒体中交通信息的辨别方法，其特征在于，所述的步骤三中，当得到交通时间实体和交通地点实体后，还包括选取所得到的交通时间实体中较早的时间作为事件发生时间，以及当存在社交媒体数据定位地点时，选取社交媒体数据定位地点作为事件发生地点的步骤。