CN115035722B

CN115035722B - 基于时空特征和社交媒体相结合的道路安全风险预测方法

Info

Publication number: CN115035722B
Application number: CN202210698594.2A
Authority: CN
Inventors: 邬林锋; 宋超伟; 谢秋妹; 吴亦奇; 杨立功; 朱赟
Original assignee: Zhejiang Jiaxing Digital City Laboratory Co ltd
Current assignee: Zhejiang Jiaxing Digital City Laboratory Co ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2024-04-05
Anticipated expiration: 2042-06-20
Also published as: CN115035722A

Abstract

本发明提供了一种基于时空特征和社交媒体相结合的道路安全风险预测方法，它解决了交通风险预警等问题，其包括如下步骤：S1：交通原始数据采集；S2：基于自然语言处理的交通数据实体抽取；S3：交通事故数据集构建；S4：基于改进XGBoost算法的模型训练。本发明具有交通风险预测精度高等优点。

Description

基于时空特征和社交媒体相结合的道路安全风险预测方法

技术领域

本发明属于交通管理技术领域，具体涉及一种基于时空特征和社交媒体相结合的道路安全风险预测方法。

背景技术

随着交通运输业的迅速发展，公路运输已成为当今最重要的交通运输方式。然而，每年都有大量的道路交通事故发生，特别是高速公路和城市环城道路上的交通事故往往造成巨大的生命和财产损失。交通事故和交通违法行为的产生是由“车辆--道路使用者--交通环境”之间关系不协调、不稳定造成的。一般来说，车辆加塞、闯红灯、车辆违停、超速等交通违法行为要早于交通事故发生，虽然道路使用者的一次失误操作不一定会导致交通事故发生，但一定会提升道路交通的安全风险，当风险达到一定程度就会引起交通事故。因此对道路交通的安全风险提前预警有着重要的现实会意义，但是从交通管理部门获得的事故数据存在样本小、精度低、时效低、主观强等特点，易造成采样数据类别分布不平衡，而机器学习分类器在处理不平衡数据时,往往会倾向于保证多数类的准确率而牺牲少数类的准确率,导致少数类的误分率较高，从而无法对交通事故的源头进行有效地风险管控。

近些年电子执法系统作为交通管理部门非现场执法的最重要手段，里面记录了大量的道路使用者的违法行为和不文明行为。同时，随着社交媒体平台的发展，道路使用者能够及时地把通行过程中所经历的交通问题，比如拥堵、事故、交通违法、设施故障等发布在微博平台上，这对传统的交通大数据搜集物理设备比如传感器、摄像头等是强有力的补充。在实际的工作过程中，现有的交通系统无法及时为驾驶人员对交通安全隐患进行预警，驾驶员无法及时做出判断并合理避让。

为了解决现有技术存在的不足，人们进行了长期的探索，提出了各式各样的解决方案。例如，中国专利文献公开了一种基于智能道路交通风险预警方法的车路协同信息交互系统及方法[202111434182.X]，其通过道路环境感知模块采集并上传路网环境内实时交通环境信息至云端数据中心，通过车辆行驶感知模块采集并上传路网环境内的车辆行驶数据至云端数据中心，然后通过云端数据中心将根据交通环境信息和车辆行驶数据得到行车风险情况周围车辆驾驶人的驾驶特性发送给即将通过该路段汽车的移动端。

上述方案在一定程度上解决了行驶车辆进行过程中的风险预警的问题，但是该方案依然存在着诸多不足，例如无法及时对潜在的交通安全隐患进行预警等问题。

发明内容

本发明的目的是针对上述问题，提供一种设计合理，可及时做出交通风险预测的基于时空特征和社交媒体相结合的道路安全风险预测方法。

为达到上述目的，本发明采用了下列技术方案：本基于时空特征和社交媒体相结合的道路安全风险预测方法，包括如下步骤：

S1：交通原始数据采集；

S2：基于自然语言处理的交通数据实体抽取；

S3：交通事故数据集构建；

S4：基于改进XGBoost算法的模型训练。本发明通过建立基于改进XGBoost算法的风险分类模型，监测系统根据模型预测的风险结果定向地提醒车辆驾驶人员“何时”、“何地”存在交通安全隐患，便于驾驶人员提早做出判断，合理避让，从而减少事故发生概率以及防止二次事故的发生，提高城市交通安全服务水平。

在上述的基于时空特征和社交媒体相结合的道路安全风险预测方法中，步骤S1包括如下步骤：

S11：从OpenStreetMap上获取包括路口和路段在内的路网信息，并人工标记各条道路的道路等级，从地图API获取实时的路况数据和POI数据，根据每30分钟的交通流量均值判断路口或路段的拥堵状况，同时将采集的POI数据对应到各条道路中；

S12：从交通管理部门提供的道路车辆动态监控记录中的交通违法信息，提取交通违法信息；

S13：从交通事故警情数据中获得交通事故信息；

S14：根据关键词组合抓取社交媒体数据；

S15：选择城市各个气象监测站发布的气象数据，数据格式为连续数据，更新频率为1小时。针对一个小时粒度，将实时的路况信息、驾驶违法行为、天气状况以及社交媒体数据量化。

在上述的基于时空特征和社交媒体相结合的道路安全风险预测方法中，步骤S2采用基于Bilstm+CRF序列标注算法进行交通事件、位置信息提取，包括将中文地址导入到地图API的地理编码服务功能，自动地将文字数据转换为对应的地理坐标，并且人工校验监控点位在地图上显示位置是否和真实交通环境中的地理位置保持一致。将交通数据格式统一，方便对信息进行提取。

在上述的基于时空特征和社交媒体相结合的道路安全风险预测方法中，步骤S3包括如下步骤：

S31：正例数据构建；

S32：基于WGAN的正例样本数据增强；

S33：反例数据集构建。建立数据集，同时将数据分割处理。

在上述的基于时空特征和社交媒体相结合的道路安全风险预测方法中，步骤31包括如下步骤：

S311：对类别型变量进行编码操作，将类别型变量转换为数值型变量；

S312：根据半正矢经纬度距离公式和时间间隔两个约束条件建立预测变量和交通影响因素的匹配关系；半正矢经纬度距离公式为r为地球半径6371公里,/>表示交通事故位置，/>表示交通违法行为位置，j＝1,2,...,m，d越小表示两个数据越相匹配；时间间隔约束条件为/> 表示交通事故时间，j＝1,2,...,m，/>表示交通违法行为发生时间，当时t小于阈值时，两个数据在时间维度上匹配；

S313：建立映射关系，当交通违法行为和交通事故的半正矢经纬度距离落在300米内，且这两者发生的时间间隔在15分钟内，则认为该交通事故和这个交通违法行为当时所处的时空环境相匹配，且在阈值范围内，如果存在多个匹配数据的话，选择距离最小的那个数据；对于交通事故，如果距离在300米内且时间间隔在15分钟内无法找到其对应的交通违法行为，则选择交通事故报警记录时间前6分钟时刻下的交通影响因素作为模型的自变量，同时交通违法行为的值取为无异常行为。将交通事故数据集的预测变量和交通影响因素进行匹配，实现风险预警分级。

在上述的基于时空特征和社交媒体相结合的道路安全风险预测方法中，步骤S32通过选择若干交通事故数据进行训练，当生成网络到达纳什均衡点时，得到与真实数据具有相同分布的伪数据，然后将伪数据与实际数据相结合，形成增强样本集。

在上述的基于时空特征和社交媒体相结合的道路安全风险预测方法中，步骤S32的具体步骤如下：

S321：创建WGAN模型，建立生成网络G和判别网络D；

S322：对数据进行处理,提取X_cat、X_num和label特征；

S323：生成网络G生成数据：生成噪声z，采样得到标签Y，将z输入到生成网络G进行数据生成，在G生成数据过程中进行Gumbel-softmax技巧采样输出，得到X_cat和X_num，将X_cat、X_num和Y连接得到生成数据Xg；

S324：更新判别网络D参数，将原始数据X和生成数据Xg同时输入判别模型得到损失值Loss，进行模型训练并且更新判别网络D的参数w；

S325：更新生成网络G参数θ，将判别网络D的损失值Loss反馈给生成网络进行训练，并更新参数；

S326：重复步骤S322-S324直到生成网络G的θ收敛；

S327：数据平衡处理，利用步骤S325得到收敛的生成网络G生成的交通数据伪数据，对原始数据扩充得到平衡的交通事故数据Xn。

在上述的基于时空特征和社交媒体相结合的道路安全风险预测方法中，步骤S33包括地点漂移，时间漂移，日期漂移，或这三者的混合；地点漂移是指固定时间和日期不变，将事故发生地位置加上500米的偏度；时间漂移是指固定日期和地点不变，时间加上10分钟以上的偏度；日期漂移是指固定时间和事故发生地不变，日期加一天或间一天；时间和空间混合方法是指对时间、日期和位置随机更改；挑选定量事故数据，按照上述方法更改单个事故记录的时间、日期、地点，判断其是否在正例数据集中出现判断其是否在正例数据集中出现，新修改的记录如未出现则加入到反例数据集直到满足反例数据数量要求。反例数据集的用于机器学习模型学习发现事故发生与否之间的细微差异。

在上述的基于时空特征和社交媒体相结合的道路安全风险预测方法中，步骤S4在二分类的交叉熵损失基础上引入系数∝和系数γ来建立二分类焦点损失目标函数，并借助一对多方法实现基于XGBoost算法的不平衡数据的多类别分类；二分类的交叉熵损失的计算公式为:CEL(y，p)＝-y*log(p)-(1-y)*log(1-p)，y∈{0，1}，其中，0表示负样本，1表示正样本，∝系数用来调整不同类别的样本在损失函数中的权重大小,取α∈(0.5，1)来增加少数类样本的损失权重；系数γ用来调整易分类样本和难分类样本的损失权重，且γ＞0，如果预测概率p越接近1表示该样本越容易被分类，概率p越接近0表示该样本的分类识别越困难，引入项(1-p)^γ减少易分类样本损失权重,使得算法更加关注于难分类样本，得到二分类焦点损失为FL(y，p)＝-y*α(1-p)^γ*log(p)-(1-y)*(1-a)*p^γ*log(1-p)。

在上述的基于时空特征和社交媒体相结合的道路安全风险预测方法中，步骤S4的具体步骤如下：

S41：基于XGBoost生成新特征,将交通数据集D₁送入XGBoost优化出组合特征，并加入特征集生成数据集D₂；

S42：使用变量相关性分析和特征工程对数据集D₂进行特征选择，筛选出最优特征子集,构成数据集D₃；

S43：一对多分类,数据训练时依次把某个类别样本所对应的向量作为正集,剩余其余样本所对应的向量作为负集，k个类别样本构造出了k个二元分类；

S44：对这k个训练集依次执行下列步骤得到k个训练结果文件；

S45：使用二分类焦点损失改进XGBoost，即将目标优化函数的/>项替换为二分类焦点损失，/>项不做处理，用来控制模型复杂度的正则项；

S46：选择最大分类函数值的那类作为待分类样本的类别名。传统分类器在处理不平衡数据时,往往会倾向于保证多数类的准确率而牺牲少数类的准确率,因此引入焦点损失解决培训目标检测模型时出现的不平衡问题。

与现有的技术相比，本发明的优点在于：通过建立基于改进XGBoost算法的风险分类模型，及时提醒车辆驾驶员存在的交通安全隐患；通过采集社交媒体发布的交通信息，扩大交通原始数据覆盖范围；通过生成对抗性网络WGAN生成大量与原始交通事故数据相似的数据样本,减少数据的不平衡性。

附图说明

图1是本发明的总体结构图。

图2是本发明的交通数据实体抽取的结构示意图。

图3是本发明的交通事故数据集构建以及改进XGBoost算法的模型训练的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细的说明。

如图1-3所示，本基于时空特征和社交媒体相结合的道路安全风险预测方法，包括如下步骤：

S1：交通原始数据采集；

S2：基于自然语言处理的交通数据实体抽取；

S3：交通事故数据集构建；

S4：基于改进XGBoost算法的模型训练。交通安全水平的衡量指标一般包括事故次数、死亡人数、受伤人数和经济损失四项，道路安全风险预警问题可通过回归和分类算法实现。但事故次数、受伤人数和经济损失等指标容易受到人的主观影响，准确度难以评判；死亡人数虽然真实可靠，即使在相同的事故场景下，伤亡人数也不尽相同，难以对伤亡人数进行准确预测。因此将道路安全风险预警任务转化为分类问题，预测变量则根据警情数据和交通微博数据中的人员伤亡程度建立，分为风险预警红码、风险预警黄码和安全无风险三个分类类别。

具体地，交通安全的影响因素主要有：时间因素：高峰时期和工作日的交通出行次数较多，出行越多意味着道路安全隐患也越多；空间因素：学校、医院和商业区等人员聚集度较高的地方常常是交通问题的多发地带；交通因素：一般来说交通流量越大的地方交通问题发生次数也多，而且在相同交通流量相同情况下，主干道交叉口相比支路、巷道交叉口道路拥挤程度更低，此外，路面塌陷等路况会极大影响交通出行效率；天气因素：雨、雪、雾霾等天气状况会影响驾驶人员的视距以及增加路面的摩擦系数；车辆驾驶人员交通违法事件：车辆加塞、闯红灯、车辆违停、超速等交通违法行为大发生大大增加道路交通的安全风险。

在连续交通环境下，非事故数据数量是事故数据的7000～8000倍。如果按照真实比例进行采样，那么模型预测结果将严重偏向于无事故，即使预测准确率达到99％，其对交通安全风险预测的准确率也可能非常低。针对该数据类别不平衡的特点，从数据、特征以及算法损失函数三个层面对交通故事分类模型改进：首先，在数据层面,一是采集微博平台等社交媒体上发布的拥堵、事故、交通违法、设施故障作为“六合一”、“简易事故”等警情数据的补充，并且采集到的数据按照1小时进行分割；二是通过生成对抗性网络WGAN生成大量与原始交通事故数据相似的数据样本,用以调节数据的不平衡性。其次，在特征层面，利用XGBoost进行特征组合生成新的特征,再通过特征工程相关算法筛选出更适合不平衡数据分类的特征子集；最后，在算法层面,引入焦点损失函数Focal Loss来改进XGBoost，改进后的XGBoost通过新的数据集训练得到最终模型。

具体来说，步骤S1包括如下步骤：

S11：从OpenStreetMap上获取包括路口和路段在内的路网信息，并人工标记各条道路的道路等级，从地图API获取实时的路况数据和POI数据，根据每30分钟的交通流量均值判断路口或路段的拥堵状况，同时将采集的POI数据对应到各条道路中；通常选用百度地图API获取实时的路况数据和POI数据，道路等级包括快速路、主干路、次干路、支路等。

S12：从交通管理部门提供的道路车辆动态监控记录中的交通违法信息，提取交通违法信息；其中交通违法信息包括日期、时间、发生地、违法类型、违法车辆所在车道、违法车辆车速以及道路限速在内的交通违法信息；

S13：从交通事故警情数据中获得交通事故信息；一般从交通事故简易程序和一般程序等警情数据中获得交通事故发生日期、时间、位置、伤亡情况以及其他信息。

S14：根据关键词组合抓取社交媒体数据；一般在微博上根据规则“城市名+路名”，“城市名+交通关键词”和“@+城市交通官方账号”等3种关键词组合方式，抓取比如2021年1月1日—2021年12月31日内的新浪微博数据。交通关键词包括堵、交通瘫痪、交通压力、事故、车祸、追尾、撞车、红绿灯、乱停车、栅栏、交通标志、斑马线、人行道、塌陷、破损、易滑、积水等等。

S15：选择城市各个气象监测站发布的气象数据，数据格式为连续数据，更新频率为1小时。

深入地，步骤S2采用基于Bilstm+CRF序列标注算法进行交通事件、位置信息提取，包括将中文地址导入到地图API的地理编码服务功能，自动地将文字数据转换为对应的地理坐标，并且人工校验监控点位在地图上显示位置是否和真实交通环境中的地理位置保持一致。微博通常具有形式多样、口语化、句法不规范等特点，交通警情数据是接警员快速记录报警人口述的交通事故信息，难免出现口语化、格式不统一等情况。如果采用关键词或者句法分析树进行交通事件(交通拥堵、交通反馈、交通事故)的信息提取，编写提取规则不仅耗时耗力也时常存在错漏，所以采用基于Bilstm+CRF序列标注算法进行交通事件、位置信息提取。对交通事件发生时间信息的确认还要结合微博的发布时间与语义关键词进行综合推理判定，并标准化形如"2020-11-0523:00:00"。采用正则表达式对交通事故的伤亡程度提取。无论是监控系统中的交通违法行为发生地，还是从微博或者警情数据中提取的交通事件位置，都要进行中文地址地理坐标化。

进一步地，步骤S3包括如下步骤：

S31：正例数据构建；

S32：基于WGAN的正例样本数据增强；

S33：反例数据集构建。

更进一步地，步骤31包括如下步骤：

S311：对类别型变量进行编码操作，将类别型变量转换为数值型变量；机器学习算法只能对数值变量进行建模和预测，而类别型变量需要进行合理的编码操作，所以将类别型变量转换为数值型变量，用到的变量名称及其取值范围详见下表：

S312：根据半正矢经纬度距离公式和时间间隔两个约束条件建立预测变量和交通影响因素的匹配关系；半正矢经纬度距离公式为r为地球半径6371公里,/>表示交通事故位置，/>表示交通违法行为位置，j＝1,2,…,m，d越小表示两个数据越相匹配；时间间隔约束条件为/> 表示交通事故时间，j＝1,2,…,m，/>表示交通违法行为发生时间，当时t小于阈值时，两个数据在时间维度上匹配；

S313：建立映射关系，当交通违法行为和交通事故的半正矢经纬度距离落在300米内，且这两者发生的时间间隔在15分钟内，则认为该交通事故和这个交通违法行为当时所处的时空环境相匹配，且在阈值范围内，如果存在多个匹配数据的话，选择距离最小的那个数据；对于交通事故，如果距离在300米内且时间间隔在15分钟内无法找到其对应的交通违法行为，则选择交通事故报警记录时间前6分钟时刻下的交通影响因素作为模型的自变量，同时交通违法行为的值取为无异常行为。

除此之外，步骤S32通过选择若干交通事故数据进行训练，当生成网络到达纳什均衡点时，得到与真实数据具有相同分布的伪数据，然后将伪数据与实际数据相结合，形成增强样本集。

同时，步骤S32的具体步骤如下：

S321：创建WGAN模型，建立生成网络G和判别网络D；WGAN模拟样本生成的过程包含两部分：生成器G的目的是通过学习真实样本的分布使自身生成的样本更加接近真实样本,试图混淆判别器D，判别器D的目的是识别区分原始数据集的真样本和生成器G生成的假样本。

S322：对数据进行处理,提取X_cat、X_num和label特征；

S326：重复步骤S322-S324直到生成网络G的θ收敛；

可见地，步骤S33包括地点漂移，时间漂移，日期漂移，或这三者的混合；地点漂移是指固定时间和日期不变，将事故发生地位置加上500米的偏度；时间漂移是指固定日期和地点不变，时间加上10分钟以上的偏度；日期漂移是指固定时间和事故发生地不变，日期加一天或间一天；时间和空间混合方法是指对时间、日期和位置随机更改；挑选定量事故数据，按照上述方法更改单个事故记录的时间、日期、地点，判断其是否在正例数据集中出现判断其是否在正例数据集中出现，新修改的记录如未出现则加入到反例数据集直到满足反例数据数量要求。此过程需约束一些特殊变量的取值范围，比如说交通违法行为的值域需设定为不文明行为和无异常行为。反例数据集的构建是在没有发生事故的情况下随机抽取一定数量的时间、道路和环境等特征，比如说抽取事故发生前两小时的数据作为负样本，但是，大部分事件事故并不发生，还有一个比重重要的问题是如何在事故频繁发生的路段上区分事故和非事故。考虑建立一组与正例数据集非常相似的负例，这样机器学习模型就可以学习发现事故发生与否之间的细微差异。

负例和正例样本的采样比例有以下四种情况：一是Original Modeling Split(66％-33％)、二是Increased Negative Sampling Split(75％-25％)、三是Even Split(50％-50％)、以及Rare Circumstance Split(>90％-10％)。考虑到事故发生的罕见性，90/10分割适合于交通事故数据集的采样。

很明显，步骤S4在二分类的交叉熵损失基础上引入系数∝和系数γ来建立二分类焦点损失目标函数，并借助一对多方法实现基于XGBoost算法的不平衡数据的多类别分类；二分类的交叉熵损失的计算公式为:CEL(y，p)＝-y*log(p)-(1-y)*log(1-p)，y∈{0，1}，其中，0表示负样本，1表示正样本，∝系数用来调整不同类别的样本在损失函数中的权重大小,取α∈(0.5，1)来增加少数类样本的损失权重；系数γ用来调整易分类样本和难分类样本的损失权重，且γ＞0，如果预测概率p越接近1表示该样本越容易被分类，概率p越接近0表示该样本的分类识别越困难，引入项(1-p)^γ减少易分类样本损失权重,使得算法更加关注于难分类样本，得到二分类焦点损失为FL(y，p)＝-y*α(1-p)^γ*log(p)-(1-y)*(1-a)*p^γ*log(1-p)。

优选地，步骤S4的具体步骤如下：

S46：选择最大分类函数值的那类作为待分类样本的类别名。

综上所述，本实施例的原理在于：采集微博等社交平台上发布的警情数据作为原始数据集的补充，并将采集的数据按小时分分割，之后生成对抗性网络WGAN生成大量与原始交通事故数据相似的数据样本,用以调节数据的不平衡性，然后利用XGBoost进行特征组合生成新的特征,再通过特征工程相关算法筛选出更适合不平衡数据分类的特征子集，最后焦点损失函数Focal Loss来改进XGBoost，改进后的XGBoost通过新的数据集训练得到最终模型，监测系统根据模型预测的风险结果定向地提醒车辆驾驶人员。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了XGBoost、OpenStreetMap、WGAN等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于时空特征和社交媒体相结合的道路安全风险预测方法，其特征在于，包括如下步骤：

S1：交通原始数据采集；

S2：基于自然语言处理的交通数据实体抽取；

S3：交通事故数据集构建；

S4：基于改进XGBoost算法的模型训练，在二分类的交叉熵损失基础上引入系数∝和系数γ来建立二分类焦点损失目标函数，并借助一对多方法实现基于XGBoost算法的不平衡数据的多类别分类；二分类的交叉熵损失的计算公式为:CEL(y，p)＝-y*log(p)-(1-y)*log(1-p)，y∈{0，1|，其中，0表示负样本，1表示正样本，∝系数用来调整不同类别的样本在损失函数中的权重大小,取α∈(0.5，1)来增加少数类样本的损失权重；系数γ用来调整易分类样本和难分类样本的损失权重，且γ＞0，如果预测概率p越接近1表示该样本越容易被分类，概率p越接近0表示该样本的分类识别越困难，引入项(1-p)^γ减少易分类样本损失权重,使得算法更加关注于难分类样本，得到二分类焦点损失为FL(y，p)＝-y*α(1-p)^γ*log(p)-(1-y)*(1-a)*p^γ*log(1-p)；

S42：使用变量相关性分析和特征工程对数据集D₂进行特征选择，筛选出最优特征子集,构成数据集D_a；

S46：选择最大分类函数值的那类作为待分类样本的类别名。

2.根据权利要求1所述的基于时空特征和社交媒体相结合的道路安全风险预测方法，其特征在于，所述的步骤S1包括如下步骤：

S13：从交通事故警情数据中获得交通事故信息；

S14：根据关键词组合抓取社交媒体数据；

3.根据权利要求2所述的基于时空特征和社交媒体相结合的道路安全风险预测方法，其特征在于，所述的步骤S2采用基于Bilstm+CRF序列标注算法进行交通事件、位置信息提取，包括将中文地址导入到地图API的地理编码服务功能，自动地将文字数据转换为对应的地理坐标，并且人工校验监控点位在地图上显示位置是否和真实交通环境中的地理位置保持一致。

4.根据权利要求2所述的基于时空特征和社交媒体相结合的道路安全风险预测方法，其特征在于，所述的步骤S3包括如下步骤：

S31：正例数据构建；

S32：基于WGAN的正例样本数据增强；

S33：反例数据集构建。

5.根据权利要求4所述的基于时空特征和社交媒体相结合的道路安全风险预测方法，其特征在于，所述的步骤31包括如下步骤：

S312：根据半正矢经纬度距离公式和时间间隔两个约束条件建立预测变量和交通影响因素的匹配关系；半正矢经纬度距离公式为r为地球半径6371公里,/>表示交通事故位置，/>表示交通违法行为位置，j＝1,2,...,m，d越小表示两个数据越相匹配；时间间隔约束条件为/>表示交通事故时间，j＝1,2,...,m，/>表示交通违法行为发生时间，当t小于阈值时，两个数据在时间维度上匹配；

6.根据权利要求4所述的基于时空特征和社交媒体相结合的道路安全风险预测方法，其特征在于，所述的步骤S32通过选择若干交通事故数据进行训练，当生成网络到达纳什均衡点时，得到与真实数据具有相同分布的伪数据，然后将伪数据与实际数据相结合，形成增强样本集。

7.根据权利要求6所述的基于时空特征和社交媒体相结合的道路安全风险预测方法，其特征在于，所述的步骤S32的具体步骤如下：

S321：创建WGAN模型，建立生成网络G和判别网络D；

S322：对数据进行处理,提取X_cat、X_num和label特征；

S326：重复步骤S322-S324直到生成网络G的θ收敛；

8.根据权利要求4所述的基于时空特征和社交媒体相结合的道路安全风险预测方法，其特征在于，所述的步骤S33包括地点漂移，时间漂移，日期漂移，或这三者的混合；地点漂移是指固定时间和日期不变，将事故发生地位置加上500米的偏度；时间漂移是指固定日期和地点不变，时间加上10分钟以上的偏度；日期漂移是指固定时间和事故发生地不变，日期加一天或间一天；时间和空间混合方法是指对时间、日期和位置随机更改；挑选定量事故数据，按照上述方法更改单个事故记录的时间、日期、地点，判断其是否在正例数据集中出现判断其是否在正例数据集中出现，新修改的记录如未出现则加入到反例数据集直到满足反例数据数量要求。