CN110322692A

CN110322692A - 一种重复交通流数据的检测方法、装置及设备

Info

Publication number: CN110322692A
Application number: CN201910615189.8A
Authority: CN
Inventors: 蔡延光; 阮嘉琨; 蔡颢
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-11
Anticipated expiration: 2039-07-09
Also published as: CN110322692B

Abstract

本申请公开了一种重复交通流数据的检测方法、装置、设备及计算机可读存储介质，方案包括：对交通流数据进行分词，得到特征词集合；确定特征词集合中各个特征词的hash值和权重维度；以权重维度的向量为灰狼位置，利用灰狼算法确定各个特征词的最优权重；根据各特征词的hash值和最优权重，确定交通流数据的simhash指纹；根据simhash指纹，检测得到交通流数据的重复数据。可见，该方案针对simhash算法中特征词对应的权重难以选取的问题，利用灰狼算法对simhash算法中特征词的权重进行了优化，最终利用基于灰狼算法优化的simhash算法检测重复交通流数据，显著提升了重复交通流数据的检测的准确率和效率。

Description

一种重复交通流数据的检测方法、装置及设备

技术领域

本申请涉及数据查重领域，特别涉及一种重复交通流数据的检测方法、装置、设备及计算机可读存储介质。

背景技术

交通流数据具备数据量大且容易重复储存的特点，因此会产生冗余数据，冗余数据会严重影响交通流数据的数据质量。

为了把控交通流数据质量，必须对相似重复的交通流数据进行检测识别并处理，才能保障之后的交通流数据分析和进一步的运用的准确性，为交通系统的安全性、稳定性以及长期发展提供保证。目前，检测重复数据的方案一般有近邻排序、多躺近邻排序，simhash算法等。然而，以上重复数据检测方案的准确性和检测效率较低，难以满足当前需求。

可见，如何提供一种重复交通流数据的检测方案，提升交通流数据检测准确性和效率，是亟待本领域技术人员解决的问题。

发明内容

本申请的目的是提供一种重复交通流数据的检测方法、装置、设备及计算机可读存储介质，用以解决传统的重复数据检测方案的准确性和检测效率较低，难以满足当前需求的问题。具体方案如下：

第一方面，本申请提供了一种重复交通流数据的检测方法，包括：

对交通流数据进行分词，得到特征词集合；

确定所述特征词集合中各个特征词的hash值和权重维度；

以所述权重维度的向量为灰狼位置，利用灰狼算法确定所述特征词集合中各个特征词的最优权重；

根据所述特征词集合中各个特征词的所述hash值和所述最优权重，确定所述交通流数据的simhash指纹；

根据所述simhash指纹，检测得到所述交通流数据的重复数据。

优选的，所述对交通流数据进行分词，得到特征词集合，包括：

根据预先设置的分词规则，对交通流数据进行分词，得到特征词集合。

优选的，所述根据所述特征词集合中各个特征词的所述hash值和所述最优权重，确定所述交通流数据的simhash指纹，包括：

根据所述特征词集合中各个特征词的所述hash值和所述最优权重，对所述hash值进行加权求和，得到初始simhash指纹；

对所述初始simhash指纹进行降维，得到所述交通流数据的simhash指纹。

优选的，所述利用灰狼算法确定所述特征词集合中各个特征词的最优权重，包括：

在当前迭代过程中，根据上一迭代过程中的最优灰狼，更新灰狼种群中各个灰狼的位置；确定所述灰狼种群中各个灰狼的适应度值；根据所述适应度值，确定所述当前迭代过程中的最优灰狼；

在当前迭代次数未达到预设最大迭代次数时，根据所述当前迭代过程中的最优灰狼进入下一迭代过程；

在当前迭代次数达到预设最大迭代次数时，根据当前迭代过程中的最优灰狼，确定所述特征词集合中各个特征词的最优权重。

优选的，所述根据所述适应度值，确定所述当前迭代过程中的最优灰狼，包括：

确定适应度值最大的三只灰狼，以作为所述当前迭代过程中的最优灰狼。

优选的，所述根据上一迭代过程中的最优灰狼，更新灰狼种群中各个灰狼的位置，包括：

根据上一迭代过程中的最优灰狼，更新灰狼种群中各个灰狼的位置；并对所述灰狼种群中各个灰狼的位置进行混沌初始化。

第二方面，本申请提供了一种重复交通流数据的检测装置，包括：

分词模块：用于对交通流数据进行分词，得到特征词集合；

权重维度确定模块：用于确定所述特征词集合中各个特征词的hash值和权重维度；

最优权重确定模块：用于以所述权重维度的向量为灰狼位置，利用灰狼算法确定所述特征词集合中各个特征词的最优权重；

指纹确定模块：用于根据所述特征词集合中各个特征词的所述hash值和所述最优权重，确定所述交通流数据的simhash指纹；

重复数据检测模块：用于根据所述simhash指纹，检测得到所述交通流数据的重复数据。

优选的，所述指纹确定模块包括：

第一指纹确定单元：用于根据所述特征词集合中各个特征词的所述hash值和所述最优权重，对所述hash值进行加权求和，得到初始simhash指纹；

第二指纹确定单元：用于对所述初始simhash指纹进行降维，得到所述交通流数据的simhash指纹。

第三方面，本申请提供了一种重复交通流数据的检测设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的一种重复交通流数据的检测方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的一种重复交通流数据的检测方法的步骤。

本申请所提供的一种重复交通流数据的检测方法、装置、设备及计算机可读存储介质，具体方案包括：对交通流数据进行分词，得到特征词集合；确定特征词集合中各个特征词的hash值和权重维度；以权重维度的向量为灰狼位置，利用灰狼算法确定特征词集合中各个特征词的最优权重；根据特征词集合中各个特征词的hash值和最优权重，确定交通流数据的simhash指纹；根据simhash指纹，检测得到交通流数据的重复数据。

可见，该方案针对simhash算法中特征词对应的权重难以选取的问题，利用灰狼算法对simhash算法中的特征词对应的权重进行了优化，最终利用基于灰狼算法优化的simhash算法对交通流数据的重复数据进行检测，显著提升了重复交通流数据的检测方案的准确率和效率。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种重复交通流数据的检测方法实施例一的实现流程图；

图2为本申请所提供的一种重复交通流数据的检测方法实施例二的实现流程图；

图3为本申请所提供的一种重复交通流数据的检测方法实施例二中步骤S204的实现流程图；

图4为本申请所提供的一种重复交通流数据的检测方法实施例二中步骤S207的实现流程图；

图5为本申请所提供的一种重复交通流数据的检测方法的仿真实验的准确率对比图；

图6为本申请所提供的一种重复交通流数据的检测方法的仿真实验的召回率对比图；

图7为本申请所提供的一种重复交通流数据的检测方法的仿真实验的F值对比图；

图8为本申请所提供的一种重复交通流数据的检测装置实施例的功能框图；

图9为本申请所提供的一种重复交通流数据的检测设备实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于交通系统中交通流数据量较大，存在诸多重复数据，而传统的利用simhash算法检测冗余交通流数据的方案检测的准确性和效率较低，为交通流数据的分析过程带来干扰，导致交通系统存在安全隐患。针对该问题，本申请提供一种重复交通流数据的检测方法、装置、设备及计算机可读存储介质，显著提升了重复交通流数据的检测的准确性和效率，保证了后续的交通流数据分析结果的可靠性以及交通系统的安全性。

下面对本申请提供的一种重复交通流数据的检测方法进行介绍，参见图1，实施例一包括：

S101、对交通流数据进行分词，得到特征词集合；

S102、确定所述特征词集合中各个特征词的hash值和权重维度；

S103、以所述权重维度的向量为灰狼位置，利用灰狼算法确定所述特征词集合中各个特征词的最优权重；

S104、根据所述特征词集合中各个特征词的所述hash值和所述最优权重，确定所述交通流数据的simhash指纹；

S105、根据所述simhash指纹，检测得到所述交通流数据的重复数据。

上述交通流数据具体指从交通系统中采集到的数据，例如车流量数据，具体可以为从高速公路交通系统中采集到的数据。在对交通流数据进行分析时，根据高速公路交通流数据的结构，具体可以按照以下分词规则进行分词：遇到“，”或“”则执行分词操作。本实施例将分词得到的结果称为特征词，特征词集合包括一个或多个上述特征词。当然也可以按照其他分词规则执行分词操作，具体依据实际需求确定即可，本实施例对此不做限定。

本实施例中特征词的权重维度具体可以为特征词集合中特征词的数量，特征词的hash值具体可以通过hash函数计算得到，hash值为二进制数组成的多个bit，这样就实现将特征词由文本转换为向量表示，便于后续处理。

在执行灰狼算法之前，先确定灰狼数量和最大迭代次数，并初始化灰狼种群，本实施例中灰狼的位置由上述特征维度的向量进行表示。根据目标适应度函数确定灰狼种群中的最优灰狼，并据此更新灰狼种群，进入下一迭代过程，直至达到最大迭代次数，确定最终的最优灰狼，并将与最终的最优灰狼对应的权重作为特征词的最优权重。

在确定特征词的最优权重之后，即可按照simhash算法确定交通流数据的simhash指纹，具体过程包括：根据特征词集合中各个特征词的hash值和最优权重，对hash值进行加权求和，得到初始simhash指纹；对初始simhash指纹进行降维，得到交通流数据的simhash指纹。

本实施例所提供一种重复交通流数据的检测方法，包括：对交通流数据进行分词，得到特征词集合；确定特征词集合中各个特征词的hash值和权重维度；以权重维度的向量为灰狼位置，利用灰狼算法确定特征词集合中各个特征词的最优权重；根据特征词集合中各个特征词的hash值和最优权重，确定交通流数据的simhash指纹；根据simhash指纹，检测得到交通流数据的重复数据。可见，本实施例针对simhash算法中特征词对应的权重难以选取的问题，利用灰狼算法对simhash算法中的特征词对应的权重进行了优化，最终利用基于灰狼算法优化的simhash算法对交通流数据的重复数据进行检测，显著提升了重复交通流数据的检测方案的准确率和效率

下面开始详细介绍本申请提供的一种重复交通流数据的检测方法实施例二，实施例二基于上述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。

参见图2，实施例二具体包括：

S201、对高速公路交通流数据进行分词，得到特征词集合；确定特征词集合中特征词的总数量；

作为一种具体的实施方式，根据高速公路交通流数据的结构，遇到“，”或“”进行分词，得到特征词集合。本实施例将特征词集合中特征词的总数量记为m。

S202、初始化参数和灰狼种群；

其中，参数设置包括：设置灰狼种群数N，最大迭代次数t_max，作为一种具体的实施方式，参数取值设置如下：灰狼种群数N＝30，最大迭代次数t_max＝1000。

初始化灰狼种群包括：根据特征词集合中特征词的总数量m，确定灰狼的位置向量，也就是说，本实施例中灰狼的位置由m个权重组合而成，即第i匹灰狼的位置向量可转化为X_i＝(w_i1,w_i2,...,w_im)，随机生成N个初始灰狼。

S203、根据每个灰狼的位置X_i(t)计算各个灰狼的适应度值F(X_i)；按照适应度值对其进行降序排序，记录适应度值最优的三个灰狼；

具体的记录方式为：选择适应度值最优的三个灰狼，将其位置分别赋给α、β和δ。本实施例中灰狼算法的目标适应度函数为：

其中，TP(X_i)为以第i只灰狼个体的位置X_i作为特征词权重的simhash算法的检测出来的正确重复数据的数量，FN(X_i)则为交通流数据所包含的全部重复数据中没被检测出来的重复数据的数量，FP(X_i)是检测出来的重复数据中不是重复数据的数量。

S204、根据最优的三个灰狼对目标位置的指导作用，更新灰狼种群中其余灰狼的位置，并重新计算每个灰狼适应度值；

S205、按照适应度值对各个灰狼进行排序，确定适应度值最优的三个灰狼；

具体的，确定前三位最优解α、β和δ，并让F_α等于当前迭代α适应度值，t＝t+1。

S206、判断是否达到最大迭代次数t_max，若是，跳转至步骤207，否则跳转至步骤S204；

S207、确定最终的最优灰狼，根据该最优灰狼确定高速公路交通流数据的simhash指纹；

S208、根据simhash指纹，检测得到高速公路交通流数据的重复数据。

参见图3，上述步骤S204具体包括：

S301、根据上一迭代过程中的最优的三个灰狼，更新灰狼种群中其他灰狼位置；

灰狼位置更新公式如下：

X(t+1)＝w_αX₁+w_βX₂+w_δX₃ (5)

其中，X_α(t)、X_β(t)、X_δ(t)分别为第t次迭代过程(即上一迭代过程)中最优的三个灰狼的位置向量，即α、β和δ位置向量；r₁、r₂均为随机生成的数，且r₁,r₂∈[0,1]，w_α、w_β、w_δ为权重且w_α＝|X₁|/|X₁|+|X₂|+|X₃|，w_β＝|X₂|/|X₁|+|X₂|+|X₃|，w_δ＝|X₃|/|X₁|+|X₂|+|X₃|。

S302、对灰狼种群中更新后的灰狼进行混沌初始化。

具体公式如下：

y_0,j＝y_0,j/ε (6)

y_i,j＝α×y_i-1,j(1-y_i-1,j)×η，j＝1,2,...,m (7)

其中y₀＝(y_0,1,y_0,2,...,y_0,m)为最优的灰狼，y_0,j∈[-ε,ε],j＝1,2,...,m；α＝4，η为(0,1]的随机数；设映射后的第i只灰狼为X_i＝(x_i,1,x_i,2,...,x_i,m)，其中x_i,j＝y_i,j×ε。

参见图4，上述步骤S207具体包括：

S401、根据特征词集合中各个特征词的hash值和最优权重，对各个特征词的hash值进行加权；

在特征词的hash值的基础上，按照W＝Hash*weight更新特征词的hash值。例如，假设某特征词的hash值为100101，其最优权重为3，那么，更新后的该特征词的hash值为300303。

S402、对特征词集合中各个特征词的hash值进行求和，得到一个m维的向量，以作为初始simhash指纹；

具体的，将特征词集合中各个特征词的hash值进行相加，即多个m维的向量相加，最终得到一个m维的向量。

S403、对初始simhash指纹进行降维，得到最终的simhash指纹。

对于初始simhash指纹中各个元素，如果大于0则置1，否则置0，从而得到交通流数据的simhash指纹。最终可以根据该simhash指纹与其他交通流数据的simhash指纹之间的的海明距离，来判断它们的相似度，进而得出其他交通流数据是否为原始的交通流数据的重复数据的结论。

下面举例说明上述过程，假设：特征词集合中各个特征词的hash值分别为100110,110000,110100,001101；根据灰狼算法得到的最优灰狼位置为(2,4,3,1)；首先，根据最优权重对特征词hash值进行加权，从而得到特征向量(2,-2,-2,2,2,-2)，(4,4,-4,-4,-4,-4)，(3,3,-3,3,-3,-3)，(-1,-1,1,1,-1,1)；然后将这些特征向量相加，即对应位置进行算术加法，得到初始simhash指纹(8,4,-8,2,-6,-8)；最终进行降维，即大于0的位转换为1相反则转化为0，最后得出的结果110100即为交通流数据的simhash指纹。

综上所述，本实施例提供的一种重复交通流数据的检测方法，提出基于灰狼算法优化的simhash算法实现重复交通流数据检测过程。具体的，本实施例通过分析高速公路数据，针对simhash算法中关键词对应的权重选取困难问题，利用灰狼算法改进simhash算法，对关键词对应的权重选择进行优化，最后对基于灰狼算法优化的simhash算法对高速公路交通流数据进行重复数据检测，检测准确性较高，且耗时较短。

为进一步验证本申请的重复交通流数据的检测方法的检测效果，本申请执行了仿真实验。

图5为本申请的重复交通流数据的检测方法的准确率对比图，图6为本申请的重复交通流数据的检测方法的召回率对比图，图7为本申请的重复交通流数据的检测方法的F值对比图，参见图5、图6和图7，可以看出，本申请的重复交通流数据的检测方法，在解决高速公路交通流数据的重复数据检测问题时，准确率、召回率以及F值均有所提升，检测效果更好。

下面对本申请实施例提供的一种重复交通流数据的检测装置进行介绍，下文描述的重复交通流数据的检测装置与上文描述的重复交通流数据的检测方法可相互对应参照。

参见图8，该重复交通流数据的检测装置包括：

分词模块801：用于对交通流数据进行分词，得到特征词集合；

权重维度确定模块802：用于确定所述特征词集合中各个特征词的hash值和权重维度；

最优权重确定模块803：用于以所述权重维度的向量为灰狼位置，利用灰狼算法确定所述特征词集合中各个特征词的最优权重；

指纹确定模块804：用于根据所述特征词集合中各个特征词的所述hash值和所述最优权重，确定所述交通流数据的simhash指纹；

重复数据检测模块805：用于根据所述simhash指纹，检测得到所述交通流数据的重复数据。

作为一种具体的实施方式，所述指纹确定模块804包括：

本实施例的重复交通流数据的检测装置用于实现前述的重复交通流数据的检测方法，因此该装置中的具体实施方式可见前文中的重复交通流数据的检测方法的实施例部分，例如，分词模块801、权重维度确定模块802、最优权重确定模块803、指纹确定模块804、重复数据检测模块805，分别用于实现上述重复交通流数据的检测方法中S101，S102，S103，S104，S105。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的重复交通流数据的检测装置用于实现前述的重复交通流数据的检测方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种重复交通流数据的检测设备，如图9所示，包括：

存储器100：用于存储计算机程序；

处理器200：用于执行所述计算机程序，以实现如上所述的一种重复交通流数据的检测方法的步骤。

最后，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的一种重复交通流数据的检测方法的步骤。

本实施例的重复交通流数据的检测设备、计算机可读存储介质用于实现前述的重复交通流数据的检测方法，因此该设备、计算机可读存储介质的具体实施方式可见前文中的重复交通流数据的检测方法的实施例部分，且二者的作用与上述方法实施例的作用相对应，这里不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种重复交通流数据的检测方法，其特征在于，包括：

对交通流数据进行分词，得到特征词集合；

确定所述特征词集合中各个特征词的hash值和权重维度；

根据所述simhash指纹，检测得到所述交通流数据的重复数据。

2.如权利要求1所述的方法，其特征在于，所述对交通流数据进行分词，得到特征词集合，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述特征词集合中各个特征词的所述hash值和所述最优权重，确定所述交通流数据的simhash指纹，包括：

4.如权利要求1-3任意一项所述的方法，其特征在于，所述利用灰狼算法确定所述特征词集合中各个特征词的最优权重，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述适应度值，确定所述当前迭代过程中的最优灰狼，包括：

6.如权利要求4所述的方法，其特征在于，所述根据上一迭代过程中的最优灰狼，更新灰狼种群中各个灰狼的位置，包括：

7.一种重复交通流数据的检测装置，其特征在于，包括：

分词模块：用于对交通流数据进行分词，得到特征词集合；

8.如权利要求7所述的装置，其特征在于，所述指纹确定模块包括：

9.一种重复交通流数据的检测设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如权利要求1-6任意一项所述的一种重复交通流数据的检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-6任意一项所述的一种重复交通流数据的检测方法的步骤。