CN112633395A - 异常数据的检测方法、装置、计算机设备和存储介质 - Google Patents

异常数据的检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112633395A
CN112633395A CN202011591108.4A CN202011591108A CN112633395A CN 112633395 A CN112633395 A CN 112633395A CN 202011591108 A CN202011591108 A CN 202011591108A CN 112633395 A CN112633395 A CN 112633395A
Authority
CN
China
Prior art keywords
user
data
driving behavior
driving
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011591108.4A
Other languages
English (en)
Inventor
唐炳武
敖琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011591108.4A priority Critical patent/CN112633395A/zh
Publication of CN112633395A publication Critical patent/CN112633395A/zh
Priority to PCT/CN2021/091726 priority patent/WO2022142042A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请涉及人工智能领域,提供一种异常数据的检测方法、装置、计算机设备和存储介质,方法包括:获取用户驾驶行为特征数据;从指定用户驾驶行为特征数据中筛选出指定用户驾驶行为特征,基于预设的分割值构建指定孤立树并生成相应的孤立森林;计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;计算孤立森林中所有用户驾驶行为特征数据的平均路径长度;计算每一个用户驾驶行为特征数据的异常检测分数;基于异常检测分数生成与每一个用户驾驶行为特征数据对应的异常检测结果。本申请能快速准确地从所有用户驾驶行为特征数据中识别出异常数据。本申请还可以应用于区块链领域,上述异常检测分数等数据可以存储于区块链上。

Description

异常数据的检测方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种异常数据的检测方法、装置、计算机设备和存储介质。
背景技术
随着车联网与互联网的快速发展,当前汽车市场会通过收集车主的驾驶轨迹数据的方式来为客户提供增值服务,例如保险定价、货运快递计费等服务,以实现精准营销。
正常的驾驶轨迹数据可以通过相应的轨迹APP,或利用手机GPS等信息生成。但现有一些非法用户会使用电脑软件例如导航模拟软件伪造驾驶轨迹数据来实现非法获利,如骗取里程费用。由于电脑软件伪造生成的驾驶轨迹数据非常接近驾驶员在正常驾驶后产生的驾驶轨迹数据,因而,如何实现快速准确地检测出驾驶轨迹数据是否为电脑软件伪造的异常驾驶轨迹数据,避免非法用户使用伪造的驾驶轨迹数据来进行非法获利,成为了目前一个亟待解决的问题。
发明内容
本申请的主要目的为提供一种异常数据的检测方法、装置、计算机设备和存储介质,旨在解决现有存在的如何实现快速准确地检测出驾驶轨迹数据是否为电脑软件伪造的异常驾驶轨迹数据,避免非法用户使用伪造的驾驶轨迹数据来进行非法获利的技术问题。
本申请提出一种异常数据的检测方法,所述方法包括步骤:
获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
可选地,所述获取与第一预设数量的用户分别对应的用户驾驶行为特征数据的步骤之前,包括:
获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系;
基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1;
从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1;
基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征;以及,
基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征;
基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。
可选地,所述基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域的步骤,包括:
基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据;
对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据;
获取预设的区域划分范围数值;
基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。
可选地,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征的步骤,包括:
基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值;以及,
计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征;以及,
计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征;以及,
计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征;以及,
计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征;以及,
计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征;以及,
计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征;以及,
计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。
可选地,所述相对驾驶行为特征包括节奏特征与加速特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征的步骤,包括:
基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速;
获取其他用户在所述目标网格区域内的第二平均车速;
计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏特征;以及,
获取所述指定用户在所述目标网格区域内的急加速事件数;
获取所述其他用户在所述目标网格区域内的急加速平均事件数;
计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。
可选地,所述基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数的步骤,包括:
基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望;
基于所述平均路径长度与所述期望,调用预设的计算公式
Figure BDA0002868653430000041
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。
可选地,所述基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果的步骤,包括:
获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数;
判断所述指定异常检测分数是否大于第一预设分数阈值;
若所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用户驾驶行为特征数据为异常数据;
若所述指定异常检测分数不大于所述第一预设分数阈值,判断所述指定异常检测分数是否小于第二预设分数阈值;
若所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。
本申请还提供一种异常数据的检测装置,包括:
第一获取模块,用于获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
构建模块,用于从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
第一计算模块,用于计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
第二计算模块,用于计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
第三计算模块,用于基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
第一生成模块,用于基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的异常数据的检测方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的异常数据的检测方法、装置、计算机设备和存储介质,会先基于用户驾驶行为特征数据创建对应孤立森林,进而基于孤立森林中与用户驾驶行为特征数据相关的路径长度数据来计算出各用户驾驶行为特征数据的异常检测分数,从而后续能够基于该异常检测分数来实现智能快速且准确地从所有用户驾驶行为特征数据中识别出存在异常的异常用户驾驶行为特征数据及对应的异常用户,提高了异常驾驶行为特征数据的识别准确性与识别效率,且能有效避免出现非法用户使用伪造的驾驶轨迹数据来进行非法获利的情形,降低风险发生概率。
附图说明
图1是本申请一实施例的异常数据的检测方法的流程示意图;
图2是本申请一实施例的异常数据的检测装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本方法实施例的执行主体为一种异常数据的检测装置。在实际应用中,上述异常数据的检测装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的异常数据的检测装置,能够智能快速地从所有用户驾驶行为特征数据中识别出异常数据,提高了异常驾驶行为特征数据的识别准确性。
具体地,参照图1,本申请一实施例的异常数据的检测方法,包括:
S1:获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1。
如上述步骤S1所述,可通过与用户对应的相关app或与用户相关的车联网数据来采集上述用户驾驶导航轨迹数据,用户驾驶导航轨迹数据是以秒为单位的向量,可包括时间、经纬度、海拔、方向、速度等数据。另外,对于上述第一预设数量不作具体限定,可根据经验数值进行设置,例如可设为256。第二预设数量具体可为10,即上述用户驾驶行为特征数据中包括有10个用户驾驶行为特征,例如用户驾驶行为特征数据可包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征、疲劳驾驶特征、节奏特征以及加速特征。
S2:从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据。
如上述步骤S2所述,对于一棵孤立树中的一个节点T,可以是叶子节点,也可能是有两个子节点的中间节点,孤立树中最顶端的节点是根节点,一个根节点可以对应若干子节点,每个子节点下又可以对应若干子节点,其中,没有下一子节点的节点T被称为叶子节点。以构建一颗孤立树为例,如果给定N个样本数据(即用户驾驶行为特征数据),且每个样本数据有M个特征(用户驾驶行为特征),则从指定用户驾驶行为特征数据随机选择一个用户驾驶行为特征q,并确定与q对应的分割值p(例如可如取q的值作为该分割值),将特征q小于p的样本划分到节点的左边(即作为左边的子节点),将特征q大于等于p的样本划分到节点的右边(即作为右边的子节点)。这一步的划分,就生成了一个根节点、两个子节点,即把指定用户驾驶行为特征数据作为一个根节点、以选取到的用户驾驶行为特征q的分割值,将根节点上的用户驾驶行为特征数据划分为了两个子节点。按这样的方式,继续从每一子节点中随机选择用户驾驶行为特征,递归对两个子节点继续划分,直到孤立树达到了限制的高度,或节点上只有一个样本,或节点上的样本的所有特征都相同,最后得到基于指定用户驾驶行为特征数据的孤立树。依此类推,选择其他用户驾驶行为特征数据中的用户驾驶行为特征构建相应的孤立树,最后得到基于各所述用户驾驶行为特征数据构建生成的不同的孤立树,且多棵不同的孤立树便可形成孤立森林。一般构建孤立森林的时候,节点特征种类最终不会保持一致。在停止划分节点时,比如节点的100个用户参加活动的次数相同,手机号码归属地相同等等,都是以特征值相同来评判的。由于所有特征都相同,就无法按特征再进行分割。在构建完包含有多棵孤立树的孤立森林后,进而基于该孤立森林能够计算出各用户驾驶行为特征数据的异常检测分数,使得后续能够基于该异常检测分数智能快速且准确地从所有用户驾驶行为特征数据中筛选出异常数据。另外,还可基于并行数据处理指令,以采用预设的多个线程同时进行与各所述用户驾驶行为特征数据分别对应的孤立树的构建过程,进而提高孤立森林的生成速率。
S3:计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度。以及,
如上述步骤S3所述,对于每个用户驾驶行为特征数据对应的叶子节点X,从孤立树的根节点开始到叶子节点X所经过的边的数量即为叶子节点X的路径长度,也即根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度。通过计算出上述路径长度,有利于后续基于该路径长度与所述平均路径长度来智能地求取出每一个所述用户驾驶行为特征数据的异常检测分数,进而基于该异常检测分数来实现快速准确地查找出用户驾驶行为特征数据中存在的异常数据及相应的异常用户。
S4:计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度。
如上述步骤S4所述,可通过公式
Figure BDA0002868653430000091
来计算出上述平均路径长度,其中,H(i)为调和数(若一个正整数a的所有因子的调和平均是整数,则a便称为调和数),该值可以被估计为ln(i)+0.5772156649,c(n)为当上述用户驾驶行为特征数据的数量,即第一预设数量为n时,所有用户驾驶行为特征数据的路径长度的平均值,也即所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度,用来标准化每一用户驾驶行为特征数据x的路径长度h(x)。通过计算出上述平均路径长度,有利于后续基于该平均路径长度与所述路径长度来智能地求取出每一个所述用户驾驶行为特征数据的异常检测分数,进而基于该异常检测分数来实现快速准确地查找出用户驾驶行为特征数据中存在的异常数据及相应的异常用户。
S5:基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数。
如上述步骤S5所述,根据孤立森林算法思路:递归的随机选取特征分割数据集,异常点通常较快到达叶子节点,具有较短的路径。可先基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望。再基于所述平均路径长度与所述期望,调用预设的计算公式
Figure BDA0002868653430000092
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。通过调用与所述平均路径长度与所述期望相关的计算公式来计算出与用户驾驶行为特征数据对应的异常检测分数,进而能够基于该异常检测分数来实现快速准确地查找出用户驾驶行为特征数据中存在的异常数据及相应的异常用户。
S6:基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
如上述步骤S6所述,可预先设置有与数据异常对应的第一预设分数阈值,以及设置有与数据正常对应的第一预设分数阈值。如果用户驾驶行为特征数据的异常检测分数大于上述第一预设分数阈值,则判定该用户驾驶行为特征数据为异常数据。而如果用户驾驶行为特征数据的异常检测分数小于上述第二预设分数阈值,则判定该用户驾驶行为特征数据为正常数据。
本实施例在获取到待检测的用户驾驶行为特征数据后,会先基于用户驾驶行为特征数据创建对应孤立森林,进而基于孤立森林中与用户驾驶行为特征数据相关的路径长度数据来计算出各用户驾驶行为特征数据的异常检测分数,从而后续能够基于该异常检测分数来实现智能快速且准确地从所有用户驾驶行为特征数据中识别出存在异常的异常用户驾驶行为特征数据及对应的异常用户,提高了异常驾驶行为特征数据的识别准确性与识别效率,且能有效避免出现非法用户使用伪造的驾驶轨迹数据来进行非法获利的情形,降低风险发生概率。
进一步地,本申请一实施例中,上述步骤S1之前,包括:
S100:获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系;
S101:基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1;
S102:从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1;
S103:基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征;以及,
S104:基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征;
S105:基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。
如上述步骤S100至S105所述,在执行获取与第一预设数量的用户分别对应的用户驾驶行为特征数据的步骤之前,还可包括生成上述用户驾驶行为特征数据的生成步骤。具体地,生成上述指定用户驾驶行为特征数据的过程可包括:首先获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系。另外,对于上述预设时间周期不作具体限定,可根据实际需求进行设置,例如可设为距离当前时间的前一个月所包含的时间段。此外,可通过查询与指定用户对应的相关app或与指定用户相关的车联网数据来采集上述指定用户驾驶导航轨迹数据,用户驾驶导航轨迹数据是以秒为单位的向量,可包括时间、经纬度、海拔、方向、速度等数据。然后基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1。另外,上述道路环境地图数据可通过依据现有开源的数据集,例如国家公布的OpenStreetMap进行下载获得,上述道路环境地图数据可包括道路经纬度,道路类型,限速等数据。之后从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1。另外,对于上述目标网格区域的筛选方式不作限定,可以从所有目标网格区域中随机选取一个区域作为该目标网络区域。优选采用指定用户常去的区域作为该目标网络区域,指定用户常去的区域会包含有较为丰富的轨迹数据,也更能代表指定用户真实的驾驶情况,有利于基于该丰富的轨迹数据生成数据参考效果更佳的指定用户驾驶行为特征数据。此外,由于只有处于同一网格区域内的不同用户驾驶行为特征数据之间才具有可比性,进而通过将同一网格区域内的所有用户驾驶行为特征数据进行分析比较后便能筛选出其中存在的异常驾驶行为特征数据。因此,在确定了上述预设时间周期与上述目标网格区域时,对于需要生成的其他用户的用户驾驶行为特征数据,同样也必须也基于该预设时间周期与该目标网格区域来进行生成,也即需要同时生成在该预设时间周期内,各用户处于该目标网格区域内的用户驾驶行为特征数据。后续基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征。其中,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,可基于用户驾驶导航轨迹数据查询出用于求取各个体驾驶行为特征所需的第一目标数据,进而使用该第一目标数据进行对应计算来生成与指定用户对应的个体驾驶行为特征。以及基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征。其中,所述相对驾驶行为特征包括节奏特征与加速特征,可基于用户驾驶导航轨迹数据查询出用于求取各相对驾驶行为特征所需的第二目标数据,进而使用该第二目标数据进行对应计算来生成与指定用户对应的相对驾驶行为特征。最后基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。其中,可通过对个体驾驶行为特征与相对驾驶行为特征进行拼接处理来生成与指定对用户对应的指定用户驾驶行为特征数据。本实施例通过使用预设时间周期内的处于目标网格区域的用户驾驶导航轨迹数据生成对应的用户驾驶行为特征数据,有利于后续能够基于孤立森林计算各用户驾驶行为特征数据的异常检测分数,进而基于该异常检测分数进行比较分析,从而实现智能快速地从所有用户驾驶行为特征数据中识别出异常数据,有效地提高了异常驾驶行为特征数据的识别准确性。
进一步地,本申请一实施例中,上述步骤S101,包括:
S1010:基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据;
S1011:对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据;
S1012:获取预设的区域划分范围数值;
S1013:基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。
如上述步骤S1010至S1013所述,所述基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域的步骤,具体可包括:首先基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据。其中,上述道路环境地图数据可通过依据现有开源的数据集,进行下载获得,上述道路环境地图数据可包括道路经纬度,道路类型,限速等数据。然后对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据。其中,上述网格化处理可参照现有的地图网格化处理,对所述道路环境地图数据进行网格化处理后,可以得到带有网格与坐标的道路环境地图。另外,还可对道路环境地图数据进行编码处理,以通过使用相应的编码算法使道路环境地图数据转化为后续需要的处理格式。之后获取预设的区域划分范围数值。其中,对于上述区域划分范围数值不作具体限定,可根据实际需求进行设置,例如可以10KM*10KM为单位。最后基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。通过将道路环境地图数据划分为多个不同的网格区域,从而为不同的网格区域建立了不同的分组,同一分组内的不同用户的用户驾驶导航轨迹数据之间具有可比性,使得后续通过收集在同一网络区域的一定数量的用户驾驶行为特征数据,再基于孤立森林将同一网络区域内的用户驾驶行为特征数据进行分析比较,进而可以有效地筛选出存在的异常的用户驾驶行为特征数据。
进一步地,本申请一实施例中,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,上述步骤S103,包括:
S1030:基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值;以及,
S1031:计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征;以及,
S1032:计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征;以及,
S1033:计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征;以及,
S1034:计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征;以及,
S1035:计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征;以及,
S1036:计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征;以及,
S1037:计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。
如上述步骤S1030至S1037所述,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征的步骤,具体可包括:基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值。以及计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征。其中,上述第一预设速度阈值具体可为120kph。另外,基于电脑软件模拟生成的驾驶数据,极少会出现超速事件。以及计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征。其中,不同的道路类型会存在不同的限速数值。以及计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征。其中,上述夜间时间段可根据经验数值进行设置,例如可设为晚上11点至凌晨5点。以及计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征。其中,上述高峰时间段可根据经验数值进行设置,例如可设为工作日的7点至1点,18点至21点。以及计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征。其中,上述第二预设速度阈值可设置为200kph。另外,基于电脑软件模拟生成的驾驶数据,极少会出现野蛮驾驶事件。以及计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征。其中,预先设置有与急减速事件对应的急减速阈值,例如可为10km加速度为10秒(10kph/10S),如果小于该急减速阈值则判定发生了一次急减速事件。另外,基于电脑软件模拟生成的驾驶数据,通常会是理想平均减速速度,极少会出现急减速事件。以及计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。其中,上述预设时长可根据经验数值进行设置,例如可设为2.5h。本实施例通过基于所述用户驾驶导航轨迹数据与所述目标网格区域来计算出所述指定用户的个体驾驶行为特征,有利于后续根据该个体驾驶行为特征以及相应的相对驾驶行为特征来快速生成所需的用户驾驶行为特征数据。
进一步地,本申请一实施例中,所述相对驾驶行为特征包括节奏特征与加速特征,上述步骤S104,包括:
S1040:基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速;
S1041:获取其他用户在所述目标网格区域内的第二平均车速;
S1042:计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏特征;以及,
S1043:获取所述指定用户在所述目标网格区域内的急加速事件数;
S1044:获取所述其他用户在所述目标网格区域内的急加速平均事件数;
S1045:计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。
如上述步骤S1040至S1045所述,所述相对驾驶行为特征包括节奏特征与加速特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征的步骤,具体可包括:首先基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速。然后获取其他用户在所述目标网格区域内的第二平均车速。之后计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏特征。举例地,如果指定用户在目标网格区域中的平均车速是V1,且目标网格区域中其他用户的平均车速是V2,则与指定用户对应的节奏特征为P=V1/V2。以及获取所述指定用户在所述目标网格区域内的急加速事件数,并获取所述其他用户在所述目标网格区域内的急加速平均事件数。其中,预先设置有与急加速事件对应的急加速阈值,例如可为100km加速度为10秒(100kph/10S),如果超过该急加速阈值则判定发生了一次急加速事件。另外,可取用户驾驶导航轨迹数据中相邻的两个点速度机型比较,即可计算出用户存在的急加速事件的数量。最后计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。举例地,如果在目标网格区域内,指定用户的急加速事件数为5次,计作A1=5次,其他用户的急加速平均事件数为A2=3次,则与指定用户对应的加速特征S=A1/A2=5/3。此外,另外,基于电脑软件模拟生成的驾驶数据,通常会是理想平均加速速度,极少会出现急加速事件。本实施例通过基于所述用户驾驶导航轨迹数据与所述目标网格区域来计算出所述指定用户的相对驾驶行为特征,有利于后续根据该相对驾驶行为特征以及相应的个体驾驶行为特征来快速生成所需的用户驾驶行为特征数据。
进一步地,本申请一实施例中,上述步骤S5,包括:
S500:基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望;
S501:基于所述平均路径长度与所述期望,调用预设的计算公式
Figure BDA0002868653430000171
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。
如上述步骤S500至S501所述,所述基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数的步骤,具体可包括:首先基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望。其中,在概率论和统计学中,期望(数学期望或均值)是试验中每次可能结果的概率乘以其结果的总和,它反映了随机变量(用户驾驶行为特征数据)平均取值的大小。然后基于所述平均路径长度与所述期望,调用预设的计算公式
Figure BDA0002868653430000172
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。通过调用与所述平均路径长度与所述期望相关的计算公式来计算出与用户驾驶行为特征数据对应的异常检测分数,有利于后续使用预先设置的两个分数阈值来与用户驾驶行为特征数据对应的异常检测分数进行数值比对处理,进而可以根据比对结果实现快速地查找出用户驾驶行为特征数据中存在的异常数据及相应的异常用户。
进一步地,本申请一实施例中,上述步骤S6,包括:
S600:获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数;
S601:判断所述指定异常检测分数是否大于第一预设分数阈值;
S602:若所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用户驾驶行为特征数据为异常数据;
S603:若所述指定异常检测分数不大于所述第一预设分数阈值,判断所述指定异常检测分数是否小于第二预设分数阈值;
S604:若所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。
如上述步骤S600至S604所述,所述基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果的步骤,具体可包括:首先获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数。然后判断所述指定异常检测分数是否大于第一预设分数阈值。如果所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用户驾驶行为特征数据为异常数据。其中,上述第一预设分数阈值具体可取0.95,如果异常检测分数大于该第一预设分数阈值,且越接近数值1,则数据异常的可能性越高,便可判定该数据为异常数据。而如果所述指定异常检测分数不大于所述第一预设分数阈值,则进一步判断所述指定异常检测分数是否小于第二预设分数阈值。如果所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。其中,上述第二预设分数阈值具体可取0.5,如果异常检测分数小于该第二预设分数阈值,则数据异常的可能性较低,便可判定该数据为正常数据。另外,如果存在异常检测分数接近上述第二预设分数阈值,且异常检测分数在第二预设分数阈值0.5左右,如0.52、0.49等,则初步判定该数据具有不确定性,可进一步筛选出此类特殊数据并交由人工进行人工异常确认处理。本实施例通过设置第一预设分数阈值与第二预设分数阈值,并使用这两个分数阈值来与用户驾驶行为特征数据对应的异常检测分数进行数值比对处理,进而可以根据比对结果实现快速地查找出用户驾驶行为特征数据中存在的异常数据及异常用户。
本申请实施例中的异常数据的检测方法还可以应用于区块链领域,如将上述异常检测分数等数据存储于区块链上。通过使用区块链来对上述异常检测分数进行存储和管理,能够有效地保证上述异常检测分数的安全性与不可篡改性。
上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参照图2,本申请一实施例中还提供了一种异常数据的检测装置,包括:
第一获取模块1,用于获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
构建模块2,用于从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
第一计算模块3,用于计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
第二计算模块4,用于计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
第三计算模块5,用于基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
第一生成模块6,用于基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本实施例中,上述异常数据的检测装置中的第一获取模块、构建模块、第一计算模块、第二计算模块、第三计算模块与第一生成模块的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S1至S6的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述异常数据的检测装置,包括:
第二获取模块,用于获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系;
第二生成模块,用于基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1;
筛选模块,用于从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1;
第四计算模块,用于基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征;以及,
第五计算模块,用于基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征;
第三生成模块,用于基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。
本实施例中,上述异常数据的检测装置中的第二获取模块、第二生成模块、筛选模块、第四计算模块、第五计算模块与第三生成模块的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S100至S105的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第二生成模块,包括:
第一获取单元,用于基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据;
第一处理单元,用于对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据;
第二获取单元,用于获取预设的区域划分范围数值;
第二处理单元,用于基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。
本实施例中,上述异常数据的检测装置中的第一获取单元、第一处理单元、第二获取单元与第二处理单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S1010至S1013的实现过程,在此不再赘述。
进一步地,本申请一实施例中,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,上述第四计算模块,包括:
第一计算单元,用于基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值;以及,
第二计算单元,用于计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征;以及,
第三计算单元,用于计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征;以及,
第四计算单元,用于计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征;以及,
第五计算单元,用于计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征;以及,
第六计算单元,用于计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征;以及,
第七计算单元,用于计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征;以及,
第八计算单元,用于计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。
本实施例中,上述异常数据的检测装置中的第一计算单元、第二计算单元、第三计算单元、第四计算单元、第五计算单元、第六计算单元、第七计算单元与第八计算单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S1030至S1037的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第五计算模块,包括:
第九计算单元,用于基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速;
第三获取单元,用于获取其他用户在所述目标网格区域内的第二平均车速;
第十计算单元,用于计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏特征;以及,
第四获取单元,用于获取所述指定用户在所述目标网格区域内的急加速事件数;
第五获取单元,用于获取所述其他用户在所述目标网格区域内的急加速平均事件数;
第十一计算单元,用于计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。
本实施例中,上述异常数据的检测装置中的第九计算单元、第三获取单元、第十计算单元、第四获取单元、第五获取单元与第十一计算单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S1040至S1045的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第三计算模块,包括:
第十二计算单元,用于基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望;
第十三计算单元,用于基于所述平均路径长度与所述期望,调用预设的计算公式
Figure BDA0002868653430000231
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。
本实施例中,上述异常数据的检测装置中的第十二计算单元与第十三计算单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S500至S501的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第一生成单元,包括:
第六获取单元,用于获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数;
第一判断单元,用于判断所述指定异常检测分数是否大于第一预设分数阈值;
第一判定单元,用于若所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用户驾驶行为特征数据为异常数据;
第二判断单元,用于若所述指定异常检测分数不大于所述第一预设分数阈值,判断所述指定异常检测分数是否小于第二预设分数阈值;
第二判定单元,用于若所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。
本实施例中,上述异常数据的检测装置中的第六获取单元、第一判断单元、第一判定单元、第二判断单元与第二判定单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S600至S604的实现过程,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户驾驶行为特征数据、孤立森林、路径长度、平均路径长度、异常检测分数以及异常检测结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备,用于将数字信号转换为光信号,使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置,用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种异常数据的检测方法。
上述处理器执行上述异常数据的检测方法的步骤:
获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种异常数据的检测方法,具体为:
获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种异常数据的检测方法,其特征在于,包括:
获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
2.根据权利要求1所述的异常数据的检测方法,其特征在于,所述获取与第一预设数量的用户分别对应的用户驾驶行为特征数据的步骤之前,包括:
获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系;
基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1;
从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1;
基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征;以及,
基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征;
基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。
3.根据权利要求2所述的异常数据的检测方法,其特征在于,所述基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域的步骤,包括:
基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据;
对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据;
获取预设的区域划分范围数值;
基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。
4.根据权利要求2所述的异常数据的检测方法,其特征在于,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征的步骤,包括:
基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值;以及,
计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征;以及,
计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征;以及,
计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征;以及,
计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征;以及,
计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征;以及,
计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征;以及,
计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。
5.根据权利要求2所述的异常数据的检测方法,其特征在于,所述相对驾驶行为特征包括节奏特征与加速特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征的步骤,包括:
基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速;
获取其他用户在所述目标网格区域内的第二平均车速;
计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏特征;以及,
获取所述指定用户在所述目标网格区域内的急加速事件数;
获取所述其他用户在所述目标网格区域内的急加速平均事件数;
计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。
6.根据权利要求1所述的异常数据的检测方法,其特征在于,所述基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数的步骤,包括:
基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望;
基于所述平均路径长度与所述期望,调用预设的计算公式
Figure FDA0002868653420000041
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。
7.根据权利要求1所述的异常数据的检测方法,其特征在于,所述基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果的步骤,包括:
获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数;
判断所述指定异常检测分数是否大于第一预设分数阈值;
若所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用户驾驶行为特征数据为异常数据;
若所述指定异常检测分数不大于所述第一预设分数阈值,判断所述指定异常检测分数是否小于第二预设分数阈值;
若所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。
8.一种异常数据的检测装置,其特征在于,包括:
第一获取模块,用于获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
构建模块,用于从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
第一计算模块,用于计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
第二计算模块,用于计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
第三计算模块,用于基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
第一生成模块,用于基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011591108.4A 2020-12-29 2020-12-29 异常数据的检测方法、装置、计算机设备和存储介质 Pending CN112633395A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011591108.4A CN112633395A (zh) 2020-12-29 2020-12-29 异常数据的检测方法、装置、计算机设备和存储介质
PCT/CN2021/091726 WO2022142042A1 (zh) 2020-12-29 2021-04-30 异常数据的检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011591108.4A CN112633395A (zh) 2020-12-29 2020-12-29 异常数据的检测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112633395A true CN112633395A (zh) 2021-04-09

Family

ID=75285937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011591108.4A Pending CN112633395A (zh) 2020-12-29 2020-12-29 异常数据的检测方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN112633395A (zh)
WO (1) WO2022142042A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065902A (zh) * 2021-04-22 2021-07-02 中国平安财产保险股份有限公司 基于数据处理的费用设定方法、装置和计算机设备
CN113344713A (zh) * 2021-05-27 2021-09-03 北京优全智汇信息技术有限公司 保险方案配置投放系统及其投放方法
CN114677254A (zh) * 2022-03-17 2022-06-28 北京中交兴路信息科技有限公司 一种货车事故识别方法、装置、存储介质及程序产品
WO2022142042A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 异常数据的检测方法、装置、计算机设备和存储介质
CN117436005A (zh) * 2023-12-21 2024-01-23 山东汇力环保科技有限公司 一种环境空气自动监测过程中异常数据处理方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221011A (zh) * 2022-09-21 2022-10-21 中国电子信息产业集团有限公司 一种数据元件流通调用异常监控方法及装置
CN117556714B (zh) * 2024-01-12 2024-03-22 济南海德热工有限公司 一种用于铝金属冶炼的预热管路温度数据异常分析方法
CN117622177B (zh) * 2024-01-23 2024-05-14 青岛创新奇智科技集团股份有限公司 一种基于工业大模型的车辆数据处理方法及装置
CN117786587A (zh) * 2024-02-28 2024-03-29 深圳市福山自动化科技有限公司 基于数据分析的电网数据质量异常诊断方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170364821A1 (en) * 2016-06-21 2017-12-21 Tata Consultancy Services Limited Method and system for analyzing driver behaviour based on telematics data
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN110532485A (zh) * 2019-07-11 2019-12-03 中国科学院信息工程研究所 基于多源数据融合的用户行为检测方法及装置
WO2020155752A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
CN111784392A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于孤立森林的异常用户群组检测方法、装置、设备
CN112016834A (zh) * 2020-08-28 2020-12-01 中国平安财产保险股份有限公司 异常驾驶行为检测方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10392022B1 (en) * 2018-02-28 2019-08-27 Calamp Corp. Systems and methods for driver scoring with machine learning
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN111951116A (zh) * 2020-08-26 2020-11-17 江苏云脑数据科技有限公司 基于无监督孤立点检测的医保反欺诈监测分析方法和系统
CN112633395A (zh) * 2020-12-29 2021-04-09 平安科技(深圳)有限公司 异常数据的检测方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170364821A1 (en) * 2016-06-21 2017-12-21 Tata Consultancy Services Limited Method and system for analyzing driver behaviour based on telematics data
WO2020155752A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN110532485A (zh) * 2019-07-11 2019-12-03 中国科学院信息工程研究所 基于多源数据融合的用户行为检测方法及装置
CN111784392A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于孤立森林的异常用户群组检测方法、装置、设备
CN112016834A (zh) * 2020-08-28 2020-12-01 中国平安财产保险股份有限公司 异常驾驶行为检测方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022142042A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 异常数据的检测方法、装置、计算机设备和存储介质
CN113065902A (zh) * 2021-04-22 2021-07-02 中国平安财产保险股份有限公司 基于数据处理的费用设定方法、装置和计算机设备
CN113344713A (zh) * 2021-05-27 2021-09-03 北京优全智汇信息技术有限公司 保险方案配置投放系统及其投放方法
CN113344713B (zh) * 2021-05-27 2022-04-22 北京优全智汇信息技术有限公司 保险方案配置投放系统及其投放方法
CN114677254A (zh) * 2022-03-17 2022-06-28 北京中交兴路信息科技有限公司 一种货车事故识别方法、装置、存储介质及程序产品
CN117436005A (zh) * 2023-12-21 2024-01-23 山东汇力环保科技有限公司 一种环境空气自动监测过程中异常数据处理方法
CN117436005B (zh) * 2023-12-21 2024-03-15 山东汇力环保科技有限公司 一种环境空气自动监测过程中异常数据处理方法

Also Published As

Publication number Publication date
WO2022142042A1 (zh) 2022-07-07

Similar Documents

Publication Publication Date Title
CN112633395A (zh) 异常数据的检测方法、装置、计算机设备和存储介质
CN113516297B (zh) 基于决策树模型的预测方法、装置和计算机设备
CN111462484B (zh) 拥堵状态的确定方法、装置、设备及计算机可读存储介质
US20180268305A1 (en) Retrospective event verification using cognitive reasoning and analysis
CN113326081A (zh) 静态资源的处理方法、装置、计算机设备和存储介质
CN112163131A (zh) 业务数据查询平台的配置方法、装置、计算机设备及介质
Azimi et al. A Layered Quality Framework for Machine Learning-driven Data and Information Models.
CN110598461A (zh) 野生动物信息管理方法、装置、终端、系统及存储介质
CN113327037A (zh) 基于模型的风险识别方法、装置、计算机设备和存储介质
CN113672654A (zh) 数据查询方法、装置、计算机设备和存储介质
CN112965981A (zh) 数据核对方法、装置、计算机设备和存储介质
CN111477012B (zh) 基于路况状态预测模型的溯源方法、装置和计算机设备
Krishen et al. Safety culture from an interdisciplinary perspective: conceptualizing a hierarchical feedback-based transportation framework
CN113535260B (zh) 基于模拟器的数据处理方法、装置、设备及存储介质
CN115577389A (zh) 一种基于区块链系统的治理方法及系统
CN112632371B (zh) 银行业务反欺诈方法与系统
CN113946579A (zh) 基于模型的数据生成方法、装置、计算机设备和存储介质
CN113449184A (zh) 触达渠道的推荐方法、装置、计算机设备和存储介质
CN110516075A (zh) 基于机器学习的预警报告生成方法、装置和计算机设备
CN111899765A (zh) 基于情绪预测模型的语音发送方法、装置和计算机设备
Hulstijn Computational accountability
CN113535806A (zh) 一种基于区块链的电力数据处理方法及装置
Marks et al. Identifying and labeling potentially risky driving: A multistage process using real-world driving data
Leese Data quality in governance: A definition and a research agenda
Borges et al. Prediction of indicators through machine learning and anomaly detection: a case study in the supplementary health system in Brazil

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination