CN109117869B - 用户画像方法、介质及系统 - Google Patents

用户画像方法、介质及系统 Download PDF

Info

Publication number
CN109117869B
CN109117869B CN201810802523.6A CN201810802523A CN109117869B CN 109117869 B CN109117869 B CN 109117869B CN 201810802523 A CN201810802523 A CN 201810802523A CN 109117869 B CN109117869 B CN 109117869B
Authority
CN
China
Prior art keywords
driver
driving behavior
driving
characteristic
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810802523.6A
Other languages
English (en)
Other versions
CN109117869A (zh
Inventor
杜超坎
王金达
巫朝星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honorsun Xiamen Data Co ltd
Original Assignee
Honorsun Xiamen Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honorsun Xiamen Data Co ltd filed Critical Honorsun Xiamen Data Co ltd
Priority to CN201810802523.6A priority Critical patent/CN109117869B/zh
Publication of CN109117869A publication Critical patent/CN109117869A/zh
Application granted granted Critical
Publication of CN109117869B publication Critical patent/CN109117869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种用户画像方法,包括以下步骤:获取驾驶员的行车数据;结合车辆行驶过程,对驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;对驾驶行为特征矩阵进行筛选以获得最终特征;根据最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据相似性建立连边,以及基于连边采用聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果;获取准确性高的聚类结果;基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像;本发明还公开了一种介质和系统,能够实现对驾驶员的驾驶行为特征进行分析,以形成驾驶员画像,从而发现不良驾驶习惯,为不良习惯纠偏提供依据,保证城市交通环境的安全性和乘客的搭乘舒适度。

Description

用户画像方法、介质及系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种用户画像方法、介质及系统。
背景技术
在城市交通环境中,车辆驾驶员的不良驾驶行为(例如,急加速、急刹车和开快车),严重影响了城市交通环境的安全性以及乘客的搭乘舒适度。
在车辆的驾驶过程中,车辆驾驶员的驾驶习惯多是通过长期的驾驶行为养成的,所以自身存在的不良驾驶习惯驾驶员本人往往难以察觉。而不良的驾驶习惯往往是各种交通事故的重大诱因,因此,为了更好地维护城市交通环境的安全性以及乘客的搭乘舒适度,急需一种方法来发现车辆驾驶员的不良驾驶习惯,以更正其不良习惯,改善车辆驾驶质量,保证城市交通环境的安全性和乘客的搭乘舒适度。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种用户画像方法,能够实现对驾驶员的驾驶行为特征进行分析,以形成驾驶员画像,从而发现驾驶员的不良驾驶习惯,为进一步的驾驶员不良习惯纠偏提供依据,保证城市交通环境的安全性和乘客的搭乘舒适度。
本发明的第二个目的在于提出一种计算机可读存储介质。
本发明的第三个目的在于提出一种用户画像系统。
本发明的第四个目的在于提出一种用户画像系统。
为达到上述目的,本发明第一方面实施例提出了一种用户画像方法,包括以下步骤:获取驾驶员的行车数据;结合车辆行驶过程,对所述驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;对所述驾驶行为特征矩阵进行筛选以获得最终特征;根据所述最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据所述驾驶行为特征相似性建立连边,以及基于所述连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果;获取所述第一聚类结果和第二聚类结果中准确性高的聚类结果;基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像。
根据本发明实施例的用户画像方法,首先,获取驾驶员的行车数据;结合车辆行驶过程,对驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;并对驾驶行为特征矩阵进行筛选以获得最终特征;接着,根据最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据驾驶行为特征相似性建立连边,以及基于连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果;然后,获取第一聚类结果和第二聚类结果中准确性高的聚类结果;基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像;从而实现对驾驶员的驾驶行为特征进行分析,以形成驾驶员画像,进而发现驾驶员的不良驾驶习惯,为进一步的驾驶员不良习惯纠偏提供依据,保证城市交通环境的安全性和乘客的搭乘舒适度。
另外,根据本发明上述实施例提出的用户画像方法还可以具有如下附加的技术特征:
可选地,通过CAN总线车载仪器获取所述驾驶员的行车数据,其中,所述驾驶员的行车数据包括驾驶员ID、记录日期和时间、车辆的位置、速度、上下行、电机和发动机转速、档位、电子刹车信息、手刹信息、油门踏板百分比、点火信号、制动踏板开度信息、开关状态信息。
可选地,对所述驾驶行为特征矩阵进行筛选以获得最终特征,包括:基于所述驾驶行为特征矩阵获取行为特征概率分布图以分析驾驶行为特征分布情况,并根据所述驾驶行为特征分布情况删除所述驾驶行为特征矩阵中没有明显区别的驾驶行为特征以进行初步筛选;采用基于互信息的最大相关最小冗余特征选择方法对初步筛选后的驾驶行为特征进行排序,并根据排序结果对初步筛选后的驾驶行为特征进行二次筛选;对二次筛选后的驾驶行为特征进行赋权;根据赋权后的每个驾驶行为特征的权重生成特征箱形图,并根据所述特征箱形图去除异常行为特征以获得所述最终特征。
可选地,采用Fast Unfolding聚类算法进行驾驶员群体聚类时,按照模块度算法将网络中模块度可提高的点和社团进行合并,直至网络中模块度无法提高为止。
为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有用户画像程序,该用户画像程序被处理器执行时实现如上述的用户画像方法。
为达到上述目的,本发明第三方面实施例提出了一种用户画像系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户画像程序,所述处理器执行所述用户画像程序时实现如上述的用户画像方法。
为达到上述目的,本发明第四方面实施例提出了一种用户画像系统,包括:数据获取模块,用于获取驾驶员的行车数据;特征提取模块,用于结合车辆行驶过程,对所述驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;特征筛选模块,用于对所述驾驶行为特征矩阵进行筛选以获得最终特征;聚类模块,用于根据所述最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据所述驾驶行为特征相似性建立连边,以及基于所述连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果,并获取所述第一聚类结果和第二聚类结果中准确性高的聚类结果;画像生成模块,用于基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像。
根据本发明实施例的用户画像系统,首先,数据获取模块获取驾驶员的行车数据;接着,特征提取模块结合车辆行驶过程,对驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;然后,特征筛选模块对驾驶行为特征矩阵进行筛选以获得最终特征;接着,聚类模块根据最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据驾驶行为特征相似性建立连边,以及基于连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果,并获取第一聚类结果和第二聚类结果中准确性高的聚类结果;然后,画像生成模块基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像;从而实现对驾驶员的驾驶行为特征进行分析,以形成驾驶员画像,进而发现驾驶员的不良驾驶习惯,为进一步的驾驶员不良习惯纠偏提供依据,保证城市交通环境的安全性和乘客的搭乘舒适度。
另外,根据本发明上述实施例提出的用户画像系统还可以具有如下附加的技术特征:
可选地,所述数据获取模块通过CAN总线车载仪器获取所述驾驶员的行车数据,其中,所述驾驶员的行车数据包括基于驾驶员ID、记录日期和时间、车辆的位置、速度、上下行、电机和发动机转速、档位、电子刹车信息、手刹信息、油门踏板百分比、点火信号、制动踏板开度信息、开关状态信息整理成的与驾驶员、车辆对应的CSV文档。
可选地,所述特征筛选模块包括:初步筛选单元,用于基于所述驾驶行为特征矩阵获取行为特征概率分布图以分析驾驶行为特征分布情况,并根据所述驾驶行为特征分布情况删除所述驾驶行为特征矩阵中没有明显区别的驾驶行为特征以进行初步筛选;二次筛选单元,用于采用基于互信息的最大相关最小冗余特征选择方法对初步筛选后的驾驶行为特征进行排序,并根据排序结果对初步筛选后的驾驶行为特征进行二次筛选;赋权单元,用于对二次筛选后的驾驶行为特征进行赋权;异常去除单元,用于根据赋权后的每个驾驶行为特征的权重生成特征箱形图,并根据所述特征箱形图去除异常行为特征以获得所述最终特征。
可选地,所述聚类模块采用Fast Unfolding聚类算法进行驾驶员群体聚类时,按照模块度算法将网络中模块度可提高的点和社团进行合并,直至网络中模块度无法提高为止。
附图说明
图1为根据本发明实施例的用户画像方法的流程示意图;
图2为根据本发明另一实施例的对驾驶行为特征矩阵进行筛选以获得最终特征的流程示意图;
图3为根据本发明实施例的用户画像系统的方框示意图;
图4为根据本发明另一实施例的特征筛选模块的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在车辆的驾驶过程中,车辆驾驶员在长期驾驶后常常会养成不良的驾驶习惯,并且车辆驾驶员对自身的不良驾驶习惯难以发现,严重影响城市交通环境的安全性和乘客的搭乘舒适度;本发明实施例提出的一种用户画像方法,首先在获取驾驶员的行车数据之后,结合车辆行驶过程提取驾驶行为特征矩阵,并对驾驶行为特征矩阵进行筛选以获得最终特征;然后,根据最终特征进行聚类,以获得聚类结果;接着,基于雷达图的方式,根据聚类结果构建驾驶员画像;从而实现对驾驶员的驾驶行为特征进行分析,以形成驾驶员画像,进而发现驾驶员的不良驾驶习惯,为进一步的驾驶员不良习惯纠偏提供依据,保证城市交通环境的安全性和乘客的搭乘舒适度。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为本发明实施例提出的一种用户画像方法的流程示意图,如图1所示,该用户画像方法包括以下步骤:
S101,获取驾驶员的行车数据。
其中,获取驾驶员的行车数据的方式有多种,例如,通过安装在车辆上面的车载终端获取驾驶员的行车数据;或者,通过行车记录仪获取驾驶员的行车数据;或者通过驾驶员的移动终端获取驾驶员的行车数据。
作为一种示例,可以通过CAN总线车载仪器获取驾驶员的行车数据。
其中,驾驶员的行车数据包括但不限于驾驶员ID、记录日期和时间、车辆的位置、速度、上下行、电机和发动机转速、档位、电子刹车信息、手刹信息、油门踏板百分比、点火信号、制动踏板开度信息、开关状态信息。
需要说明的是,在通过CAN总线车载仪器获取驾驶员的行车数据之后,可以对获取到的驾驶员的行车数据进行整理,并生成与驾驶员对应的CSV文档以及与车辆对应的CSV文档,以便于后续对驾驶员的驾驶行为特征进行提取。
S102,结合车辆行驶过程,对驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵。
也就是说,结合车辆的具体行驶过程(例如,公交车线路上行过程中,起点至终点车辆的具体行驶过程;或者,出租车在指定路线的具体行驶过程等),对驾驶员的行车数据进行特征提取,以获得驾驶行为特征矩阵。
需要说明的是,在生成驾驶行为特征矩阵之前,还可以包括对提取的特征的预处理;具体地,可对缺失的数据以及逻辑错误的数据使用hot deck算法进行就近补齐;其中,逻辑错误的数据可首先通过逻辑错误检测进行排查,逻辑错误的数据指的是由于设备记录错误或者其他原因而导致的明显不符合逻辑的数据;例如,由于经纬度记录发生错误,造成城市拥堵路段“行车速度达到150km/h”;或者,“电机转速达到16000r/min”等;然后,当逻辑错误检测过程中发现逻辑错误的数据时,使用空值对逻辑错误的数据进行替换,并使用hotdeck算法进行就近补齐,以完成对提取的特征的预处理;从而使得经过预处理后的特征生成的特征矩阵更精准并更具有可参照性。
S103,对驾驶行为特征矩阵进行筛选以获得最终特征。
也就是说,在获得驾驶行为特征矩阵之后,对特征矩阵中的特征进行筛选,以获得用于聚类分析的最终特征。
S104,根据最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据驾驶行为特征相似性建立连边,以及基于连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果。
其中,根据最终特征度量驾驶员每次行车的驾驶行为特征相似性指的是,根据最终特征综合评定每次行车的驾驶行为特征之间的相近程度;度量的方式可以有多种,例如,衡量每次行车的驾驶行为特征之间的匹配系数;或者衡量每次行车的驾驶行为特征之间的一致度等。
作为一种示例,根据驾驶行为特征相似性建立连边,并基于连边采用FastUnfolding聚类算法进行驾驶员群体聚类时,按照模块度算法将网络中模块度可提高的点和社团进行合并,直至网络中的模块度无法提高为止。
也就是说,首先将每个驾驶行为特征作为一个独立的社团,接着将邻近的社团进行合并,并在合并之后判断所有社团组成的网络的模块度是否提高,如果判断结果为是,则合并社团;如果判断结果为否,则撤销社团的合并;如此,对每个社团进行迭代合并,直到所有社团组成的网络的模块度不再提高为止。
需要说明的是,最终形成的模块度无法提高的网络即为采用Fast Unfolding聚类算法进行驾驶员群体聚类获得的第一聚类结果。
其中,K-means聚类算法是一种典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。
S105,获取第一聚类结果和第二聚类结果中准确性高的聚类结果。
也就是说,在获取到第一聚类结果和第二聚类结果之后,将第一聚类结果和第二聚类结果中的准确性进行对比,选取准确性高的聚类结果。
其中,判断聚类结果准确性的方式有多种,例如,根据多个驾驶行为特征和聚类结果判断各驾驶行为特征的分类,并根据分类结果判断分类是否准确,以判断聚类结果的准确性。
作为一种示例,以每次行车的驾驶行为特征作为分类对象,提取同一驾驶员相同行程行车的多次驾驶行为特征,并根据多次驾驶行为特征预设平均分类准确性指标,以及根据每次驾驶行为特征和聚类结果判断每次驾驶行为特征的分类;然后,判断每次驾驶行为特征的分类与预设平均分类准确性指标是否一致,若判断结果一致,则确定该分类结果准确;接着,根据每次驾驶行为特征的分类结果确定聚类结果的准确性。
S106,基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像。
也就是说,在获取准确性高的聚类结果之后,以雷达图的方式进行驾驶员画像的构建。
作为一种示例,设定聚类结果中的每一个分类为一个维度,并对每个维度进行评分,根据多个分类行程多个维度,根据每个维度的评分综合所有维度的评分进行综合评分,并将每个维度的评分以及综合评分以雷达图的形式体现,以形成驾驶员画像。
根据本发明实施例的用户画像方法,首先,获取驾驶员的行车数据;结合车辆行驶过程,对驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;并对驾驶行为特征矩阵进行筛选以获得最终特征;接着,根据最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据驾驶行为特征相似性建立连边,以及基于连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果;然后,获取第一聚类结果和第二聚类结果中准确性高的聚类结果;基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像;从而实现对驾驶员的驾驶行为特征进行分析,以形成驾驶员画像,进而发现驾驶员的不良驾驶习惯,为进一步的驾驶员不良习惯纠偏提供依据,保证城市交通环境的安全性和乘客的搭乘舒适度。
如图2所示,在一些实施例中,本发明实施例的用户画像方法中,对驾驶行为特征矩阵进行筛选以获得最终特征具体可包括以下步骤:
S201,基于驾驶行为特征矩阵获取行为特征概率分布图以分析驾驶行为特征分布情况并根据驾驶行为特征分布情况删除驾驶行为特征矩阵中没有明显区别的驾驶行为特征以进行初步筛选。
也就是说,根据驾驶行为特征矩阵生成行为特征概率分布图,并根据行为特征概率分布图进行驾驶行为特征分布情况的分析,以及根据驾驶行为特征分布情况将各驾驶行为特征中没有明显区别的进行删除,以完成对驾驶行为特征的初步筛选。
S202,采用基于互信息的最大相关最小冗余特征选择方法对初步筛选后的驾驶行为特征进行排序,并根据排序结果对初步筛选后的驾驶行为特征进行二次筛选。
其中,互信息指的是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减小的不肯定性。
作为一种示例,在根据驾驶行为特征分布情况删除驾驶行为特征矩阵中没有明显区别的驾驶行为特征以完成初步筛选之后,通过估算初步筛选后的每个驾驶行为特征降低除自身之外的其他驾驶行为特征的不确定性的能力,一次选择一个驾驶行为特征,采用基于互信息的最大相关最小冗余将特征进行排序,并根据排序结果对初步筛选后的驾驶行为特征进行二次筛选。
其中,二次筛选的方式有多种,例如,根据排序的先后顺序,选取排序编号在预设值之前驾驶行为特征。
作为一种示例,首先预设平均互信息的阈值,接着删除互信息在阈值意外的驾驶行为特征,以完成二次筛选。
S203,对二次筛选后的驾驶行为特征进行赋权。
也就是说,对二次筛选之后的驾驶行为特征进行赋权,以确定二次筛选后的各驾驶行为特征的权重。
S204,根据赋权后的每个驾驶行为特征的权重生成特征箱形图,并根据特征箱形图去除异常行为特征以获得最终特征。
其中,箱形图是一种用作现实一组数据分散情况的统计图。
作为一种示例,根据赋权后的每个驾驶行为特征的排序,进行最小值、第一四分位数、中位数、第三四分位数以及最大值的确定,并根据第一四分位数和第三四分位数的差值确定内限值和外限值,以及根据内限值和外限值确定异常行为特征;然后,根据特征箱形图去除异常行为特征以获得最终特征。
综上所述,根据本发明实施例的用户画像方法,首先基于驾驶行为特征矩阵获取行为特征概率分布图以分析驾驶行为特征分布情况并根据驾驶行为特征分布情况删除驾驶行为特征矩阵中没有明显区别的驾驶行为特征以进行初步筛选,接着,采用基于互信息的最大相关最小冗余特征选择方法对初步筛选后的驾驶行为特征进行排序,并根据排序结果对初步筛选后的驾驶行为特征进行二次筛选,然后,对二次筛选后的驾驶行为特征进行赋权;接着,根据赋权后的每个驾驶行为特征的权重生成特征箱形图,并根据特征箱形图去除异常行为特征以获得最终特征;从而增强最终特征的精准性和可参照性,有利于后续根据最终特征形成的聚类结果的生成。
为了实现上述实施例,本发明实施例提出了一种计算机可读存储介质,其上存储有用户画像程序,该用户画像程序被处理器执行时实现如上述的用户画像方法。
为了实现上述实施例,本发明实施例提出了一种用户画像系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户画像程序,所述处理器执行所述用户画像程序时实现如上述的用户画像方法。
如图3所示,本发明实施例提出了一种用户画像系统,包括:数据获取模块10,特征提取模块20,特征筛选模块30,聚类模块40,画像生成模块50。
其中,数据获取模块10,用于获取驾驶员的行车数据;
特征提取模块20,用于结合车辆行驶过程,对驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;
特征筛选模块30,用于对驾驶行为特征矩阵进行筛选以获得最终特征;
聚类模块40,用于根据最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据驾驶行为特征相似性建立连边,以及基于连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果,并获取第一聚类结果和第二聚类结果中准确性高的聚类结果;
画像生成模块50,用于基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像。
综上所述,根据本发明实施例的用户画像系统,首先,数据获取模块获取驾驶员的行车数据;接着,特征提取模块结合车辆行驶过程,对驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;然后,特征筛选模块对驾驶行为特征矩阵进行筛选以获得最终特征;接着,聚类模块根据最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据驾驶行为特征相似性建立连边,以及基于连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果,并获取第一聚类结果和第二聚类结果中准确性高的聚类结果;然后,画像生成模块基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像;从而实现对驾驶员的驾驶行为特征进行分析,以形成驾驶员画像,进而发现驾驶员的不良驾驶习惯,为进一步的驾驶员不良习惯纠偏提供依据,保证城市交通环境的安全性和乘客的搭乘舒适度。
在一些实施例中,本发明提出的用户画像系统中,数据获取模块10通过CAN总线车载仪器获取所述驾驶员的行车数据,其中,所述驾驶员的行车数据包括基于驾驶员ID、记录日期和时间、车辆的位置、速度、上下行、电机和发动机转速、档位、电子刹车信息、手刹信息、油门踏板百分比、点火信号、制动踏板开度信息、开关状态信息整理成的与驾驶员、车辆对应的CSV文档。
如图4所示,在一些实施例中,本发明提出的用户画像系统中,特征筛选模块30包括:
初步筛选单元60,用于基于所述驾驶行为特征矩阵获取行为特征概率分布图以分析驾驶行为特征分布情况,并根据所述驾驶行为特征分布情况删除所述驾驶行为特征矩阵中没有明显区别的驾驶行为特征以进行初步筛选;
二次筛选单元70,用于采用基于互信息的最大相关最小冗余特征选择方法对初步筛选后的驾驶行为特征进行排序,并根据排序结果对初步筛选后的驾驶行为特征进行二次筛选;
赋权单元80,用于对二次筛选后的驾驶行为特征进行赋权;
异常去除单元90,用于根据赋权后的每个驾驶行为特征的权重生成特征箱形图,并根据所述特征箱形图去除异常行为特征以获得所述最终特征。
在一些实施例中,本发明提出的用户画像系统中,聚类模块40采用FastUnfolding聚类算法进行驾驶员群体聚类时,按照模块度算法将网络中模块度可提高的点和社团进行合并,直至网络中模块度无法提高为止。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征 “上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种用户画像方法,其特征在于,包括以下步骤:
获取驾驶员的行车数据;
结合车辆行驶过程,对所述驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;
对所述驾驶行为特征矩阵进行筛选以获得最终特征;
根据所述最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据所述驾驶行为特征相似性建立连边,以及基于所述连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果;
获取所述第一聚类结果和第二聚类结果中准确性高的聚类结果;
基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像;
其中,通过CAN总线车载仪器获取所述驾驶员的行车数据,所述驾驶员的行车数据包括驾驶员ID、记录日期和时间、车辆的位置、速度、上下行、电机和发动机转速、档位、电子刹车信息、手刹信息、油门踏板百分比、点火信号、制动踏板开度信息、开关状态信息。
2.如权利要求1所述的用户画像方法,其特征在于,对所述驾驶行为特征矩阵进行筛选以获得最终特征,包括:
基于所述驾驶行为特征矩阵获取行为特征概率分布图以分析驾驶行为特征分布情况,并根据所述驾驶行为特征分布情况删除所述驾驶行为特征矩阵中没有明显区别的驾驶行为特征以进行初步筛选;
采用基于互信息的最大相关最小冗余特征选择方法对初步筛选后的驾驶行为特征进行排序,并根据排序结果对初步筛选后的驾驶行为特征进行二次筛选;
对二次筛选后的驾驶行为特征进行赋权;
根据赋权后的每个驾驶行为特征的权重生成特征箱形图,并根据所述特征箱形图去除异常行为特征以获得所述最终特征。
3.如权利要求1或2所述的用户画像方法,其特征在于,采用Fast Unfolding聚类算法进行驾驶员群体聚类时,按照模块度算法将网络中模块度可提高的点和社团进行合并,直至网络中模块度无法提高为止。
4.一种计算机可读存储介质,其特征在于,其上存储有用户画像程序,该用户画像程序被处理器执行时实现如权利要求1-3中任一项所述的用户画像方法。
5.一种用户画像系统,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户画像程序,所述处理器执行所述用户画像程序时实现如权利要求1-3中任一项所述的用户画像方法。
6.一种用户画像系统,其特征在于,包括:
数据获取模块,用于获取驾驶员的行车数据;
特征提取模块,用于结合车辆行驶过程,对所述驾驶员的行车数据进行特征提取以获得驾驶行为特征矩阵;
特征筛选模块,用于对所述驾驶行为特征矩阵进行筛选以获得最终特征;
聚类模块,用于根据所述最终特征度量驾驶员每次行车的驾驶行为特征相似性,并根据所述驾驶行为特征相似性建立连边,以及基于所述连边分别采用Fast Unfolding聚类算法和K-means聚类算法进行驾驶员群体聚类以获得第一聚类结果和第二聚类结果,并获取所述第一聚类结果和第二聚类结果中准确性高的聚类结果;
画像生成模块,用于基于雷达图的方式,根据准确性高的聚类结果构建驾驶员画像;
其中,所述数据获取模块通过CAN总线车载仪器获取所述驾驶员的行车数据,所述驾驶员的行车数据包括基于驾驶员ID、记录日期和时间、车辆的位置、速度、上下行、电机和发动机转速、档位、电子刹车信息、手刹信息、油门踏板百分比、点火信号、制动踏板开度信息、开关状态信息整理成的与驾驶员、车辆对应的CSV文档。
7.如权利要求6所述的用户画像系统,其特征在于,所述特征筛选模块包括:
初步筛选单元,用于基于所述驾驶行为特征矩阵获取行为特征概率分布图以分析驾驶行为特征分布情况,并根据所述驾驶行为特征分布情况删除所述驾驶行为特征矩阵中没有明显区别的驾驶行为特征以进行初步筛选;
二次筛选单元,用于采用基于互信息的最大相关最小冗余特征选择方法对初步筛选后的驾驶行为特征进行排序,并根据排序结果对初步筛选后的驾驶行为特征进行二次筛选;
赋权单元,用于对二次筛选后的驾驶行为特征进行赋权;
异常去除单元,用于根据赋权后的每个驾驶行为特征的权重生成特征箱形图,并根据所述特征箱形图去除异常行为特征以获得所述最终特征。
8.如权利要求6或7所述的用户画像系统,其特征在于,所述聚类模块采用FastUnfolding聚类算法进行驾驶员群体聚类时,按照模块度算法将网络中模块度可提高的点和社团进行合并,直至网络中模块度无法提高为止。
CN201810802523.6A 2018-07-20 2018-07-20 用户画像方法、介质及系统 Active CN109117869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810802523.6A CN109117869B (zh) 2018-07-20 2018-07-20 用户画像方法、介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810802523.6A CN109117869B (zh) 2018-07-20 2018-07-20 用户画像方法、介质及系统

Publications (2)

Publication Number Publication Date
CN109117869A CN109117869A (zh) 2019-01-01
CN109117869B true CN109117869B (zh) 2021-09-17

Family

ID=64863069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810802523.6A Active CN109117869B (zh) 2018-07-20 2018-07-20 用户画像方法、介质及系统

Country Status (1)

Country Link
CN (1) CN109117869B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119756B (zh) * 2019-03-25 2021-08-10 北京天泽智云科技有限公司 一种基于投票法的趋势性数据特征自动选择方法
CN110097287B (zh) * 2019-05-07 2021-06-22 宏图物流股份有限公司 一种物流司机的群体画像方法
CN111966885B (zh) * 2019-05-20 2023-10-31 腾讯科技(深圳)有限公司 一种用户画像的构建方法和装置
CN110371132B (zh) * 2019-06-18 2021-02-09 华为技术有限公司 驾驶员接管评估方法及装置
CN112801821A (zh) * 2021-02-25 2021-05-14 国网山东省电力公司经济技术研究院 基于大数据分析的工程施工队伍画像方法和系统
CN113033651A (zh) * 2021-03-22 2021-06-25 上海仙塔智能科技有限公司 一种提高驾驶安全性的方法和装置
CN115221234A (zh) * 2021-08-16 2022-10-21 广州汽车集团股份有限公司 一种基于动力总成数据对用户进行画像的方法及系统
CN115512536B (zh) * 2022-08-09 2024-05-21 浙江大有实业有限公司杭州科技发展分公司 一种基于人车画像的智能车辆管理系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60044220D1 (de) * 1999-01-26 2010-06-02 Xerox Corp Multimodaler Informationzugriff
US20150154693A1 (en) * 2013-12-04 2015-06-04 Xcite Deal, Inc. Community trading platform
CN107305667A (zh) * 2016-04-18 2017-10-31 滴滴(中国)科技有限公司 基于出行习惯的用户画像获取方法及装置
CN106407563B (zh) * 2016-09-20 2020-03-27 北京工业大学 一种基于驾驶类型和前车加速度信息的跟驰模型生成方法
CN106373331A (zh) * 2016-09-28 2017-02-01 百度在线网络技术(北京)有限公司 乘车预警方法和装置
CN107067024B (zh) * 2017-02-03 2018-06-19 江苏省电力试验研究院有限公司 高压断路器机械状态识别方法
CN107146129A (zh) * 2017-04-06 2017-09-08 浙江大学 一种基于用户画像的智能车辆多层次共享机制
CN107729951B (zh) * 2017-11-14 2024-02-09 吉林大学 一种考虑道路与环境特征的驾驶员行为分析装置及方法
CN108280415A (zh) * 2018-01-17 2018-07-13 武汉理工大学 基于智能移动终端的驾驶行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Autoencoder Regularized Network For Driving Style Representation Learning;Weishan Dong 等;《arXiv:1701.01272v1》;20170105;第1-7页 *
基于聚类分析的营运驾驶人危险驾驶行为研究;牛增良 等;《山东交通学院学报》;20140331;第19-23页 *

Also Published As

Publication number Publication date
CN109117869A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN109033332B (zh) 驾驶行为分析方法、介质及系统
CN109117869B (zh) 用户画像方法、介质及系统
CN110020797B (zh) 基于感知缺陷的自动驾驶测试场景的评价方法
CN109635852B (zh) 一种基于多维属性的用户画像构建与聚类方法
CN111688713B (zh) 驾驶行为分析方法和装置
CN107220583B (zh) 用于识别交通标志的方法和装置
CN106649709B (zh) 一种基于数据挖掘的车辆停留行为模式预测与评估方法
CN110942671A (zh) 车辆危险驾驶检测方法、装置以及存储介质
CN109886724B (zh) 一种鲁棒性的居民出行轨迹识别方法
CN111400533B (zh) 图像筛选方法、装置、电子设备和存储介质
US10913455B2 (en) Method for the improved detection of objects by a driver assistance system
US20180017402A1 (en) Method and system for vehicle speed profile generation
JP7051424B2 (ja) 異常検出装置
CN111707476A (zh) 一种面向自动驾驶汽车的纵向驾驶能力检测方法
CN113095387B (zh) 基于联网车载adas的道路风险识别方法
CN113701642A (zh) 一种车身外观尺寸的计算方法及系统
CN117216666A (zh) 一种基于计算机大数据的交通事故预估方法及系统
CN116753938A (zh) 车辆测试场景生成方法、装置、存储介质及设备
US10618524B2 (en) Method for determining a reference driving class
CN115204755A (zh) 服务区入区率测算方法、装置、电子设备及可读存储介质
KR102570295B1 (ko) 차량 및 그 제어 방법
CN114169426A (zh) 一种基于北斗位置数据的公路交通安全隐患排查方法
CN115035713A (zh) 智慧交通碳排放监测系统和方法
JP6677074B2 (ja) 運転診断装置
CN114999150A (zh) 路段拥堵判别方法、装置、车辆及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 361000 Innovation Building, Software Park, Xiamen Torch High-tech Zone, Fujian Province

Applicant after: Hanathan (Xiamen) data Limited by Share Ltd

Address before: 361000 5th Floor, 28 Guanri Road, Phase II Software Park, Siming District, Xiamen City, Fujian Province

Applicant before: Hanathan (Xiamen) data Limited by Share Ltd

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant