CN110969861B - 一种车辆识别方法、装置、设备及计算机存储介质 - Google Patents

一种车辆识别方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN110969861B
CN110969861B CN201911330042.0A CN201911330042A CN110969861B CN 110969861 B CN110969861 B CN 110969861B CN 201911330042 A CN201911330042 A CN 201911330042A CN 110969861 B CN110969861 B CN 110969861B
Authority
CN
China
Prior art keywords
information
vehicle
service information
taxi
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911330042.0A
Other languages
English (en)
Other versions
CN110969861A (zh
Inventor
董新
崔小丽
孙芳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Heilongjiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Heilongjiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Heilongjiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911330042.0A priority Critical patent/CN110969861B/zh
Publication of CN110969861A publication Critical patent/CN110969861A/zh
Application granted granted Critical
Publication of CN110969861B publication Critical patent/CN110969861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种车辆识别方法、装置、设备及计算机存储介质。该方法包括:获取待识别车辆的业务信息,业务信息包括通信行为信息和/或驾驶行为信息;将待识别车辆的业务信息输入预先训练的车辆识别模型,确定待识别车辆是否是目标类别车辆;或者,根据业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆。以解决识别车辆类别效率低、准确度不高的问题。

Description

一种车辆识别方法、装置、设备及计算机存储介质
技术领域
本发明属于信息处理领域,尤其涉及一种车辆识别方法、装置、设备及计算机存储介质。
背景技术
目前车辆识别主要通过借助高清监控、视频采集等硬件设备配合图像识别、形状识别、颜色识别等技术来实现。这种识别方案需要在软硬件上进行改造,投资较大。并且,目前市场上出现了大量不同品牌的网约车,从外观上看,网约车与普通车辆没有很大区别,通过外形、颜色是难以识别的。
因此,如何高效准确的识别车辆类别成为有待解决的问题。
发明内容
本发明实施例提供一种车辆识别方法、装置、设备及计算机存储介质,能够解决识别车辆类别效率低、准确度不高的问题。
第一方面,本申请提供了车辆识别方法,该方法包括:获取待识别车辆的业务信息,业务信息包括通信行为信息和/或驾驶行为信息;将待识别车辆的业务信息输入预先训练的车辆识别模型,确定待识别车辆是否是目标类别车辆;或者,根据业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆。
在一种可能的实现中,通信行为信息包括下述中的至少一项:应用程序(Application,APP)使用信息、通话话单信息、流量使用信息。
在一种可能的实现中,驾驶行为信息包括行驶轨迹信息。
在一种可能的实现中,业务信息还包括属性信息,属性信息包括下述中的至少一项:驾驶员性别信息、驾驶员年龄信息。
在一种可能的实现中,在将待识别车辆的业务信息输入预先训练的车辆识别模型之前,方法还包括:获取至少一个类别的多个车辆的业务信息;根据多个业务信息确定基础识别模型;基于基础识别模型输出的多个业务信息对应的车辆标签和多个业务信息预先标记的车辆标签,计算基础识别模型结果的损失值;根据损失值调整模型参数,得到车辆识别模型。
在一种可能的实现中,根据多个业务信息确定基础识别模型,包括:基于证据权重法(WOE)从业务信息中确定第一业务信息,第一业务信息包括目标类别车辆的特征阈值;根据第一业务信息,确定基础识别模型。
在一种可能的实现中,在根据业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆之前,方法还包括:获取至少一个类别的多个车辆的业务信息;从多个业务信息中确定目标类别车辆的特征信息,特征信息包括下述中的至少一项:行驶距离、工作时长和经过基站数量;根据目标类别车辆的特征信息确定车辆识别规则。
在一种可能的实现中,从多个业务信息中确定获取目标类别车辆的特征信息,包括:基于证据权重法WOE从业务信息中确定第一业务信息,第一业务信息包括目标类别车辆的特征阈值;根据第一业务信息,从多个业务信息中确定获取目标类别车辆的特征信息。
第二方面,本发明实施例提供了一种车辆识别装置,装置包括:获取模块,用于获取待识别车辆的业务信息,业务信息包括通信行为信息和/或驾驶行为信息;训练模块,用于将待识别车辆的业务信息输入预先训练的车辆识别模型,确定待识别车辆是否是目标类别车辆;或者,识别模块,用于根据业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆。
第三方面,本发明实施例提供了一种计算设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如第一方面所示的车辆识别方法。
第四方面,本发明实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面所示的车辆识别方法。
本发明实施例的车辆识别方法、装置、设备及计算机存储介质,通过根据车辆用户的通信行为信息和驾驶行为信息确定的出租车识别模型或者车辆识别规则对目标类别车辆进行识别,提高了车辆识别的效率和准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种车辆识别方法流程示意图;
图2是本发明实施例提供的一种实现车辆识别的方法流程示意图;
图3是本发明实施例提供的一种行驶轨迹信息示意图;
图4是本发明实施例提供的一种数据字典示意图;
图5是本发明实施例提供的一种数据变换示意图;
图6是本发明实施例提供的另一种数据变换示意图;
图7是本发明实施例提供的一种实现训练方法的示意图;
图8是本发明实施例提供的一种行为特征示意图;
图9是本发明实施例提供的装置的结构示意图;
图10是本发明实施例提供的示例性硬件架构的示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前的车辆识别主要通过借助高清监控、视频采集等硬件设备配合图像识别、形状识别、颜色识别等技术来实现。这种识别方案需要在软硬件上进行改造,投资较大。
以出租车的识别为例,市场现有的出租车辆识别主要以借助高清监控、视频采集等硬件设备配合图像识别、形状识别、颜色识别等技术来实现。比如,出租车车顶会有出租车标识、有些地区的出租车会统一颜色等。这种识别方案需要在软硬件上进行改造,投资较大。
并且针对目前市场上出现了如滴滴快的、优步、卡卡司机、小米司机等一批网约车,从外观上网约车与普通车辆有很大区别,通过外形、颜色是无法识别的。
随着近年来大数据的迅速发展,计算机性能的提高,在信息处理领域利用大数据来挖掘数据中蕴藏的价值,成为流行趋势。
为了解决目前车辆识别的部署投资大、识别范围有限的问题,可以根据车辆的位置变化信息、业务行为特点对车辆进行识别,既利用了现在已有的数据,降低了成本;又能扩大识别范围,提高识别效果,真正的达到了降本增效。基于此,本发明实施例提供了一种车辆识别方法。
下面对本发明实施例所提供的车辆识别方法进行描述。
图1所示为本发明实施例的车辆识别方法流程示意图。
如图1所示,该车辆识别方法可以包括S101-S103,具体如下所示:
S101,获取待识别车辆的业务信息,业务信息包括通信行为信息和/或驾驶行为信息。
获取待识别车辆的业务信息可以从多个维度出发,进行数据探索,提取有用信息。比如,出租车、网约车司机等用户日常移动范围广,就可以从通信行为信息,驾驶行为信息这种能体现车辆用户业务行为的信息中获取有效数据。
在一个实施例中,通信行为信息包括下述中的至少一项:应用程序APP使用信息、通话话单信息、流量使用信息。
首先,APP使用信息包括:使用打车应用程序的频次、使用流量、时长等。例如,随着市场的发展,打车软件已经慢慢进入人们生活的圈子里面,目前司机端打车软件包括:滴滴快的打车—司机版、卡卡司机、优步、小米司机、摇摇招车司机端、大黄蜂打车司机版、掌上司机端、爱打的司机端、顺风拼司机等。由此,出租车用户相对于普通用户使用司机端打车软件的概率更高,产生的业务行为不一样,如出租车用户使用司机端打车软件的频次更高、使用流量较高、时长会较长,可以通过分析安装司机版打车软件的用户行为特征,来识别出租车司机。
其次,通话话单信息包括:月通信人数、月通信次数、月主叫人数等话单信息。用户在通话、发消息或上网过程中,核心网网元记录相关计费信息,并发送计费消息到计费系统,再由计费系统生成话单。有些核心网网元可以直接产生话单,并发送到计费系统或计费中心。其中,话单是一种通信术语,指原始通信记录信息,又可以称之为详单、呼叫详细记录(Call Detail Record,CDR)。
其中,核心网是将业务提供者与接入网,或者,将接入网与其他接入网连接在一起的网络。通常指除接入网和用户驻地网之外的网络部分。可以把移动网络划分为三个部分,基站子系统,网络子系统核心网部分就是位于网络子系统内,核心网的主要作用把接收到的呼叫请求或数据请求,接续到不同的网络上。主要是涉及呼叫的接续、计费,移动性管理,补充业务实现,智能触发等方面。所以核心网网元可以记录相关计费信息。
由于不同类型的车辆通话话单信息的特点也不尽相同,可以通过分析司机通话详单的特点,来识别目标类别车辆。比如,部分出租车司机使用打车APP,司机需要通过电话与乘客联系,因此,此部分用户月通话次数比较多、通话圈人数较多、主叫次数较多等。
最后,流量使用信息包括:当月使用流量、近3个月使用流量均值、等。比如,出租车用户使用司机端打车软件相对普通用户频率会高,产生的流量相对普通用户使用流量占比会比较大。出租车司机用户需要识别乘客上车位置,下车位置,因此使用导航类软件产生的流量会较普通人高。所以可以通过分析用户的流量使用特点,来识别出租车用户。
在一个实施例中,驾驶行为信息包括行驶轨迹信息。
其中,行驶轨迹信息又包括:当月天行驶距离均值、当月高行驶比例、当月节假日行驶距离均值、当月节假日高行驶比例、当月天行驶经过基站数均值、当月节假日行驶经过基站数均值等。其中,基站即公用移动通信基站是无线电台站的一种形式,是指在一定的无线电覆盖区中,通过移动通信交换中心,与移动电话终端之间进行信息传递的无线电收发信电台。
不同类型的车辆行驶轨迹信息的特点也不尽相同。比如,出租车司机市内行驶路程较普通人群多,而且行驶路程路段相对不是很固定,通过分析用户行驶轨迹,记录用户每天经过的基站信息,计算行驶过程中经过的基站与基站之间的距离来拟合用户行驶路程,根据行驶路程识别出出租车用户。
在一个实施例中,业务信息还包括属性信息,属性信息包括下述中的至少一项:驾驶员性别信息、驾驶员年龄信息。
根据用户入网认证信息,提取部分用户基础属性信息。比如,用户的性别,用户的年龄,用户入网时长等。获取这些用户属性信息,可以为后续分析数据特点、挖掘目标车辆特征做准备。
至此,已经获取了应用程序APP使用信息、通话话单信息、流量使用信息、行驶轨迹信息、属性信息等车辆业务信息,接下来就可以根据上述信息建立车辆识别模型或者车辆识别规则,进而实现对目标车辆的识别。
S102,将待识别车辆的业务信息输入预先训练的车辆识别模型,确定待识别车辆是否是目标类别车辆。
在另一个实施例中,在将待识别车辆的业务信息输入预先训练的车辆识别模型之前,上述方法还包括:获取至少一个类别的多个车辆的业务信息;根据多个业务信息确定基础识别模型;基于基础识别模型输出的多个业务信息对应的车辆标签和多个业务信息预先标记的车辆标签,计算基础识别模型结果的损失值;根据损失值调整模型参数,得到车辆识别模型。
获取至少一个类别的多个车辆的业务信息,根据多个业务信息先确定一个基础识别模型,基础识别模型是一个精度不高的模型,所以接下来要用预先标记的车辆标签对基础识别模型训练,以得到一个精度较高的车辆识别模型。
其中,对基础识别模型训练的过程包括:将车辆的多个业务信息输入基础识别模型,输出多个业务信息对应的车辆标签,然后将基础识别模型输出的标签和预先标记的车辆标签进行对比并计算基础识别模型结果的损失值,根据损失值不断的调整模型参数,最终得到参数优化后的车辆识别模型。
以训练用于识别出租车的车辆识别模型为例进行叙述:训练识别出租车的车辆识别模型需要先获取样本集。样本集,是用于确定参与建模的数据,此模型的样本集包含2部分群体,一部分是打标签的出租车用户,另一部分是打标签的非出租车用户。随机抽取1000个出租车用户,再随机抽取10w非出租车用户,两部分用户组成样本集。然后从样本集中抽取训练集和测试集,基于训练集和测试集对模型进行训练。
训练集,用于训练模型的数据集,从样本集中抽取。在样本集用户中随机抽取700个出租车用户,还有7w随机全网非出租车用户。
测试集,用于用户评估模型效果的数据集,从样本集提取,样本集中抽取训练集,剩下的就是测试机。测试集包含300个出租车用户,还有3w随机全网非出租车用户。
根据上述打标签的出租车用户和打标签的非出租车用户,对识别出租车的车辆识别模型进行训练,不断的调整模型参数,最终得到参数优化后的车辆识别模型。
其中,识别出租车的车辆识别模型的输出可以包括多种出租车用户识别规则集,识别规则由出租车用户的业务特征信息及其阈值组成,比如:确定待识别车辆为非出租车用户的规则可以包括:年龄>50;和司机端打车软件使用时长<=0;和当月高行驶比例<=0.11;和月通行人数<=17;和月主叫次数比例<=0.63。
再比如,确定待识别车辆为出租车用户的规则可以包括:年龄>32;和月通信人数>37;和当月天行驶距离均值>37;且当月天行驶距离均值<236;和当月使用流量>2.32;和当月主要人数>48;和司机端打车软件使用频次>10。
在另一个实施例中,根据多个业务信息确定基础识别模型,包括:基于WOE从业务信息中确定第一业务信息,第一业务信息包括目标类别车辆的特征阈值;根据第一业务信息,确定基础识别模型。
其中,WOE用于衡量自变量取某个值的时候对违约比例的一种影响。在本发明的实施例中,可以基于WOE从业务信息中确定出能够反映目标车辆特征的业务信息和阈值,根据这些能够反映目标车辆特征的业务信息来进行模型训练,可以提高模型训练的效率和精准度。
以业务信息的属性信息中包括的驾驶员年龄为例:年龄是连续性变量,需要对其进行离散化处理,本过程对年龄分为6组,#Bad和#Good表示6组中出租车用户和非出租车用户的数量分布,Bad%和Good%表示6组中每组出租车用户占出租车用户总数比例,非出租车用户占非出租车用户总数比例,WOE=ln(Bad%/Good%),WOE反映的是在自变量每个分组下出租车用户对正常用户占比和总体中出租车用户对正常用户占比之间的差异,从WOE蕴含了自变量取值对于目标变量(出租车)的影响。详细数据如表1所示:
表1 WOE统计表
Figure GDA0003730296940000081
从表1中可以看出,年龄在[30,50]的WOE值为正数,说明此部分群体中出租车用户较非出租车用户比例大,WOE值为负值,说明此部分群体中的出租车用户较少,如果WOE值为0,说明此部分群体Good和Bad群体没有差别,此变量不能用于区分群体。
至此,基于车辆的业务信息确定了可以对目标类型的车辆进行识别的车辆识别模型。通过车辆识别模型来识别目标类型的车辆可以说是一种宽口径挖掘目标的过程,基于模型输出的结果能够尽可能覆盖所有的目标类别车辆,提高了查全率。
本发明的实施例还提供了一种查准率高的车辆识别方法,接下来通过S103所示的内容进行详细描述。
S103,根据业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆。
在又一个实施例中,在根据业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆之前,上述方法还包括:获取至少一个类别的多个车辆的业务信息;从多个业务信息中确定目标类别车辆的特征信息,特征信息包括下述中的至少一项:行驶距离、工作时长和经过基站数量;根据目标类别车辆的特征信息确定车辆识别规则。
其中,车辆的特征信息包括:用户行驶距离、每月工作天数、漫游数据等。对目标车辆群体的特征信息和非目标车辆群体的特征信息取交集或并集,确定车辆识别规则。
在又一个实施例中,从多个业务信息中确定获取目标类别车辆的特征信息,包括:基于证据权重法WOE从业务信息中确定第一业务信息,第一业务信息包括目标类别车辆的特征阈值;根据第一业务信息,从多个业务信息中确定获取目标类别车辆的特征信息。
这里的基于证据权重法WOE从业务信息中确定第一业务信息与S102中的内容一致,在此不再赘述。根据第一业务信息,从多个业务信息中确定获取目标类别车辆的特征信息,然后可以对目标车辆群体的特征信息取交集,得到精准度高的出租车用户识别规则。
因此,本发明实施例的提供的车辆识别方法,能够根据车辆用户的通信行为信息和驾驶行为信息确定的出租车识别模型或者车辆识别规则对目标类别车辆进行识别,提高车辆识别的效率和准确度。
为了便于理解本申请实施例提供的车辆识别方法,本发明实施例还提供了一种实现车辆识别的方法,如图2所示,该信息处理方法可以包括S210-S230,具体如下所示:
S210,数据准备过程。S220,数据探索过程。S230,数据建模过程。
下面,对S210-S230的内容分别进行描述:
首先介绍S210的具体实现方式。
S210从用户行驶轨迹、网约车APP使用行为、流量话单、通话话单、基础属性5个维度,提取31个字段作为样本数据字段。具体包括:
(1)用户行驶轨迹信息
出租车司机市内行驶路程较普通人群多,而且行驶路程路段相对不是很固定,通过分析用户行驶轨迹,记录用户每天经过的基站信息,计算行驶过程中经过的基站与基站之间的距离来拟合用户行驶路程,根据行驶路程识别出高概率出租车用户。处理过程如下:
首先,进行基站编码,即对市内的基站进行编号,确定基站编码表,具体格式如表2所示:
表2基站编码表
基站名 经度 纬度 位置信息 基站编号
其次,进行轨迹记录,即对每个用户按天提取行驶过程中经过的基站信息,并按时间顺序排列得到基站经纬信息表,具体格式如表3所示:
表3基站经纬信息表
用户号码 基站 经度 纬度 时间
下面以一组具体的行驶轨迹信息为例进行说明,图3是本发明实施例提供的一种行驶轨迹信息示意图,如图3所示,用户139***016从国际会议中心到尚品公寓经过了6个基站。
过程记录的数据记载于如表4所示的用户基站经纬信息表中:
表4用户基站经纬信息表
用户号码 基站 经度 纬度 时间
139***016 A 45.7509691544 126.6292470130 12:01:01
139***016 B 45.7493323786 126.6486252761 12:06:20
139***016 C 45.7463535676 126.6599837132 12:10:31
139***016 D 45.7492626327 126.6705097886 12:21:43
139***016 E 45.7474282689 126.6876785785 12:29:35
139***016 F 45.7496980802 126.6934995536 12:35:45
接着,进行数据变换,即根据用户行驶轨迹,记录每个路段的起始点基站与结束点基站,并根据起始点基站经纬度与结束点基站的经纬度信息,计算每个路段的距离,确定基站距离表,如表5所示:
表5基站距离表
用户号码 路段编号 起始点基站 结束点基站 距离
计算基站之间的距离首先可以设起始点经纬度为M(A,B),终点经纬度为N(C,D),则M与N之间的距离MN为:
Figure GDA0003730296940000111
公式(1)是基于下述计算思想得到的,地球是一个近乎标准的椭球体,其平均半径6371.004千米,如果我们假设地球是一个完美的球体,那么它的半径就是地球的平均半径。如果以0度经线为基准,那么根据地球表面任意两点的经纬度就可以计算出这两点间的地表距离(这里忽略地球表面地形对计算带来的误差,仅仅是理论上的估算值)。
设第一点M的经纬度为(A,B),第二点N的经纬度为(C,D),按照0度经线的基准,东经取经度的正值(Longitude),西经取经度负值(-Longitude),北纬取90-纬度值(90-Latitude),南纬取90+纬度值(90+Latitude),本专利针对国内通信用户而言,中国经纬度范围处于东经(约73.66~135.05)、北纬(约3.86~53.55)范围内,则经过上述处理过后的两点被计为(A,90-B)和(C,90-D)。另外,根据度数与弧度转换的公式,度数/360=弧度/2π,则弧度=度数*π/180.那么根据三角推导及勾股定理,可以得到计算以上两点距离的公式。
基于图3所示的例子,139***016从国际会议中心到尚品公寓经过了6个基站,利用公式(1)进行代入计算,每个路段之间的距离计算结果如表6的用户基站距离表所示:
表6用户基站距离表
用户号码 路段编号 起始点基站 结束点基站 距离(m)
139***016 1 A B 1040.90
139***016 2 B C 1278.39
139***016 3 C D 1186.28
139***016 4 D E 1912.97
139***016 5 E F 1040.90
由此可以计算得出139***016从国际会议中心到尚品公寓行驶的距离为:
sum(1040.90+1278.39+1186.28+1912.97+1040.90)=6459.44
然后,进行拟合路程计算,即根据用户行驶过程中经过的基站信息,计算用户每天行驶路程,数据以天为单位提取,具体格式如表7的用户基站路程表所示:
表7用户基站路程表
用户号码 日期 行驶距离(m) 经过基站数(基站集合,不重复)
139***016 1 57345 33
139***016 2 78146 46
…… …… ……
139***016 30 34686 24
最后,进行字段提取,即根据拟合后的行驶路程信息,以用户角度,提取如表8所示的衍生变量,即用户行驶轨迹信息字段表。
表8用户行驶轨迹信息字段表
Figure GDA0003730296940000131
(2)网约车用户APP行为信息
随着市场的发展,打车软件已经慢慢进入人们生活的圈子里面,目前主流的司机端打车软件有:滴滴快的打车—司机版、卡卡司机、优步、小米司机、摇摇招车司机端、大黄蜂打车司机版、掌上司机端、爱打的司机端、顺丰拼司机等。出租车用户相对于普通用户使用司机端打车软件的概率更高,产生的业务行为不一样,如使用司机端打车软件的频次更高、使用流量较高、时长会较长,通过分析安装司机版打车软件的用户行为特征,来识别高概率出租车司机。
深度包检测技术(Deep Packet Inspection,DPI))数据记录的是用户手机上网日志数据,DPI技术对网络应用及协议识别,采用识别数据内容的签名(类似于人体指纹)来进行辨别,DPI通过对IP数据包的内容进行分析,依据数据特征字查找或者业务的行为统计,得到相关业务流的类型、使用开始时间、结束时间、产生的流量等。
其中,DPI是一种基于应用层的流量检测和控制技术,当IP数据包、TCP或UDP数据流通过基于DPI技术的带宽管理系统时,该系统通过深入读取IP包载荷的内容来对开放式系统互联OSI(Open System Interconnection,OSI)七层协议中的应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。
出租车用户识别使用DPI数据,解析用户使用过的APP信息,筛选出使用司机端打车软件的数据,再进行衍生变量计算。提取的字段如表9,网约车用户APP行为信息字段表所示:
表9网约车用户APP行为信息字段表
Figure GDA0003730296940000141
(3)用户流量话单信息
出租车用户使用司机端打车软件相对普通用户频率会高,产生的流量相对普通用户使用流量占比会比较大。出租车司机用户需要识别乘客上车位置,下车位置,因此使用导航类软件产生的流量会较普通人高。分析用户的流量使用特点,来识别高概率出租车用户。需提取的字段如表10,用户流量话单信息字段表所示:
表10用户流量话单信息字段表
Figure GDA0003730296940000151
话单:指原始通信记录信息,又可以称之为详单、CDR;话单主要记录包括流水号、用户标识、主叫号码、被叫号码、起始时间、结束时间、通话时长、流量数据字节大小、通话性质等信息。
(4)用户通话话单信息
用户在通话、发消息或上网过程中,核心网网元记录相关计费信息,并发送计费消息到计费系统,再由计费系统生成话单。有些核心网网元可以直接产生话单,并发送到计费系统或计费中心。通过分析出租车司机通话详单特点,来识别高概率出租车用户。
部分出租车司机使用打车APP,司机需要通过电话与乘客联系,因此此部分用户月通话次数比较多,且通话圈人数较多、主叫次数较多。根据此群体特点提取的字段如表11,表11用户通话话单信息字段表所示:
表11用户通话话单信息字段表
Figure GDA0003730296940000161
(5)用户入网基础属性信息
根据用户入网认证信息,提取部分用户基础属性信息,提取的字段如表12,用户入网基础属性信息字段表所示:
表12用户入网基础属性信息字段表
字段 字段解释
性别 用户的性别,男/女
年龄 用户的年龄,根据登记使用身份证识别
品牌 全球通/神州行/动感地带/行业卡
入网时长 用户入网时长,单位为月
(6)数据信息汇总
从用户行驶轨迹、网约车APP使用行为、流量话单、通话话单、基础属性5个维度,提取31个字段作为样本数据字段作为数据字典。数据字典包括的具体字段如图4所示。
其次介绍S220的具体实现方式。
数据探索通过数据分析了解数据概况,通过数据选择、预处理、转换等一系列活动,来熟悉数据,甄别数据质量问题,发现对数据的真知灼见。
统计分析:根据数据字典,统计各个变量的最大值、最小值、平均值、标准差、偏度、中位数等的变量,分析出租车用户与非出租车用户这些变量的特征,找出出租车用户与非出租车用户哪些字段的差别比较大,重点关注,或以此产生衍生变量。
数据变换:对字段正态化是部分算法的要求,原始数据部分不是正态分布数据,通过对原始数据元素作变换,使其更接近正态分布。可通过Inverse(1/x)、Log(log n)、Log(log 10)等变换方式,如图5和图6所示,图5(a)中所示的司机端打车软件使用频次与图6(a)中所示的当月高行驶比例的示意图,数据偏向一边,一边密度很大。通过log10运算的数据变换后,分别得到图5(b)所示的司机端打车软件使用频次、和图6(b)所示的当月高行驶比例的示意图,数据变换后的数据分布接近正态分布,形如倒钟形曲线。
证据权重法WOE(Weight of Evidence):衡量自变量取某个值的时候对违约比例的一种影响。WOE公式为:
Figure GDA0003730296940000171
证据权重法的具体使用过程可参见S102中的描述,在此不再赘述。
确定数据的WOE之后,还可以根据WOE确定IV进一步探索数据,IV是衡量一个变量的信息量,公式如下:
Figure GDA0003730296940000172
Figure GDA0003730296940000173
IV是自变量WOE的一个加权求和,其值的大小可决定自变量对于目标变量的影响程度,本过程中使用WOE的证据权重法,分析自变量的重要程度,重点关注IV值高的自变量。还可以根据WOE来分析连续性变量分割方式,产生衍生变量。
最后介绍S230的具体实现方式。
S230中又包括:S231-S232,具体如下所示:
先介绍S231,宽口径挖掘出租车用户集。
宽口径挖掘出租车用户注重结果的查全率,最后预测的结果尽可能覆盖所有的出租车用户。宽口径挖掘出租车用户集的模型目标:挖掘潜在出租车用户,给潜在出租车用户打标签。
宽口径挖掘出租车用户集的样本集包括:确定参与建模的数据。此模型包含2部分群体,一部分是打标签的出租车用户,另一部分是打标签的非出租车用户。随机调查,抽取1000个出租车用户,全网非出租车用户随机抽取10w用户,两部分用户组成样本集
宽口径挖掘出租车用户集的训练集:用于训练模型的数据集,从样本集中抽取。在样本集用户中随机抽取700个出租车用户,还有7w随机全网非出租车用户
宽口径挖掘出租车用户集的测试集:用户评估模型效果的数据集,从样本集提取,样本集中抽取训练集,剩下的就是测试机。测试集包含300个出租车用户,还有3w随机全网非出租车用户
宽口径挖掘出租车用户集的使用算法:决策树。决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种有监督的学习方法,根据数据的值从树根开始搜索,沿着数据满足的分值往上走,走到树叶就能确定类别。
决策树生成过程包括:树以代表训练样本的单个结点开始,包含所有的样本集合;如果样本都在同一个类,则该结点成为树叶,并用该类标记。否则,算法选择信息增益最大的属性作为决策树的当前结点。根据当前决策结点属性取值的不同,将训练样本数据集划分为若干子集,每个取值形成一个分枝,有几个取值形成几个分枝。
针对上一步得到的一个子集,重复进行先前步骤,递归形成每个划分样本上的决策树。一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它。递归是把问题转化为规模缩小了的同类问题的子问题。然后递归调用函数(或过程)来表示问题的解。
决策树的递归划分步骤仅当下列条件之一成立时停止:给定结点的所有样本属于同一类;没有剩余属性可以用来进一步划分样本.在这种情况下.使用多数表决,将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记。
基于决策树的分类模型使用信息增益的方法选择分枝属性,选择最高信息增益的属性作为当前节点的测试属性,过程如下:
第一,确定样本分类信息熵,分类信息熵如公式(5)所示:
Figure GDA0003730296940000191
其中,U用于表示集合,集合有u个元组;m用于表示分类个数;ui用于表示每个类的样本数,u1+u2+……+um=u;
Figure GDA0003730296940000192
用于表示U样本属于每个分类的概率估计值
关于信息熵,信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。香农提出了“信息熵”的概念,解决了对信息的量化度量问题;在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。
若信源符号有n种取值:U1…Ui…Un,对应概率为:u1/u、u2/u…,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E),可称为信息熵。
第二,值域{a1,a2,……,av}的属性A可以将U划分为子集{U1,U2,……,Uv},其中Uj包含U中A值的aj的那些样本,设Uj包含第i类给定样本分类的uij个样本。根据A划分的期望信息作为A的熵,如公式(6)所示:
Figure GDA0003730296940000201
第三,A进行的划分获得的信息增益如公式(7)所示:
Gain(A)=I(u1,u2,……,um)-E(A) 公式(7)
根据信息增益计算方法,每一步选择分枝属性时,选择信息增益值最大的属性。至此,完成了宽口径挖掘出租车用户集的决策树的构建。
图7是本发明实施例提供的一种实现训练方法的示意图,如图7所示,根据建模字段和目标标签,利用决策树算法确定模型规则结果集,对模型结果规则集进行模型评估,如果模型评估结果不合格,则调整模型参数,如果模型评估结果合格,则输出模型结果。
其中,建模字段是排除WOE分析结果的数据字典字段,目标标签用于表示是否是出租车司机,包括:是:标签值为1,否:标签值为0。
模型中的算法包括:决策树、代码实现(如:python),具体过程包括:加载需要的包、数据读入、标签转换为0/1、拆分训练数据与测试数据、使用信息熵作为划分标准,对决策树进行训练,系数反映每个特征的影响力。越大表示该特征在分类中起到的作用越大、写决策树结构、计算查全率与查准率等。
模型结果:输出决策树模型结果规则集。
模型评估:测试集的查全率。
调整参数:根据模型结果,可调整训练集中的出租车用户与非出租车用户的比率,其调整到一个合适的值才能是查全率与查准率在一个合理的范围,不会偏向一边。还可调整决策树的误分类损失参数,避免过拟合到一个分类,根据数据集大小,调节决策树叶子节点数,叶子节点数过大模型会过拟合,太小会影响建模的效果。建模过程中通过不断的建立模型,评估模型,调整相关的参数,最后得到比较优化的模型用于实际应用中。
模型输出:规则集,根据规则集可判断用户是否为出租车用户。具体的规则集至少如表13,规则集信息表所示:
表13规则集信息表
Figure GDA0003730296940000211
然后,介绍S232,严口径挖掘出租车用户集。
宽口径通过模型在全量用户中识别出出租车用户,查全率高,查准率低些,作用是找出更多的出租车行为特征的用户。严口径模型是根据规则一步一步剔除分离用户,最后留下的是高概率的出租车用户,查全率低,查准率高。
严口径模型主要根据出租车用户行为进行特征筛选,构建出租车用户识别规则,通过多种规则的叠加精准识别出租车用户。严口径识别准确度非常高,但会损失一部分覆盖度。严口径出租车用户识别过程如下:
首先,对租车司机行为特征梳理。图8是本发明实施例提供的一种行为特征示意图,如图8所示:对出租车司机的业务场景进行走访,发现出则车司机的业务特点包括:专职司机,工作时间久、每天十几小时在路上、多数为白晚两班倒、行驶路线随机、可能安装滴滴打车等APP。
根据上述出租车司机的业务特点进行数据归纳,可知出租车斯基的数据行为特征包括:每月休息时间少、工作时间长、行驶距离远、白班晚班两个司机、经过的基站个数多、安装滴滴打车等司机客户端。
然后,基于图8所示的出租车司机行为特征构建识别规则,具体包括:A、用户行驶距离的筛选
出租车属交通行业,出租车司机每日工作十几小时,大部分时间在行驶过程中,因此出租车司机的最显著特征是每天形式路程较远。按每天工作12小时,其中6小时在行驶中,平均行驶时速30公里/小时,则出租车司机每日行驶距离至少180公里。根据用户信令位置信息,可统计如下表14所示的用户行驶距离表:
表14用户行驶距离表
Figure GDA0003730296940000221
其中,距离根据当前基站与下个基站的经纬度统计,用时根据起始时间和结束时间统计,时速根据“距离除以用时”计算。
在两个基站重合的区域,会出现基站漂移的情况,该情况可根据时速做剔除,如用户从基站A进入基站B区域,但是可能从基站A瞬间漂移到基站C再漂移到基站A,然后进入基站B,发生基站漂移时,其时速是很快的,几秒内产生几百米的距离,假设10秒产生300米距离,则计算的时速会达到108公里/小时,显然是不合理的。
由此可统计出用户每天行驶的距离,选择180公里以上的用户作为疑似出租车司机用户群A。
B、每月工作天数筛选
出租车司机每月的高额“份子钱”使得出租车司机每月休息时间比较少,并且节假日照常工作。因此出租车司机的另一个特征是每月行驶180公里以上的天数很多,至少24天以上。
根据该特征,统计用户群A当月行驶180公里以上的天数超过24天,作为疑似出租车司机用户群B
C、基站数量筛选
出租车司机因行驶路线的随机性,其经过的基站数量较三点一线的上班族、学生等群体明显偏多。
根据该特征,出租车司机每天至少行驶180公里,因出租车多在市区行驶,假设市区基站覆盖直径范围为1千米,则出租车司机至少经过180个基站。但因为行驶线路的随机性,部分基站会多次经过,因此选择基站数量超过50个的天数超过24天的用户作为疑似出租车用户群C。基站客户可通过分析真实出租车司机的行为路径统计。
D、每天工作时间筛选
出租车司机每天处于长时间的车辆驾驶过程中。即导致其时速超过30公里/每小时的时间较其他行业人员久。
统计每天时速超过30公里/小时的累积时间和,超过4小时即240分钟的用户作为疑似出租车用户群D。阀值设置越高,数据精准度越高。
E、APP安装列表及使用频次筛选
出租车司机可能会安装打车软件抢单,目前比较流行的打车软件中,滴滴打车支持出租车抢单,但Uber只支持私家车。
根据该特征,安装Uber司机客户端的用户多为私家车主,非出租车,该部分用户群为显著非出租车用户群体E,予以剔除。
F、漫游筛选
出租车司机多在市内行驶,部分出租车存在跨市送客的情况,但是次数会偏少,因此出租车司机的省内漫游与省级漫游次数相对偏少(重大节假日除外)。
根据该特征,将跨市或跨省漫游较频繁的用户作为显著非出租车用户群体F,予以剔除。
接着,对出租车用户精准识别,根据前述A-F的群体划分,可以得出:出租车用户群=群体A∩群体B∩群体C∩群体D,剔除群体E与群体F
最后,进行准确性分析,出租车属于交通运输客运行业,其行为特征较明显,但与其行为特征相似的其他交通行业从业者,如公交车司机、货运司机等,不包含在识别的模型中,是模型准确性的重要保障。准确性分析如下所示:
A、公交车司机
公交车司机每天驾驶公交车,从起始站到终点站N个来回,其行驶距离可能会超过180公里,但公交车司机的特征是行驶路线固定,即其经过的基站个数虽然也较多,但不会达到出租车经过的基站个数。用户群C已将公交车司机过滤。
公交车司机一般每周休息2天,即一个月休息8天,故其每月行驶超过180公里的总天数少于23天。用户群B进一步将公交车司机过滤。
B、地铁司机
地铁司机其每天行驶路程及速率均符合出租车司机特征,但其行驶路线固定,即用户群C已将地铁司机过滤。
C、专车司机
专车与出租车行为特征非常相似,如时速、里程数、基站数等。但也有其自身的显著特征,如安装有打车软件司机客户端,其中因Uber不支持出租车,故安装Uber的司机为专车司机,而专车司机安装两款打车软件的可能性非常高。用户群E已将部分专车司机过滤。
专车司机多为兼职,即其每月行驶180公里的天数不会过多,其每天工作时间不会过长。用户群B、D已将更多部分的专车司机过滤。
如果专车司机专职且每天工作时间很长,则通过专车司机交往圈进行过滤。专车司机的显著特征是接单后会与用户通话确定用户的具体方位,其通话交往圈人数多、主叫多、固定交往圈占比非常小。而目前的打车市场中,安装打车软件的出租车司机不会出现如此显著特征。
D、市内/市际/省际客运司机
市内客运司机与公交车司机类似,在城市与乡村来回行驶,其特征是路线固定,即经过的基站个数较少,用户群C已将其过滤。
市际/省际客运司机会出现固定的省内或省际漫游,用户群F已做剔除。
E、市内货运司机
市内货运司机包括物流、农产品运输车、超市货物运输车、油罐车等,但其司机行为特征与出租车显著不同,如里程数、行驶天数、行驶时长、路线随机等,故该部分用户会被出租车识别规则过滤。
F、私家车及商务用车
私家车主及商务车司机与出租车司机特征显著不同,可被识别规则过滤,即识别的严口径用户中基本不会包括私家车及商务用车司机。
因此,基于现有通信网络和基站,结合用户的通信行为,通过数据挖掘工具和算法,形成车辆识别模型,无需大范围部署监控和视频采集设备,减少投资。而且由于通信网络部署基本实现全覆盖,用户终端在正常开机状态下与基站的交互也是持续的,所以识别范围基本在正常状态下是无范围限制的。另外,本发明的实施例提供的车辆识别方法与用户车辆形状、颜色等外观无关,无论是出租车公司运营车辆、互联网运营车辆或者私家车,均可进行识别。提高了车辆识别的效率和准确度。
图9所示为本发明实施例的装置的结构框图。
如图9所示,该装置900可以包括:
获取模块910,用于获取待识别车辆的业务信息,业务信息包括通信行为信息和/或驾驶行为信息。
获取模块910具体用于通信行为信息包括下述中的至少一项:应用程序APP使用信息、通话话单信息、流量使用信息。
获取模块910具体用于驾驶行为信息包括行驶轨迹信息。
获取模块910具体用于业务信息还包括属性信息,属性信息包括下述中的至少一项:驾驶员性别信息、驾驶员年龄信息。
训练模块920,用于将待识别车辆的业务信息输入预先训练的车辆识别模型,确定待识别车辆是否是目标类别车辆。
训练模块920还用于在将待识别车辆的业务信息输入预先训练的车辆识别模型之前,获取至少一个类别的多个车辆的业务信息;根据多个业务信息确定基础识别模型;基于基础识别模型输出的多个业务信息对应的车辆标签和多个业务信息预先标记的车辆标签,计算基础识别模型结果的损失值;根据损失值调整模型参数,得到车辆识别模型。
训练模块920还用于基于证据权重法WOE从业务信息中确定第一业务信息,第一业务信息包括目标类别车辆的特征阈值;根据第一业务信息,确定基础识别模型。
或者,识别模块930,用于根据业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆。
识别模块930还用于在根据业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆之前,获取至少一个类别的多个车辆的业务信息;从多个业务信息中确定目标类别车辆的特征信息,特征信息包括下述中的至少一项:行驶距离、工作时长和经过基站数量;根据目标类别车辆的特征信息确定车辆识别规则。
识别模块930还用于基于证据权重法WOE从业务信息中确定第一业务信息,第一业务信息包括目标类别车辆的特征阈值;根据第一业务信息,从多个业务信息中确定获取目标类别车辆的特征信息。
该实施例提供的处理装置的各个模块可以实现图1中的方法,实现图1方法的技术效果,为简洁描述,在此不再赘述。
图10示出了本发明实施例提供的车辆识别方法的硬件结构示意图。
车辆识别设备可以包括处理器1001以及存储有计算机程序指令的存储器1002。
具体地,上述处理器1001可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器1002可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器1002可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器1002可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器1002可在综合网关容灾设备的内部或外部。在特定实施例中,存储器1002是非易失性固态存储器。在特定实施例中,存储器1002包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器1001通过读取并执行存储器1002中存储的计算机程序指令,以实现上述实施例中的任意一种车辆识别方法。
在一个示例中,车辆识别设备还可包括通信接口1003和总线1010。其中,如图10所示,处理器1001、存储器1002、通信接口1003通过总线1010连接并完成相互间的通信。
通信接口1003,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线1010包括硬件、软件或两者,将车辆识别设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1010可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该处理设备可以执行本发明实施例中的车辆识别方法,从而实现结合图1至图8描述的车辆识别方法。
另外,结合上述实施例中的车辆识别方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意车辆识别方法。
需要明确的是,本发明实施例并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明实施例的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明实施例的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为软件方式,本发明实施例的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明实施例不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种车辆识别方法,其特征在于,所述方法包括:
获取待识别车辆的业务信息,所述业务信息包括通信行为信息和/或驾驶行为信息;
根据所述业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆,所述目标类别车辆为出租车;
其中,所述根据所述业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆之前,所述方法还包括:
获取至少一个类别的多个车辆的业务信息;
从多个所述业务信息中确定目标类别车辆的特征信息,所述特征信息包括:经过基站数量、行驶距离以及工作时长,对目标类别车辆群体的特征信息和非目标车辆群体的特征信息取交集或并集,确定车辆识别规则;
其中所述车辆识别规则包括所述经过基站数量大于预设基站数量阈值的天数超出预设天数;
所述从多个所述业务信息中确定目标类别车辆的特征信息,包括:
基于证据权重法WOE从所述业务信息中确定第一业务信息,所述第一业务信息包括目标类别车辆的特征阈值;
根据所述第一业务信息,从多个业务信息中确定目标类别车辆的特征信息。
2.根据权利要求1所述的方法,其特征在于,所述通信行为信息包括下述中的至少一项:应用程序APP使用信息、通话话单信息、流量使用信息。
3.根据权利要求1所述的方法,其特征在于,所述驾驶行为信息包括行驶轨迹信息。
4.根据权利要求3所述的方法,其特征在于,所述业务信息还包括属性信息,所述属性信息包括下述中的至少一项:驾驶员性别信息、驾驶员年龄信息。
5.一种车辆识别装置,其特征在于,包括:
获取模块,用于获取待识别车辆的业务信息,所述业务信息包括通信行为信息和/或驾驶行为信息;
识别模块,用于根据所述业务信息和预先确定的车辆识别规则确定待识别车辆是否是目标类别车辆,所述目标类别车辆为出租车;
识别模块,还用于获取至少一个类别的多个车辆的业务信息;
从多个所述业务信息中确定目标类别车辆的特征信息,所述特征信息包括:经过基站数量、行驶距离以及工作时长,对目标类别车辆群体的特征信息和非目标车辆群体的特征信息取交集或并集,确定车辆识别规则;
其中所述车辆识别规则包括所述经过基站数量大于预设基站数量阈值的天数超出预设天数;
所述从多个所述业务信息中确定目标类别车辆的特征信息,包括:
基于证据权重法WOE从所述业务信息中确定第一业务信息,所述第一业务信息包括目标类别车辆的特征阈值;
根据所述第一业务信息,从多个业务信息中确定目标类别车辆的特征信息。
6.一种计算设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的方法。
7.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的方法。
CN201911330042.0A 2019-12-20 2019-12-20 一种车辆识别方法、装置、设备及计算机存储介质 Active CN110969861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911330042.0A CN110969861B (zh) 2019-12-20 2019-12-20 一种车辆识别方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911330042.0A CN110969861B (zh) 2019-12-20 2019-12-20 一种车辆识别方法、装置、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110969861A CN110969861A (zh) 2020-04-07
CN110969861B true CN110969861B (zh) 2022-10-14

Family

ID=70035561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330042.0A Active CN110969861B (zh) 2019-12-20 2019-12-20 一种车辆识别方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110969861B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699942A (zh) * 2020-12-30 2021-04-23 东软睿驰汽车技术(沈阳)有限公司 一种运营车辆识别方法、装置、设备及存储介质
CN113887741B (zh) * 2021-11-05 2022-09-30 深圳市电子商务安全证书管理有限公司 基于联邦学习的数据生成方法、装置、设备及存储介质
CN114187489B (zh) * 2021-12-14 2024-04-30 中国平安财产保险股份有限公司 车辆异常驾驶风险检测方法、装置、电子设备及存储介质
CN114626453A (zh) * 2022-03-10 2022-06-14 平安科技(深圳)有限公司 车辆识别方法、识别系统、设备及介质
CN114422973B (zh) * 2022-03-30 2022-06-28 北京融信数联科技有限公司 一种基于大数据的网约车司机智能识别方法、系统及可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050012929A (ko) * 2003-07-25 2005-02-02 삼성에스디에스 주식회사 비접촉 센서를 이용한 차량 분류 시스템 및 그 방법
CN101783076B (zh) * 2010-02-04 2012-06-13 西安理工大学 一种视频监控模式下的快速车型识别方法
CN102355664A (zh) * 2011-08-09 2012-02-15 郑毅 一种基于用户的社交网络对用户身份进行识别与匹配的方法
CN104320525B (zh) * 2014-09-19 2017-08-15 小米科技有限责任公司 电话号码识别方法及装置
US9997071B2 (en) * 2014-12-02 2018-06-12 Operr Technologies, Inc. Method and system for avoidance of parking violations
CN105118297A (zh) * 2015-08-19 2015-12-02 中国科学院上海微系统与信息技术研究所 一种车辆类型分类检测识别系统和方法
CN105657659A (zh) * 2016-01-29 2016-06-08 北京邮电大学 一种识别打车业务中刷单用户的方法和系统
CN106096224A (zh) * 2016-05-10 2016-11-09 深圳前海信息技术有限公司 对无序分类变量信息无损分组的方法及装置
CN106875066B (zh) * 2017-02-28 2021-06-11 百度在线网络技术(北京)有限公司 用车出行行为的预测方法、装置、服务器以及存储介质
CN107463940B (zh) * 2017-06-29 2020-02-21 清华大学 基于手机数据的车辆类型识别方法和设备
CN109784351B (zh) * 2017-11-10 2023-03-24 财付通支付科技有限公司 行为数据分类方法、分类模型训练方法及装置
CN109785634B (zh) * 2017-11-13 2021-06-29 厦门雅迅网络股份有限公司 基于基站切换的车型识别方法及计算机可读存储介质
CN108021933B (zh) * 2017-11-23 2020-06-05 深圳市华尊科技股份有限公司 神经网络识别装置及识别方法
CN109145982A (zh) * 2018-08-17 2019-01-04 上海汽车集团股份有限公司 驾驶员的身份识别方法及装置、存储介质、终端

Also Published As

Publication number Publication date
CN110969861A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110969861B (zh) 一种车辆识别方法、装置、设备及计算机存储介质
Hess et al. Developing advanced route choice models for heavy goods vehicles using GPS data
CN109754594A (zh) 一种路况信息获取方法及其设备、存储介质、终端
US20140108058A1 (en) Method and System to Determine Auto Insurance Risk
CN112447041B (zh) 识别车辆的营运行为的方法、装置及计算设备
Chakirov et al. Use of public transport smart card fare payment data for travel behaviour analysis in Singapore
Yang et al. Vemo: Enabling transparent vehicular mobility modeling at individual levels with full penetration
CN110298516B (zh) 一种基于客流od数据的拆分过长公交线路的方法、装置、移动端设备及服务器
CN110853156B (zh) 融合公交gps轨迹与ic卡数据的乘客od识别方法
CN114501336B (zh) 一种公路出行量测算方法、装置、电子设备及存储介质
CN111144446A (zh) 一种基于时空网格的司机身份识别方法和系统
CN114841712B (zh) 网约车巡游违规运营状态的确定方法和装置及电子设备
CN115862331A (zh) 考虑卡口网络拓扑结构的车辆出行轨迹重构方法
CN108665084B (zh) 一种对驾驶风险的预测方法及系统
Guo et al. Exploring potential travel demand of customized bus using smartcard data
Zong et al. Identifying travel mode with GPS data
Zou et al. Measuring retiming responses of passengers to a prepeak discount fare by tracing smart card data: a practical experiment in the Beijing subway
Jang et al. Pedestrian mode identification, classification and characterization by tracking mobile data
CN112601187B (zh) 基于手机信令的公交常乘客预测方法与系统
Nair et al. Mapping bus and stream travel time using machine learning approaches
Bagheri et al. A Computational Framework for Revealing Competitive Travel Times with Low‐Carbon Modes Based on Smartphone Data Collection
Danalet et al. The potential of smartphone data for national travel surveys
Holleczek et al. Digital breadcrumbs: Detecting urban mobility patterns and transport mode choices from cellphone networks
Vitello et al. TransitCrowd: Estimating Subway Stations Demand with Mobile Crowdsensing Data
Fan et al. Estimation of origin-destination matrix and identification of user activities using public transit smart card data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant