CN110544151A - 确定用户是否为网约车司机的方法及设备 - Google Patents
确定用户是否为网约车司机的方法及设备 Download PDFInfo
- Publication number
- CN110544151A CN110544151A CN201910767190.2A CN201910767190A CN110544151A CN 110544151 A CN110544151 A CN 110544151A CN 201910767190 A CN201910767190 A CN 201910767190A CN 110544151 A CN110544151 A CN 110544151A
- Authority
- CN
- China
- Prior art keywords
- index set
- behavior
- feature
- car booking
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000006399 behavior Effects 0.000 claims abstract description 23
- 230000003542 behavioural effect Effects 0.000 claims 2
- 230000003796 beauty Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请涉及确定用户是否为网约车司机的方法及设备。在一个实施例中,本申请提供了一种确定用户是否为网约车司机的方法,其包括:分析网约车司机群体的行为特征;将所述行为特征与大数据相关联,确定所述网约车司机群体的特征指标集,其中所述大数据包括运营商数据、手机APP使用数据以及保险数据中的一个或多个;对所述特征指标集降维;基于无监督学习算法对所降维后的特征指标集建立模型;以及基于所建立的模型来确定所述用户是否输入所述网约车司机群体。
Description
技术领域
本申请涉及大数据领域,具体来说,涉及一种确定用户是否为网约车司机的方法及设备。
背景技术
互联网时代,数据作为一切价值的基础,其平台垄断性无可避免。网约车行业亦是如此,因此针对网约车司机的精准营销无法有效开展。
因此,急需一种方法,来破除平台垄断、消除数据孤岛,挖掘大量的网约车司机,提供相关精确营销服务。
发明内容
本申请的一个实施例公开了:一种确定用户是否为网约车司机的方法,其包括:分析网约车司机群体的行为特征;将所述行为特征与大数据相关联,确定所述群体网约车司机的特征指标集,其中所述大数据包括运营商数据、手机APP使用数据以及保险数据中的一个或多个;对所述特征指标集降维;基于无监督学习算法对所降维后的特征指标集建立模型;以及基于所建立的模型来确定所述用户是否输入网约车司机。
本申请的另一个实施例公开了:一种基于修正余弦相似度的冲突度量设备,其包括:存储器,其经配置以存储指令;以及处理器,其经配置以执行所述存储器里存储的指令,所述指令致使所述处理器以:分析网约车司机群体的行为特征;将所述行为特征与大数据相关联,确定所述网约车司机群体的特征指标集,其中所述大数据包括运营商数据、手机APP使用数据以及保险数据中的一个或多个;对所述特征指标集降维;基于无监督学习算法对所降维后的特征指标集建立模型;以及基于所建立的模型来确定所述用户是否输入网约车司机群体。
附图说明
图1展示了根据本申请的一种确定用户是否为网约车司机的方法。
具体实施方式
为了解决上述技术问题,本申请提供了一种确定用户是否为网约车司机的方法。该方法有效破除平台垄断和数据孤岛带来的营销限制,以网约车司机日常生活中产生的海量运营商数据为基础,采用无监督学习算法实现海量网约车司机挖掘,为后续场景的精确营销提供服务。
图1展示了根据本申请的一种确定用户是否为网约车司机的方法。
在步骤101中,本申请首先分析网约车司机群体的行为特征。具体来说,网约车司机群体基础信息和行为信息的特征分析如下:
(1)基于成为约车平台的网约车司机的前提条件,网约车司机这个群体均是有车一族。
(2)处于利益和隐私上的考虑,相当一部分网约车司机有多个号码。
(3)在网约车司机群体的性别上,与普通出租车司机有明显不同的分布,该群体中几乎没有女性司机。
(4)网约车司机群体因其工作的性质,决定了他们在账期内几乎不可能有停机的情况,或者停机时长非常短。
(5)他们使用相关的约车APP。该专用的APP由一些特定的约车平台提供,如滴滴、美团等,而相关的名称有“滴滴车主”,“美团打车司机版”等。
(6)特定APP使用的前提是连接网络,因此,一般情况下,网约车司机用户的在网时长数大,且连续而稳定。
(7)网约车司机在接到约车请求后接到乘客前,通常会联系约车乘客。这样,网约车司机的联系人规模会随着接到订单数量的增加而增加,并且联系次数都非常少。
(8)网约车司机接到乘客后,将乘客送到目的地,其位置一般会有若干公里的变化。
(9)有很大一部分网约车司机在行驶的过程中利用第三方的导航软件如高德地图、百度地图等手机APP定位目的地。
(10)网约车司机群体通常不会跨城际接单,因此很少出现手机漫游的情况(外地号码在本地使用除外)。
(11)网约车司机群体相对其他行业在工作的过程中遇到的风险较大,他们在普通的车险之外,通常会有个人额外的保险。
接着,在步骤102中,本申请将网约车司机的行为特征与大数据相关联,并确定网约车司机群体的特征指标集,其中大数据可能包括运营商数据、手机APP使用数据以及保险数据等等。
具体来说,基于分析的网约车的基本信息和行为特点,结合运营商大数据进行关联性的再分析,有如下指标与网约车司机群体有很高的关联。
在步骤103中,本申请对所述特征指标集降维,其包括如下两个步骤:
步骤一:去除强相关属性
基于选择的特征指标集进行标准化,利用如下公式,将指标的值映射到相同的区间中。
其中是变换后的值,x是指标值原始的值,xm i n为当前指标值中的最小值,xmax为当前指标值中的最大值。
步骤二:主成分分析
按照上述的特征指标集选取原始数据,对原始数据进行去中心化:
计算去中心化后的数据,得到其协方差矩阵。求出其特征值组和相应的特征向量组,取出前17个特征值对应的指标列,即为最终提取的特征。
结合特征值和相关特征的重要性将上述特征重新组织顺序如下:是否安装了网约车平台类APP、是否有车一族、月均国内漫游城市个数、性别、手机号异地使用标识、月均通话联系人数量、月均主叫次数、当月套餐外语音费用、月均本地通话时长、位置稳定度、在网时长(月)、月均语音费用、月均流量费用、通话次数稳定度、欠费停机次数、双停天数以及是否购买保险,形成降维后的特征指标集,并将降维后的特征指标集作为后续处理的标准输入数据。
在步骤104中,本申请的方法基于无监督学习算法对标准输入数据建立模型。以标准输入数据为基础,将k取3-10做聚类分析,计算每个点到其指定的簇中心的距离,并求和,对得到的结果进行比较,取最小值时的k为最终的聚类结果。即:
对每个簇的结果进行反标准化处理,使其变换到原来的维度并具备原本具有的含义。对找到的聚类结果的几个簇中心进行分析:
特征子集A | 值 |
是否安装了网约车平台类APP | 1 |
是否有车一族 | 1 |
月均国内漫游城市个数 | 0 |
性别 | 0 |
手机号异地使用标识 | 0 |
位置稳定度 | 0 |
对于上述几个重要属性相同的簇中心进行合并,合并的规则为:
最后,在步骤105中,本申请基于所建立的模型来确定所述用户是否输入网约车司机。
基于聚类输出的特征规则进行是否网约车司机判定,判定规则如下:
通过上述方法,本申请深度分析了营销场景的目标群体覆盖度与用户数据行业垄断/数据孤岛的突出矛盾,基于大数据,从网约车司机群体的基础信息和行为特点入手分析,选取合适的特征指标,采用无监督学习算法构建网约车司机群体的识别模型,为后续精准营销提供更全面的用户覆盖。
虽然本文中描述的实施例可具有各种修改及替代形式,但是特定实施例已在图式中通过实例展示且已在本文中予以详细描述。本发明并不限于所揭示的特定形式。本发明涵盖落于如由权利要求书定义的本发明的精神及范围内的所有修改、等效物及替代。
Claims (8)
1.一种确定用户是否为网约车司机的方法,其包括:
分析网约车司机群体的行为特征;
将所述行为特征与大数据相关联,确定所述网约车司机群体的特征指标集,其中所述大数据包括运营商数据、手机APP使用数据以及保险数据中的一个或多个;
对所述特征指标集降维;
基于无监督学习算法对所降维的特征指标集建立模型;以及
基于所建立的模型来确定所述用户是否属于所述网约车司机群体。
2.根据权利要求1所述的方法,其中所述行为特征包括:基础信息、消费行为、通信行为、综合行为以及特殊行为中的一个或多个。
3.根据权利要求1所述的方法,其中对所述特征指标集降维进一步包括:
解决维数灾难,同时根据特征值和重要性调整所述特征指标集的顺序,形成所降维后的特征指标集。
4.根据权利要求1所述的方法,其中基于无监督学习算法对所降维后的特征指标集建立模型进一步包括:
对所降维后的特征执行聚类分析,合并重要属性相同的簇中心,提取聚类出的特征规则。
5.一种确定用户是否为网约车司机的设备,其包括:
存储器,其经配置以存储指令;以及
处理器,其经配置以执行所述存储器里存储的指令,所述指令致使所述处理器以:
分析网约车司机群体的行为特征;
将所述行为特征与大数据相关联,确定所述网约车司机群体的特征指标集,其中所述大数据包括运营商数据、手机APP使用数据以及保险数据中的一个或多个;
对所述特征指标集降维;
基于无监督学习算法对所降维的特征指标集建立模型;以及
基于所建立的模型来确定所述用户是否属于所述网约车司机群体。
6.根据权利要求5所述的设备,其中所述行为特征包括:基础信息、消费行为、通信行为、综合行为以及特殊行为中的一个或多个。
7.根据权利要求5所述的设备,其中所述处理器进一步经配置以:
解决维数灾难,同时根据特征值和重要性调整所述特征指标集的顺序,形成所降维后的特征指标集。
8.根据权利要求5所述的设备,其中所述处理器进一步经配置以:
对所降维后的特征执行聚类分析,合并重要属性相同的簇中心,提取聚类出的特征规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767190.2A CN110544151A (zh) | 2019-08-20 | 2019-08-20 | 确定用户是否为网约车司机的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767190.2A CN110544151A (zh) | 2019-08-20 | 2019-08-20 | 确定用户是否为网约车司机的方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110544151A true CN110544151A (zh) | 2019-12-06 |
Family
ID=68711659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910767190.2A Pending CN110544151A (zh) | 2019-08-20 | 2019-08-20 | 确定用户是否为网约车司机的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110544151A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170109852A1 (en) * | 2014-03-31 | 2017-04-20 | Hitachi Kokusai Electric Inc. | Personal safety verification system and similarity search method for data encrypted for confidentiality |
CN107301433A (zh) * | 2017-07-14 | 2017-10-27 | 南京华苏科技有限公司 | 基于聚类判别模型的网约车鉴别方法和系统 |
CN108280415A (zh) * | 2018-01-17 | 2018-07-13 | 武汉理工大学 | 基于智能移动终端的驾驶行为识别方法 |
CN109711459A (zh) * | 2018-12-24 | 2019-05-03 | 广东德诚科教有限公司 | 用户个性化行为评测方法、装置、计算机设备和存储介质 |
CN109858965A (zh) * | 2019-01-25 | 2019-06-07 | 上海基分文化传播有限公司 | 一种用户识别方法和系统 |
-
2019
- 2019-08-20 CN CN201910767190.2A patent/CN110544151A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170109852A1 (en) * | 2014-03-31 | 2017-04-20 | Hitachi Kokusai Electric Inc. | Personal safety verification system and similarity search method for data encrypted for confidentiality |
CN107301433A (zh) * | 2017-07-14 | 2017-10-27 | 南京华苏科技有限公司 | 基于聚类判别模型的网约车鉴别方法和系统 |
CN108280415A (zh) * | 2018-01-17 | 2018-07-13 | 武汉理工大学 | 基于智能移动终端的驾驶行为识别方法 |
CN109711459A (zh) * | 2018-12-24 | 2019-05-03 | 广东德诚科教有限公司 | 用户个性化行为评测方法、装置、计算机设备和存储介质 |
CN109858965A (zh) * | 2019-01-25 | 2019-06-07 | 上海基分文化传播有限公司 | 一种用户识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
朱平芳: "《统计学理论前沿》", 31 July 2016 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107248082B (zh) | 养卡识别方法及装置 | |
CN110400215B (zh) | 面向企业家族的小微企业信用评估模型构建方法及系统 | |
CN105931068A (zh) | 一种持卡人消费画像的生成方法及装置 | |
CN110910180B (zh) | 信息推送方法、装置、电子设备和存储介质 | |
US20210158382A1 (en) | System and method for dealer evaluation and dealer network optimization using spatial and geographic analysis in a network of distributed computer systems | |
CN108154425A (zh) | 一种结合社会网络和位置的线下商户推荐方法 | |
WO2019041523A1 (zh) | 电子装置、语音导航需求预测方法和存储介质 | |
CN106875225A (zh) | 用于客户服务的方法及装置 | |
CN106203050A (zh) | 智能机器人的交互方法及装置 | |
CN108038208A (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
CN113205403A (zh) | 一种企业信用等级的计算方法、装置、存储介质及终端 | |
CN111510368A (zh) | 家庭群组识别方法、装置、设备及计算机可读存储介质 | |
CN111881243A (zh) | 一种出租车轨迹热点区域分析方法及系统 | |
CN110276677A (zh) | 基于大数据平台的还款预测方法、装置、设备及存储介质 | |
CN108764633A (zh) | 一种任务分配方法、系统及终端设备 | |
CN111506798A (zh) | 用户筛选方法、装置、设备及存储介质 | |
US10733672B1 (en) | Telematics devices and ridesharing | |
CN110544151A (zh) | 确定用户是否为网约车司机的方法及设备 | |
CN110674020B (zh) | App智能推荐方法、装置及计算机可读存储介质 | |
CN111353015B (zh) | 众包题目推荐方法、装置、设备及存储介质 | |
CN111400663A (zh) | 风险识别方法、装置、设备及计算机可读存储介质 | |
CN113313386B (zh) | 汽车金融风险智能语音调查系统及调查方法 | |
CN115545276A (zh) | 网约车异常订单的接单率预测方法及系统 | |
CN113204714A (zh) | 一种基于用户画像的任务推荐方法、装置、存储介质及终端 | |
CN114155111A (zh) | 保险产品推荐模型构建训练方法、推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191206 |