CN113821703B - 一种车联网用户画像生成方法及其系统 - Google Patents
一种车联网用户画像生成方法及其系统 Download PDFInfo
- Publication number
- CN113821703B CN113821703B CN202010557455.9A CN202010557455A CN113821703B CN 113821703 B CN113821703 B CN 113821703B CN 202010557455 A CN202010557455 A CN 202010557455A CN 113821703 B CN113821703 B CN 113821703B
- Authority
- CN
- China
- Prior art keywords
- user
- label
- data
- nodes
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000006399 behavior Effects 0.000 claims abstract description 103
- 238000007621 cluster analysis Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 230000005484 gravity Effects 0.000 claims description 22
- 230000005611 electricity Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 230000006855 networking Effects 0.000 claims 1
- 238000013461 design Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种车联网用户画像生成方法及其系统,所述方法包括:根据用户身份信息获取车联网中多个数据源的原始用户数据,每一数据源的原始用户数据包括用户的基础属性数据、消费行为数据、驾驶行为数据、娱乐行为数据中的一种或多种;按照预设处理规则对所述多个数据源的原始用户数据进行预处理得到待标记用户数据;按照预设标签规则对所述待标记用户数据进行标签标记得到用户标签数据,所述用户标签数据包括多个用户数据及其标签;对所述用户标签数据进行聚类分析得到多个用户数据集合;根据所述多个用户数据集合计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像。相对于现有技术,本发明能够生成包括用户娱乐行为、驾驶行为、消费行为等维度更为丰富的用户画像。
Description
技术领域
本发明涉及用户画像构建技术领域,具体涉及一种车联网用户画像生成方法及其系统。
背景技术
随着车联网的发展以及新能源车上市的标准要求,越来越多的车辆配备车联网功能。基于车联网,车辆用户可以定位、远程控制车辆,甚至可以在车机访问互联网。车厂也可以通过定义信号接收模块采集车辆各个ECU节点的信号,这些信号可以用于生成用户画像,包括用户驾驶、用车的行为。此外,通过对外拓展第三方生态应用数据,可以获取用户的互联网行为。用户画像一方面给车厂对用户用车工况、使用习惯有一个概览,作为下一代的车型开发设计的参考。另一方面,用户画像也可以方便车厂有针对性地提供精准营销服务,提高用户满意度和粘性。
当前技术所生成的车联网用户画像缺少了用户的互联网行为数据,例如购物行为、消费行为、娱乐行为、社交行为等,此外,用户的驾驶行为相关数据也没有被利用,因此,亟待提出一种能够生成维度更为丰富的用户画像的方法。
发明内容
本发明的目的在于提出一种车联网用户画像生成方法及其系统,能够生成包括用户的基础属性、娱乐行为、驾驶行为、消费行为等维度更为丰富的用户画像。
为实现上述目的,本发明实施例提出一种车联网用户画像生成方法,包括:
根据用户身份信息获取车联网中多个数据源的原始用户数据,每一数据源的原始用户数据包括用户的基础属性数据、消费行为数据、驾驶行为数据、娱乐行为数据中的一种或多种;
按照预设处理规则对所述多个数据源的原始用户数据进行预处理得到待标记用户数据;
按照预设标签规则对所述待标记用户数据进行标签标记得到用户标签数据,所述用户标签数据包括多个用户数据及其标签;
对所述用户标签数据进行聚类分析得到多个用户数据集合;其中每一用户数据集合包括相似的多个用户数据及其标签;
根据所述多个用户数据集合计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像。
优选地,所述基础属性数据包括用户的性别信息、年龄信息、地域信息、学历信息、收入信息中的一种或多种;所述消费行为数据包括购物信息、停车信息、加油信息、充电信息、流量充值信息、积分兑换信息中的一种或多种;所述驾驶行为数据包括油耗信息、速度信息、里程信息、电耗信息、驾驶行为评分信息、保险信息中的一种或多种;所述娱乐行为数据包括音乐偏好信息、电台偏好信息、视频偏好信息、游戏偏好信息中的一种或多种。
优选地,所述对所述多个用户数据进行聚类分析得到多个用户数据集合,包括:
S41、随机确定一个k值;
S42、从所述多个用户数据中随机选择k个用户数据作为质心;
S43、对所述多个用户数据中的每一个用户数据,计算其与每一个质心的距离,并将其划分至与其距离最小的质心所属的用户数据集合,以得到k个用户数据集合;
S44、重新计算所述k个用户数据集合的质心;
S45、如果重新计算出来的用户数据集合质心和原来的用户数据集合质心之间的距离小于预设阈值,则结束聚类;如果重新计算出来的用户数据集合质心和原来的用户数据集合质心之间的距离大于等于预设阈值,令k=k+1,并返回步骤S42继续聚类。
优选地,所述根据所述多个用户数据集合计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像,包括:
根据公式TFi=Wi/N1计算每一用户标签的比重;其中,TFi为用户标签i的比重,Wi为用户标签i所对应的用户数据集合中用户标签i的个数,N1为多个用户数据集合的标签总数;
根据公式IDFi=Mi/N2计算每一用户标签的稀缺度;其中,IDFi为用户标签i的稀缺度,Mi为用户数据集合的个数,N2为包含用户标签i的用户数据集合的个数;
根据每一用户标签的比重和稀缺度分别对每一用户标签进行多维度描述,并可视化描述内容,以生成用户画像。
优选地,所述方法还包括:根据所述用户标签数据构建标签树模型,在所述标签树模型中,若某一用户数据集合包括某一标签,则该用户数据集合作为一个尾节点被连接至对应的上层标签节点;
其中,所述根据所述多个用户数据集合计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像,具体为:
根据所述多个用户数据集合以及所述标签树模型计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像。
优选地,所述标签树模型的首节点包括基础属性节点、消费行为节点、驾驶行为节点以及娱乐行为节点;
其中,所述基础属性节点的子节点包括性别标签节点、年龄标签节点、地域标签节点、学历标签节点、收入标签节点中的一个或多个,所述消费行为节点的子节点包括购物标签节点、停车标签节点、加油标签节点、充电标签节点、流量充值标签节点、积分兑换标签节点中的一种或多种;所述驾驶行为节点的子节点包括油耗标签节点、速度标签节点、里程标签节点、电耗标签节点、驾驶行为评分标签节点、保险标签节点中的一种或多种;所述娱乐行为节点的子节点包括音乐偏好标签节点、电台偏好标签节点、视频偏好标签节点、游戏偏好标签节点中的一种或多种;每一子节点连接多个尾节点。
优选地,所述根据所述多个用户数据集合以及所述标签树模型对用户进行多维度描述,包括:
根据公式TFi=Wi/N1计算每一用户标签的比重;其中,TFi为用户标签i的比重,Wi为用户标签i所对应的用户数据集合中用户标签i的个数,N1为多个用户数据集合的标签总数;
根据公式IDFi=Mi/N2计算每一用户标签的稀缺度;其中,IDFi为用户标签i的稀缺度,Mi为用户数据集合的个数,N2为包含用户标签i所对应的标签子节点所连接的尾节点个数;
根据每一用户标签的比重和稀缺度分别对每一用户标签进行多维度描述,并可视化描述内容,以生成用户画像。
作为同一发明构思,本发明实施例还一种车联网用户画像生成系统,包括:
原始数据获取单元,用于根据用户身份信息获取车联网中多个数据源的原始用户数据,每一数据源的原始用户数据包括用户的基础属性数据、消费行为数据、驾驶行为数据、娱乐行为数据中的一种或多种;
预处理单元,用于按照预设处理规则对所述多个数据源的原始用户数据进行预处理得到待标记用户数据;
数据标记单元,用于按照预设标签规则对所述待标记用户数据进行标签标记得到用户标签数据,所述用户标签数据包括多个用户数据及其标签;
聚类分析单元,用于对所述用户标签数据进行聚类分析得到多个用户数据集合;其中每一用户数据集合包括相似的多个用户数据及其标签;以及
画像生成单元,用于根据所述多个用户数据集合计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像。
优选地,所述基础属性数据包括用户的性别信息、年龄信息、地域信息、学历信息、收入信息中的一种或多种;所述消费行为数据包括购物信息、停车信息、加油信息、充电信息、流量充值信息、积分兑换信息中的一种或多种;所述驾驶行为数据包括油耗信息、速度信息、里程信息、电耗信息、驾驶行为评分信息、保险信息中的一种或多种;所述娱乐行为数据包括音乐偏好信息、电台偏好信息、视频偏好信息、游戏偏好信息中的一种或多种。
优选地,所述画像生成单元包括:
标签树构建单元,用于根据所述用户标签数据构建标签树模型,在所述标签树模型中,若某一用户数据集合包括某一标签,则该用户数据集合作为一个尾节点被连接至对应的上层标签节点;以及
画面描述单元,用于根据所述多个用户数据集合以及所述标签树模型计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像;
其中,所述标签树模型的首节点包括基础属性节点、消费行为节点、驾驶行为节点以及娱乐行为节点;所述基础属性节点的子节点包括性别标签节点、年龄标签节点、地域标签节点、学历标签节点、收入标签节点中的一个或多个,所述消费行为节点的子节点包括购物标签节点、停车标签节点、加油标签节点、充电标签节点、流量充值标签节点、积分兑换标签节点中的一种或多种;所述驾驶行为节点的子节点包括油耗标签节点、速度标签节点、里程标签节点、电耗标签节点、驾驶行为评分标签节点、保险标签节点中的一种或多种;所述娱乐行为节点的子节点包括音乐偏好标签节点、电台偏好标签节点、视频偏好标签节点、游戏偏好标签节点中的一种或多种;每一子节点连接多个尾节点。
以上任一实施例方案至少具有以下有益效果:
应用本实施例方法,能够生成包括用户的基础属性、娱乐行为、驾驶行为、消费行为等维度更为丰富的用户画像,可以让车厂更全面了解车辆用户的需求/习惯,优化下一代车型的设计,为开发符合车辆用户需求的应用服务和产品推荐提供有力支撑。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而得以体现。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例所述一种车联网用户画像生成方法的流程示意图。
图2为本发明一实施例中标签树模型的结构示意图。
图3为本发明另一实施例中一种车联网用户画像生成系统的框架图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
另外,为了更好的说明本发明,在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的手段未作详细描述,以便于凸显本发明的主旨。
本发明一实施例提出一种车联网用户画像生成方法,图1为本实施例方法的流程图,参阅图1,本实施例方法包括以下步骤S1-S3:
步骤S1、根据用户身份信息获取车联网中多个数据源的原始用户数据,每一数据源的原始用户数据包括用户的基础属性数据、消费行为数据、驾驶行为数据、娱乐行为数据中的一种或多种;
具体而言,所述多个数据源包括但不限于为车辆Tbox端、安装于用户手机上的用于控制/管理车辆的APP端、车机AVNT端、B端业务系统(例如产线检测系统、新能源转发系统等)以及第三方生态应用端(例如用户所使用的腾讯QQ音乐、酷狗音乐、喜马拉雅、企鹅FM、车载微信等应用)的数据。可以理解的是,每一个数据源的原始用户数据都与用户身份信息相关联,用户身份信息例如是账号信息、手机号码等,根据目标用户的身份信息即可以获取对应的目标用户的车联网中多个数据源的原始用户数据。
其中,所述基础属性数据包括用户的性别信息、年龄信息、地域信息、学历信息、收入信息中的一种或多种;
其中,所述消费行为数据包括购物信息、停车信息、加油信息、充电信息、流量充值信息、积分兑换信息中的一种或多种;
其中,所述驾驶行为数据包括油耗信息、速度信息、里程信息、电耗信息、驾驶行为评分信息、保险信息中的一种或多种;
其中,所述娱乐行为数据包括音乐偏好信息、电台偏好信息、视频偏好信息、游戏偏好信息中的一种或多种。
步骤S2、按照预设处理规则对所述多个数据源的原始用户数据进行预处理得到待标记用户数据;
具体而言,上述多个数据源的原始用户数据包含了大量的数据,那么这些数据有可能是存在错误的数据,因此,需要对原始用户数据进行预处理之后才能够用于后续的标签标记,预处理为数据清理,具体包括检查数据一致性,处理无效值和缺失值等,数据清洗具体可以利用有关技术,例如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即待标记用户数据。
步骤S3、按照预设标签规则对所述待标记用户数据进行标签标记得到用户标签数据,所述用户标签数据包括多个用户数据及其标签;
具体而言,在应用本实施例方法之前,预先设定一个标签规则,即某一类型/属性的数据,对应关联某一种标签,例如,年龄段标签:25~35岁;又例如,地域标签:北京;因此,根据所述预设标签规则,可以为每一个用户数据标记对应的标签。
步骤S4、对所述用户标签数据进行聚类分析得到多个用户数据集合;其中每一用户数据集合包括相似的多个用户数据及其标签;
具体而言,聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性,所述簇即本实施例中的用户数据集合。因此,通过聚类分析,可以将相似的多个用户数据划分到相同的簇中。
需说明的是,聚类的方式有很多种,本实施例中不限于某一种聚类方式。
其中,步骤S4的目的在于对标记相应标签的大量用户数据进行统计,以便于提高后续利用用户数据标签对用户画像进行多维度描述的效率。
步骤S5、根据所述多个用户数据集合计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像。
具体而言,用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。其中,根据所述多个用户数据集合,可以确定关于与目标用户有关的标签情况,例如某一标签所出现的频率,以及逆向频率(稀缺度),据此,可以根据标签所出现的频率,以及逆向频率对该标签给予适当的描绘,例如,标签尺寸大小,透明度,等等,描绘的方式可以自行设定。
在一实施例中,所述步骤S4具体包括:
S41、随机确定一个k值;
S42、从所述多个用户数据中随机选择k个用户数据作为质心;
S43、对所述多个用户数据中的每一个用户数据,计算其与每一个质心的距离,并将其划分至与其距离最小的质心所属的用户数据集合,以得到k个用户数据集合;
其中,所述距离为欧氏距离,或曼哈顿距离,或切比雪夫距离。
S44、重新计算所述k个用户数据集合的质心;
S45、如果重新计算出来的用户数据集合质心和原来的用户数据集合质心之间的距离小于预设阈值,表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛,可以认为聚类已经达到期望的结果,则结束聚类;
如果重新计算出来的用户数据集合质心和原来的用户数据集合质心之间的距离大于等于预设阈值,令k=k+1,并返回步骤S42继续聚类,循环步骤S42-S45,直至如果重新计算出来的用户数据集合质心和原来的用户数据集合质心之间的距离小于预设阈值。
在一实施例中,所述步骤S5包括:
步骤S511、根据公式TFi=Wi/N1计算每一用户标签的比重;其中,TFi为用户标签i的比重,Wi为用户标签i所对应的用户数据集合中用户标签i的个数,N1为多个用户数据集合的标签总数;
步骤S512、根据公式IDFi=Mi/N2计算每一用户标签的稀缺度;其中,IDFi为用户标签i的稀缺度,Mi为用户数据集合的个数,N2为包含用户标签i的用户数据集合的个数;
步骤S513、根据每一用户标签的比重和稀缺度分别对每一用户标签进行多维度描述,并可视化描述内容,以生成用户画像。
在一实施例中,所述方法还包括:根据所述用户标签数据构建标签树模型,在所述标签树模型中,若某一用户数据集合包括某一标签,则该用户数据集合作为一个尾节点被连接至对应的上层标签节点;
在本实施例中,所述步骤S5具体包括:
根据所述多个用户数据集合以及所述标签树模型计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像。
在一实施例中,如图2所示,所述标签树模型的首节点包括基础属性节点、消费行为节点、驾驶行为节点以及娱乐行为节点;
其中,所述基础属性节点的子节点包括性别标签节点、年龄标签节点、地域标签节点、学历标签节点、收入标签节点中的一个或多个,所述消费行为节点的子节点包括购物标签节点、停车标签节点、加油标签节点、充电标签节点、流量充值标签节点、积分兑换标签节点中的一种或多种;所述驾驶行为节点的子节点包括油耗标签节点、速度标签节点、里程标签节点、电耗标签节点、驾驶行为评分标签节点、保险标签节点中的一种或多种;所述娱乐行为节点的子节点包括音乐偏好标签节点、电台偏好标签节点、视频偏好标签节点、游戏偏好标签节点中的一种或多种;每一子节点连接多个尾节点。
在一实施例中,所述步骤S5具体包括:
步骤S521、根据公式TFi=Wi/N1计算每一用户标签的比重;其中,TFi为用户标签i的比重,Wi为用户标签i所对应的用户数据集合中用户标签i的个数,N1为多个用户数据集合的标签总数;
步骤S522、根据公式IDFi=Mi/N2计算每一用户标签的稀缺度;其中,IDFi为用户标签i的稀缺度,Mi为用户数据集合的个数,N2为包含用户标签i所对应的标签子节点所连接的尾节点个数;
步骤S523、根据每一用户标签的比重和稀缺度分别对每一用户标签进行多维度描述,并可视化描述内容,以生成用户画像。
通过以上实施例的描述可知,本实施例方法能够生成包括用户的基础属性、娱乐行为、驾驶行为、消费行为等维度更为丰富的用户画像,可以让车厂更全面了解车辆用户的需求/习惯,优化下一代车型的设计,为开发符合车辆用户需求的应用服务和产品推荐提供有力支撑。
参阅图3,本发明另一实施例还提出一种车联网用户画像生成系统,包括:
原始数据获取单元1,用于根据用户身份信息获取车联网中多个数据源的原始用户数据,每一数据源的原始用户数据包括用户的基础属性数据、消费行为数据、驾驶行为数据、娱乐行为数据中的一种或多种;
预处理单元2,用于按照预设处理规则对所述多个数据源的原始用户数据进行预处理得到待标记用户数据;
数据标记单元3,用于按照预设标签规则对所述待标记用户数据进行标签标记得到用户标签数据,所述用户标签数据包括多个用户数据及其标签;
聚类分析单元4,用于对所述用户标签数据进行聚类分析得到多个用户数据集合;其中每一用户数据集合包括相似的多个用户数据及其标签;以及
画像生成单元5,用于根据所述多个用户数据集合计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像。
在一实施例中,所述基础属性数据包括用户的性别信息、年龄信息、地域信息、学历信息、收入信息中的一种或多种;所述消费行为数据包括购物信息、停车信息、加油信息、充电信息、流量充值信息、积分兑换信息中的一种或多种;所述驾驶行为数据包括油耗信息、速度信息、里程信息、电耗信息、驾驶行为评分信息、保险信息中的一种或多种;所述娱乐行为数据包括音乐偏好信息、电台偏好信息、视频偏好信息、游戏偏好信息中的一种或多种。
在一实施例中,所述画像生成单元5包括:
标签树构建单元51,用于根据所述用户标签数据构建标签树模型,在所述标签树模型中,若某一用户数据集合包括某一标签,则该用户数据集合作为一个尾节点被连接至对应的上层标签节点;以及
画面描述单元52,用于根据所述多个用户数据集合以及所述标签树模型对用户进行多维度描述,以生成用户画像;
其中,所述标签树模型的首节点包括基础属性节点、消费行为节点、驾驶行为节点以及娱乐行为节点;所述基础属性节点的子节点包括性别标签节点、年龄标签节点、地域标签节点、学历标签节点、收入标签节点中的一个或多个,所述消费行为节点的子节点包括购物标签节点、停车标签节点、加油标签节点、充电标签节点、流量充值标签节点、积分兑换标签节点中的一种或多种;所述驾驶行为节点的子节点包括油耗标签节点、速度标签节点、里程标签节点、电耗标签节点、驾驶行为评分标签节点、保险标签节点中的一种或多种;所述娱乐行为节点的子节点包括音乐偏好标签节点、电台偏好标签节点、视频偏好标签节点、游戏偏好标签节点中的一种或多种;每一子节点连接多个尾节点。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
需说明的是,上述实施例所述系统与上述实施例所述方法对应,因此,上述实施例所述系统未详述部分可以参阅上述实施例所述方法的内容得到,此处不再赘述。
并且,上述实施例所述车联网用户画像生成系统如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
具体而言,所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (7)
1.一种车联网用户画像生成方法,其特征在于,包括:
根据用户身份信息获取车联网中多个数据源的原始用户数据,每一数据源的原始用户数据包括用户的基础属性数据、消费行为数据、驾驶行为数据、娱乐行为数据中的一种或多种;
按照预设处理规则对所述多个数据源的原始用户数据进行预处理得到待标记用户数据;
按照预设标签规则对所述待标记用户数据进行标签标记得到用户标签数据,所述用户标签数据包括多个用户数据及其标签;
对所述用户标签数据进行聚类分析得到多个用户数据集合;其中每一用户数据集合包括相似的多个用户数据及其标签;
根据所述用户标签数据构建标签树模型,在所述标签树模型中,若某一用户数据集合包括某一标签,则该用户数据集合作为一个尾节点被连接至对应的上层标签节点;
根据所述多个用户数据集合以及所述标签树模型计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像;
其中,所述根据所述多个用户数据集合以及所述标签树模型对用户进行多维度描述,包括:
根据公式TFi=Wi/N1计算每一用户标签的比重;其中,TFi为用户标签i的比重,Wi为用户标签i所对应的用户数据集合中用户标签i的个数,N1为多个用户数据集合的标签总数;
根据公式IDFi =Mi/N2计算每一用户标签的稀缺度;其中,IDFi为用户标签i的稀缺度,Mi为用户数据集合的个数,N2为包含用户标签i所对应的标签子节点所连接的尾节点个数;
根据每一用户标签的比重和稀缺度分别对每一用户标签进行多维度描述,并可视化描述内容,以生成用户画像。
2.根据权利要求1所述的车联网用户画像生成方法,其特征在于,所述基础属性数据包括用户的性别信息、年龄信息、地域信息、学历信息、收入信息中的一种或多种;所述消费行为数据包括购物信息、停车信息、加油信息、充电信息、流量充值信息、积分兑换信息中的一种或多种;所述驾驶行为数据包括油耗信息、速度信息、里程信息、电耗信息、驾驶行为评分信息、保险信息中的一种或多种;所述娱乐行为数据包括音乐偏好信息、电台偏好信息、视频偏好信息、游戏偏好信息中的一种或多种。
3.如权利要求1所述的车联网用户画像生成方法,其特征在于,所述对所述多个用户数据进行聚类分析得到多个用户数据集合,包括:
S41、随机确定一个k值;
S42、从所述多个用户数据中随机选择k个用户数据作为质心;
S43、对所述多个用户数据中的每一个用户数据,计算其与每一个质心的距离,并将其划分至与其距离最小的质心所属的用户数据集合,以得到k个用户数据集合;
S44、重新计算所述k个用户数据集合的质心;
S45、如果重新计算出来的用户数据集合质心和原来的用户数据集合质心之间的距离小于预设阈值,则结束聚类;如果重新计算出来的用户数据集合质心和原来的用户数据集合质心之间的距离大于等于预设阈值,令k=k+1,并返回步骤S42继续聚类。
4.如权利要求3所述的车联网用户画像生成方法,其特征在于,所述标签树模型的首节点包括基础属性节点、消费行为节点、驾驶行为节点以及娱乐行为节点;
其中,所述基础属性节点的子节点包括性别标签节点、年龄标签节点、地域标签节点、学历标签节点、收入标签节点中的一个或多个,所述消费行为节点的子节点包括购物标签节点、停车标签节点、加油标签节点、充电标签节点、流量充值标签节点、积分兑换标签节点中的一种或多种;所述驾驶行为节点的子节点包括油耗标签节点、速度标签节点、里程标签节点、电耗标签节点、驾驶行为评分标签节点、保险标签节点中的一种或多种;所述娱乐行为节点的子节点包括音乐偏好标签节点、电台偏好标签节点、视频偏好标签节点、游戏偏好标签节点中的一种或多种;每一子节点连接多个尾节点。
5.一种车联网用户画像生成系统,其特征在于,包括:
原始数据获取单元,用于根据用户身份信息获取车联网中多个数据源的原始用户数据,每一数据源的原始用户数据包括用户的基础属性数据、消费行为数据、驾驶行为数据、娱乐行为数据中的一种或多种;
预处理单元,用于按照预设处理规则对所述多个数据源的原始用户数据进行预处理得到待标记用户数据;
数据标记单元,用于按照预设标签规则对所述待标记用户数据进行标签标记得到用户标签数据,所述用户标签数据包括多个用户数据及其标签;
聚类分析单元,用于对所述用户标签数据进行聚类分析得到多个用户数据集合;其中每一用户数据集合包括相似的多个用户数据及其标签;
标签树构建单元,用于根据所述用户标签数据构建标签树模型,在所述标签树模型中,若某一用户数据集合包括某一标签,则该用户数据集合作为一个尾节点被连接至对应的上层标签节点;以及
画面描述单元,用于根据所述多个用户数据集合以及所述标签树模型计算每一标签的比重和稀缺度,并根据所述每一标签的比重和稀缺度对用户进行多维度描述,以生成用户画像;
其中,所述画面描述单元,具体用于:
根据公式TFi=Wi/N1计算每一用户标签的比重;其中,TFi为用户标签i的比重,Wi为用户标签i所对应的用户数据集合中用户标签i的个数,N1为多个用户数据集合的标签总数;
根据公式IDFi =Mi/N2计算每一用户标签的稀缺度;其中,IDFi为用户标签i的稀缺度,Mi为用户数据集合的个数,N2为包含用户标签i所对应的标签子节点所连接的尾节点个数;
根据每一用户标签的比重和稀缺度分别对每一用户标签进行多维度描述,并可视化描述内容,以生成用户画像。
6.如权利要求5所述的车联网用户画像生成系统,其特征在于,所述基础属性数据包括用户的性别信息、年龄信息、地域信息、学历信息、收入信息中的一种或多种;所述消费行为数据包括购物信息、停车信息、加油信息、充电信息、流量充值信息、积分兑换信息中的一种或多种;所述驾驶行为数据包括油耗信息、速度信息、里程信息、电耗信息、驾驶行为评分信息、保险信息中的一种或多种;所述娱乐行为数据包括音乐偏好信息、电台偏好信息、视频偏好信息、游戏偏好信息中的一种或多种。
7.如权利要求5所述的车联网用户画像生成系统,其特征在于,
所述标签树模型的首节点包括基础属性节点、消费行为节点、驾驶行为节点以及娱乐行为节点;所述基础属性节点的子节点包括性别标签节点、年龄标签节点、地域标签节点、学历标签节点、收入标签节点中的一个或多个,所述消费行为节点的子节点包括购物标签节点、停车标签节点、加油标签节点、充电标签节点、流量充值标签节点、积分兑换标签节点中的一种或多种;所述驾驶行为节点的子节点包括油耗标签节点、速度标签节点、里程标签节点、电耗标签节点、驾驶行为评分标签节点、保险标签节点中的一种或多种;所述娱乐行为节点的子节点包括音乐偏好标签节点、电台偏好标签节点、视频偏好标签节点、游戏偏好标签节点中的一种或多种;每一子节点连接多个尾节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010557455.9A CN113821703B (zh) | 2020-06-18 | 2020-06-18 | 一种车联网用户画像生成方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010557455.9A CN113821703B (zh) | 2020-06-18 | 2020-06-18 | 一种车联网用户画像生成方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113821703A CN113821703A (zh) | 2021-12-21 |
CN113821703B true CN113821703B (zh) | 2023-12-08 |
Family
ID=78911554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010557455.9A Active CN113821703B (zh) | 2020-06-18 | 2020-06-18 | 一种车联网用户画像生成方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113821703B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961734B (zh) * | 2021-12-22 | 2022-04-01 | 松立控股集团股份有限公司 | 基于停车数据和app操作日志的用户和车辆画像构建方法 |
CN114936942B (zh) * | 2022-07-21 | 2022-11-01 | 深圳市绽放工场科技有限公司 | 一种面向保险用户的计算机网络数据处理分析系统及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504534A (zh) * | 2016-11-28 | 2017-03-15 | 北京世纪高通科技有限公司 | 一种预测道路路况的方法、装置及用户设备 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN107688606A (zh) * | 2017-07-26 | 2018-02-13 | 北京三快在线科技有限公司 | 一种推荐信息的获取方法及装置,电子设备 |
CN109784367A (zh) * | 2018-12-11 | 2019-05-21 | 东软集团股份有限公司 | 用户画像方法、装置、计算机可读存储介质及电子设备 |
CN109933699A (zh) * | 2019-03-05 | 2019-06-25 | 中国科学院文献情报中心 | 一种学术画像模型的构建方法及装置 |
CN109978630A (zh) * | 2019-04-02 | 2019-07-05 | 安徽筋斗云机器人科技股份有限公司 | 一种基于大数据建立用户画像的精准营销方法和系统 |
CN110111136A (zh) * | 2019-04-12 | 2019-08-09 | 平安科技(深圳)有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
CN110674144A (zh) * | 2019-08-14 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN111126880A (zh) * | 2020-01-02 | 2020-05-08 | 浙江吉利新能源商用车集团有限公司 | 一种用户画像生成方法、装置及设备 |
CN111191125A (zh) * | 2019-12-24 | 2020-05-22 | 长威信息科技发展股份有限公司 | 一种基于标签化的数据分析方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170004557A1 (en) * | 2015-07-02 | 2017-01-05 | Ebay Inc. | Data recommendation and prioritization |
CN106355449B (zh) * | 2016-08-31 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
-
2020
- 2020-06-18 CN CN202010557455.9A patent/CN113821703B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN106504534A (zh) * | 2016-11-28 | 2017-03-15 | 北京世纪高通科技有限公司 | 一种预测道路路况的方法、装置及用户设备 |
CN107688606A (zh) * | 2017-07-26 | 2018-02-13 | 北京三快在线科技有限公司 | 一种推荐信息的获取方法及装置,电子设备 |
CN109784367A (zh) * | 2018-12-11 | 2019-05-21 | 东软集团股份有限公司 | 用户画像方法、装置、计算机可读存储介质及电子设备 |
CN109933699A (zh) * | 2019-03-05 | 2019-06-25 | 中国科学院文献情报中心 | 一种学术画像模型的构建方法及装置 |
CN109978630A (zh) * | 2019-04-02 | 2019-07-05 | 安徽筋斗云机器人科技股份有限公司 | 一种基于大数据建立用户画像的精准营销方法和系统 |
CN110111136A (zh) * | 2019-04-12 | 2019-08-09 | 平安科技(深圳)有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
CN110674144A (zh) * | 2019-08-14 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN111191125A (zh) * | 2019-12-24 | 2020-05-22 | 长威信息科技发展股份有限公司 | 一种基于标签化的数据分析方法 |
CN111126880A (zh) * | 2020-01-02 | 2020-05-08 | 浙江吉利新能源商用车集团有限公司 | 一种用户画像生成方法、装置及设备 |
Non-Patent Citations (4)
Title |
---|
Research on Awareness Method of Cloud User Abnormal Behavior Based on Log Audit;Weijie Wang等;《2018 IEEE 4th International Conference on Computer and Communications (ICCC). Proceedings》;第1944-50页 * |
Research on Electricity Consumption Behavior of Electric Power Users Based on Tag Technology and Clustering Algorithm;Zhong, Chunlin等;《2018 5TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING (ICISCE 2018)》;第459-462页 * |
基于车联网的用户驾驶行为统计分析研究;程兴乾;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;C034-986 * |
用户画像技术在电子商务系统中的研究与应用;许甜华;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-1529 * |
Also Published As
Publication number | Publication date |
---|---|
CN113821703A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170755B (zh) | 基于三元组深度网络的跨模态哈希检索方法 | |
US11586992B2 (en) | Travel plan recommendation method, apparatus, device and computer readable storage medium | |
CN103455542B (zh) | 多类识别器以及多类识别方法 | |
CN113821703B (zh) | 一种车联网用户画像生成方法及其系统 | |
CN108416003A (zh) | 一种图片分类方法和装置、终端、存储介质 | |
CN105893406A (zh) | 群体用户画像方法及系统 | |
CN108885624A (zh) | 信息推荐系统及方法 | |
CN109523186B (zh) | 城市区域划分方法及装置 | |
CN111191125A (zh) | 一种基于标签化的数据分析方法 | |
CN101877064A (zh) | 图像分类方法及图像分类装置 | |
CN112380870A (zh) | 用户意图分析方法、装置、电子设备及计算机存储介质 | |
US20230222190A1 (en) | Systems and methods for providing user validation | |
CN108241867B (zh) | 一种分类方法及装置 | |
CN113449753B (zh) | 业务风险预测方法、装置和系统 | |
CN107633257B (zh) | 数据质量评估方法及装置、计算机可读存储介质、终端 | |
CN113590898A (zh) | 数据检索方法、装置、电子设备、存储介质及计算机产品 | |
CN111831630B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
Zhou et al. | Unifying online and offline preference for social link prediction | |
CN115115869A (zh) | 业务图像标注方法、装置、电子设备、计算机程序产品 | |
CN115114519A (zh) | 基于人工智能的推荐方法、装置、电子设备及存储介质 | |
CN114003803A (zh) | 一种社交平台上特定地域的媒体账号发现方法及系统 | |
Wu et al. | Mining trajectory patterns with point-of-interest and behavior-of-interest | |
CN114462225A (zh) | 一种车路协同下的混合交通仿真支撑环境快速构建系统 | |
Shin et al. | Recommendation in Offline Stores: A Gamification Approach for Learning the Spatiotemporal Representation of Indoor Shopping | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |