CN110727864B - 一种基于手机App安装列表的用户画像方法 - Google Patents

一种基于手机App安装列表的用户画像方法 Download PDF

Info

Publication number
CN110727864B
CN110727864B CN201910926108.6A CN201910926108A CN110727864B CN 110727864 B CN110727864 B CN 110727864B CN 201910926108 A CN201910926108 A CN 201910926108A CN 110727864 B CN110727864 B CN 110727864B
Authority
CN
China
Prior art keywords
user
matrix
mobile phone
equal
app
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910926108.6A
Other languages
English (en)
Other versions
CN110727864A (zh
Inventor
潘纲
赵莎
陶建容
李石坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910926108.6A priority Critical patent/CN110727864B/zh
Publication of CN110727864A publication Critical patent/CN110727864A/zh
Application granted granted Critical
Publication of CN110727864B publication Critical patent/CN110727864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于手机App安装列表的用户画像方法,包括以下步骤:(1)获取欲画像用户的手机App安装列表并进行预处理;(2)对预处理后的所述手机用户的App安装列表提取关键特征,得到所述用户的特征,建立特征空间;(3)基于所述的特征空间,对用户进行表征;(4)针对所述的用户表征向量,分别进行有监督和无监督的方法,完成所述的用户画像。由此可见,本发明方法利用布尔矩阵分解方法从手机App安装列表中提取关键特征,有效地刻画用户的特性,从而完成对用户的画像。

Description

一种基于手机App安装列表的用户画像方法
技术领域
本发明属于数据分析技术领域,具体涉及一种基于手机App安装列表的用户画像方法。
背景技术
用户画像是指对用户相关的真实数据进行统计分析,提炼代表性的信息,进而挖掘出该用户的一系列属性与特征信息(如兴趣爱好、生活习惯、社会属性、性格、价值观等)。
目前,用户画像在精准广告投放、精准营销、个性化推荐、产品优化、业务经营等方面有巨大的商业价值,是面向个人用户市场的各大企业必争的战略核心技术,理解用户的属性与特征可大幅度提升广告转化率。国内外很多互联网巨头公司都是以广告为主要盈利模式,例如Facebook、Google、百度等,据统计2017年Facebook全年收益98%来自于广告。根据对用户的理解,企业可分析潜在用户,针对特定用户进行营销,服务提供商可根据用户的需求与偏好,对用户推荐和定制个性化产品与服务;企业还可根据对用户个性化信息的理解,对产品进行针对性地优化,以提升用户体验;同时,还可以制定针对性的企业发展战略,以扩大用户数目,增加企业的竞争能力。随着移动互联网的发展和数据挖掘等技术的不断进步,对用户的理解会更加深入与全面,例如心理、人格层面等,深层次的个性化信息将会被越来越重视,用户画像在未来会进一步提升服务精准度,为企业带来更多的利益。
随着智能手机的迅速普及,智能手机感知数据为用户进行画像开启了一扇新的大门;作为移动互联网的主要载体,智能手机逐渐成为人们日常生活中不可或缺的一部分。现在全球约有20亿的用户使用智能手机,用户在使用手机的过程中产生了大量的跟用户相关的信息;由于智能手机通常被同一个用户使用,这些数据往往隐含了丰富的一个用户的个性化信息,智能手机为推测用户属性与特征进行用户画像提供了新的信息渠道。
手机应用(App)在众多的智能手机感知数据类型中,与用户的个性化信息密切相关联。随着智能手机的迅猛发展,手机App市场爆炸式增长;其中,苹果手机的App Store大约有200万个App,安卓手机的Google Play约有220万个App;应用几乎覆盖了用户日常生活中方方面面的需求,例如餐饮、外出旅游、办公、天气、日历、生活助手等。用户根据自己的需求、偏好、习惯等从应用市场上下载安装和使用应用,手机App成为用户使用手机各种服务的主要入口;手机上安装了什么应用,即手机App安装列表可在很大程度上反映用户的个人信息,如各种基本属性(例如,性别、年龄、职业等)、兴趣偏好、性格、生活方式等。因此,手机App安装列表给我们提供了一个对用户画像的便捷途径。
发明内容
鉴于上述,本发明提供了一种基于手机App安装列表的用户画像方法,能够有效地刻画用户的特性,从而完成对用户的画像。
一种基于手机App安装列表的用户画像方法,包括如下步骤:
(1)收集大量用户的手机App安装列表并进行预处理,以确定用户数量m以及APP数量n;
(2)构建用户与APP的关联矩阵U,并对其进行布尔矩阵分解U=CB,C为用户系数矩阵且维度为m×k,B为特征矩阵且维度为k×n,k为自定义的特征数量;
(3)对于待画像的用户,根据其手机App安装列表确定这些用户的App安装向量;
(4)使待画像用户的App安装向量乘以B的伪逆矩阵,得到这些用户的特征向量;
(5)根据特征向量通过有监督和无监督的方式分别对待画像用户进行分类和聚类,同时根据所具备的特征为每一待画像用户打上标签。
进一步地,所述步骤(1)中对手机App安装列表进行预处理的方法为:首先设定相关阈值,若某一App,其安装人数小于一定阈值的话,则剔除该App及其相关信息;若某一用户,其手机App安装列表上的App数量小于一定阈值的话,则剔除该用户及其相关信息。
进一步地,所述关联矩阵U的维度为m×n且每一元素值为0或1,若其中第i行第j列元素值uij=1,则表示第i个用户的手机App安装列表中存在有第j个APP,否则uij=0;i和j均为自然数且1≤i≤m,1≤j≤n。
进一步地,所述步骤(2)中对关联矩阵U进行布尔矩阵分解的具体过程为:首先计算关联矩阵U中任意两列之间的相关性,形成一个m×m大小的实数矩阵R,其中每一元素值代表两个App的关联性;然后将实数矩阵R转换为布尔矩阵A,布尔矩阵A中每一个行向量作为形成特征矩阵B的候选向量;最后设计目标函数,以贪心的方式从布尔矩阵A中选择行向量来补全特征矩阵B,同时生成用户系数矩阵C的列向量,重复k次,最终得到两个矩阵B和C。
进一步地,所述特征矩阵B用于描述每个特征对应有哪些APP,矩阵B中每一元素值为0或1,若其中第p行第j列元素值bpj=1,则表示第j个APP具备第p个特征,否则bpj=0;p和j均为自然数且1≤p≤k,1≤j≤n。
进一步地,所述用户系数矩阵C用于描述每个用户具备哪些特征,矩阵C中每一元素值为0或1,若其中第i行第p列元素值cip=1,则表示第i个用户具备第p个特征,否则cip=0;i和p均为自然数且1≤i≤m,1≤p≤k。
进一步地,所述步骤(3)中用户App安装向量的维度为1×n且每一元素值为0或1,若其中第j列元素值=1,则表示该用户的手机App安装列表中存在有第j个APP,否则第j列元素值=0,j为自然数且1≤j≤n。
进一步地,所述步骤(5)中采用众包的方式获得每个特征的语义,所述特征向量的维度为k×1且每一元素值为0或1,若其中第p行元素值=1,则表示用户具备第p个特征,否则第p行元素值=0;对于待画像用户,根据其特征向量中对应元素值为1的所有特征语义为用户打上标签。
由此可见,本发明利用布尔矩阵分解等方法从用户的手机App安装列表中提取关键特征,并有效刻画用户的特性,从而完成对用户的画像。
附图说明
图1为本发明用户画像方法的整体流程示意图。
图2为本发明用户画像方法中布尔矩阵分解的流程示意图。
图3为本发明基于手机用户画像的结构示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,本发明基于手机App安装列表的用户画像方法,包括如下步骤:
(1)收集大量用户的手机App安装列表并进行预处理,以确定用户数量m以及APP数量n;
(2)构建用户与APP的关联矩阵U,并对其进行布尔矩阵分解U=CB,C为用户系数矩阵且维度为m×k,B为特征矩阵且维度为k×n,k为自定义的特征数量;
(3)对于待画像的用户,根据其手机App安装列表确定这些用户的App安装向量;
(4)使待画像用户的App安装向量乘以B的伪逆矩阵,得到这些用户的特征向量;
(5)根据特征向量通过有监督和无监督的方式分别对待画像用户进行分类和聚类,同时根据所具备的特征为每一待画像用户打上标签。
由此可见,本发明方法利用布尔矩阵分解方法从手机App安装列表中提取关键特征,有效地刻画用户的特性,从而完成对用户的画像。
在具体实施过程中,本实施例针对手机用户的App安装列表,利用布尔矩阵分解的方法提取关键特征,并在此基础上进行用户画像,包括分类(用户属性发现)、聚类(用户群体发现)、标签(个性化标签),具体步骤如下:
(1)获取欲画像用户的手机App安装列表并进行预处理,即过滤掉安装App数目特别少的用户,以及在整个数据集中出现次数特别少的用户。
(2)对预处理后的手机用户的App安装列表提取关键特征,得到用户的特征,建立特征空间。
构建用户-APP关联矩阵U(m×n),对其进行布尔矩阵分解U=CB,C为用户系数矩阵维度为m×k,B为特征矩阵维度为k×n,m为用户数量,n为APP数量,k为自定义的特征数量;其中利用布尔矩阵分解的方法提取关键特征的过程如图2所示:
2.1针对数据集中的m个用户和n个App,利用每一个用户u的手机App安装列表,将用户表示成一个n维的二值向量,共有第i维的值为1表示用户u安装了第i个App,为0表示该用户没有安装此App。
2.2根据以下公式先计算矩阵U中任意两个App之间的相关性,形成一个m×m的关联矩阵R,每一维的实数值rij代表第i个App和第j个App的关联性。
Figure BDA0002218961700000051
其中:u.i是指矩阵u的第i列,<,>表示向量的内积运算。
2.3引入一个阈值τ,当rij≥τ,则将rij的值设为1;当rij<τ,将rij的值设为0,从而将实数矩阵R转换为布尔矩阵A,矩阵A中每一个行向量作为形成布尔子矩阵B的候选向量。
2.4根据如下目标函数,以贪心的方式从矩阵A中选择行向量来补全矩阵B,同时,生成矩阵C的列向量,重复k次,最终得到两个矩阵B和C。
Figure BDA0002218961700000052
其中:u′是由分解后得到的两个子矩阵B和C重构后得到的矩阵,u′i是重构矩阵U′的行向量,
Figure BDA0002218961700000053
表示异或运算。
k×n的布尔矩阵B表示了k个特征向量,每个特征向量描述了由哪些App组成,如果bi,j=1表示第i个特征向量中包含第j个App,反之,则没有;矩阵B可看做通过用户的手机App安装列表中学习到的特征空间。
m×k的布尔矩阵C表示了用户是否具备某个特征,如果如果ci,j=1表示第i个用户具备第j个特征,反之,则没有。
(3)基于特征空间,对用户进行表征。
一个用户可以被他/她安装的应用程序列表描述为ui=(a1,a2,…,am),其中aj为第j个应用程序,它有两个值,分别为1和0,用于指示应用程序是否已安装。基于特征空间B中,用户可以近似表征为:
Figure BDA0002218961700000061
其中:
Figure BDA0002218961700000062
表示矩阵B的伪逆矩阵,
Figure BDA0002218961700000063
表示布尔乘积,布尔乘积运算中会涉及到两项相加,如果两项都是1的话,则1+1=1。
(4)针对用户表征向量,分别进行有监督和无监督的方法,完成用户画像。
如图3所示,基于用户表征向量对用户进行画像,具体过程如下:
4.1对用户进行有监督的分类学习:给定一个属性α及其标签集合L={l1,l2,…,lz},对于一个在基于特征空间B所表征的用户pi,查找一个函数:
y(α):pi→lj
其中:pi是分类器SVM的输入,lj∈L是输出。
4.2对用户进行无监督的聚类学习:对于在基于特征空间B的用户集合{p1,p2,…,pi,…,pn},将这n个用户通过聚类分组到q(q<<n)个组G={G1,G2,…,Gq},使得同一个组内的用户间的距离最小,不同组的用户间的距离最大,如下式:
Figure BDA0002218961700000064
其中:μi是组Gi中所有用户的均值。
4.3对用户赋予语义标签,具体地:
①利用众包的方法获得特征向量bj提取语义sj,每个特征向量bj提拥有唯一的一个语义sj;通过微信朋友圈征集参与者,对于每个特征bj,参与者根据他们对在bj中出现的App的了解,从候选词集合中选择一个语义词,我们手机参与者的答案,并选择频率最高的词作为特征bj的语义标签sj
②将特征向量的语义作为标签赋予给拥有该特征向量的用户pi,从而得到该用户的标签合集Tag(pi):
Tag(pi)={sj|pij=1}
其中:Tag(pi)表示用户pi所拥有的语义标签集合,pij=1表示用户pi拥有第j个特征。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (1)

1.一种基于手机App安装列表的用户画像方法,包括如下步骤:
(1)收集大量用户的手机App安装列表并进行预处理,以确定用户数量m以及APP数量n,具体地:首先设定相关阈值,若某一App,其安装人数小于一定阈值的话,则剔除该App及其相关信息;若某一用户,其手机App安装列表上的App数量小于一定阈值的话,则剔除该用户及其相关信息;
(2)构建用户与APP的关联矩阵U,并对其进行布尔矩阵分解U=CB,C为用户系数矩阵且维度为m×k,B为特征矩阵且维度为k×n,k为自定义的特征数量;
所述关联矩阵U的维度为m×n且每一元素值为0或1,若其中第i行第j列元素值uij=1,则表示第i个用户的手机App安装列表中存在有第j个APP,否则uij=0;i和j均为自然数且1≤i≤m,1≤j≤n;
对关联矩阵U进行布尔矩阵分解的具体过程为:首先计算关联矩阵U中任意两列之间的相关性,形成一个m×m大小的实数矩阵R,其中每一元素值代表两个App的关联性;然后将实数矩阵R转换为布尔矩阵A,布尔矩阵A中每一个行向量作为形成特征矩阵B的候选向量;最后设计目标函数,以贪心的方式从布尔矩阵A中选择行向量来补全特征矩阵B,同时生成用户系数矩阵C的列向量,重复k次,最终得到两个矩阵B和C;
所述特征矩阵B用于描述每个特征对应有哪些APP,矩阵B中每一元素值为0或1,若其中第p行第j列元素值bpj=1,则表示第j个APP具备第p个特征,否则bpj=0;p和j均为自然数且1≤p≤k,1≤j≤n;
所述用户系数矩阵C用于描述每个用户具备哪些特征,矩阵C中每一元素值为0或1,若其中第i行第p列元素值cip=1,则表示第i个用户具备第p个特征,否则cip=0;i和p均为自然数且1≤i≤m,1≤p≤k;
(3)对于待画像的用户,根据其手机App安装列表确定这些用户的App安装向量,所述App安装向量的维度为1×n且每一元素值为0或1,若其中第j列元素值=1,则表示该用户的手机App安装列表中存在有第j个APP,否则第j列元素值=0,j为自然数且1≤j≤n;
(4)使待画像用户的App安装向量乘以B的伪逆矩阵,得到这些用户的特征向量;
(5)根据特征向量通过有监督和无监督的方式分别对待画像用户进行分类和聚类,同时根据所具备的特征为每一待画像用户打上标签,具体地:采用众包的方式获得每个特征的语义,所述特征向量的维度为k×1且每一元素值为0或1,若其中第p行元素值=1,则表示用户具备第p个特征,否则第p行元素值=0;对于待画像用户,根据其特征向量中对应元素值为1的所有特征语义为用户打上标签。
CN201910926108.6A 2019-09-27 2019-09-27 一种基于手机App安装列表的用户画像方法 Active CN110727864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910926108.6A CN110727864B (zh) 2019-09-27 2019-09-27 一种基于手机App安装列表的用户画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910926108.6A CN110727864B (zh) 2019-09-27 2019-09-27 一种基于手机App安装列表的用户画像方法

Publications (2)

Publication Number Publication Date
CN110727864A CN110727864A (zh) 2020-01-24
CN110727864B true CN110727864B (zh) 2022-12-13

Family

ID=69218543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910926108.6A Active CN110727864B (zh) 2019-09-27 2019-09-27 一种基于手机App安装列表的用户画像方法

Country Status (1)

Country Link
CN (1) CN110727864B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597343B (zh) * 2020-07-24 2021-02-02 北京淇瑀信息科技有限公司 一种基于app的智能化用户职业判断方法、装置和电子设备
CN111833676A (zh) * 2020-08-05 2020-10-27 北京育宝科技有限公司 一种交互式学习辅助方法、装置和系统
CN113591065B (zh) * 2021-07-21 2024-06-04 上海淇玥信息技术有限公司 基于app安装列表分群的用户设备认证方法、装置及设备
CN116186628B (zh) * 2023-04-23 2023-07-07 广州钛动科技股份有限公司 App应用自动打标方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537240A (zh) * 2017-03-01 2018-09-14 华东师范大学 基于领域本体的商品图像语义标注方法
CN110119465A (zh) * 2019-05-17 2019-08-13 哈尔滨工业大学 融合lfm潜在因子与svd的手机应用用户喜好检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130246164A1 (en) * 2010-07-09 2013-09-19 Vimal Kumar Khanna System and method for predicting specific mobile user/specific set of localities for targeting advertisements.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537240A (zh) * 2017-03-01 2018-09-14 华东师范大学 基于领域本体的商品图像语义标注方法
CN110119465A (zh) * 2019-05-17 2019-08-13 哈尔滨工业大学 融合lfm潜在因子与svd的手机应用用户喜好检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Pauli Miettinen等.The Discrete Basis Problem.《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》.2008,第20卷(第10期), *
Towards an integrated crowdsourcing definition;Enrique Estellés-Arolas等;《Journal of Information Science》;20120309;第38卷(第2期);全文 *
基于大规模手机感知数据的用户特性挖掘;赵莎;《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》;20180115;第42-60页 *

Also Published As

Publication number Publication date
CN110727864A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110727864B (zh) 一种基于手机App安装列表的用户画像方法
CN108229590B (zh) 一种获取多标签用户画像的方法和装置
US8543532B2 (en) Method and apparatus for providing a co-creation platform
Bhaskaran et al. An efficient personalized trust based hybrid recommendation (tbhr) strategy for e-learning system in cloud computing
Wang et al. Analysis of user behaviors by mining large network data sets
CN101454771A (zh) 基于使用多媒体调查特征匹配以划分和标记个体的系统和方法
Bhor et al. Digital media marketing using trend analysis on social media
CN109471978B (zh) 一种电子资源推荐方法及装置
CN112528164B (zh) 一种用户协同过滤召回方法及装置
CN115545832A (zh) 商品搜索推荐方法及其装置、设备、介质
CN112633690A (zh) 服务人员信息分配方法、装置、计算机设备和存储介质
Zhang et al. Mining target users for mobile advertising based on telecom big data
CN114090401B (zh) 处理用户行为序列的方法及装置
CN114491267A (zh) 一种物品的推荐方法、装置以及存储介质
CN117440182B (zh) 一种基于视频内容分析和用户标签的智能推荐方法及系统
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
CN115545834B (zh) 基于图神经网络与元数据的个性化服务推荐方法
CN115631005A (zh) 一种基于多重会话感知的超图推荐方法
CN114647785A (zh) 基于情感分析的短视频获赞数量预测方法
CN115203516A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN112118486A (zh) 内容项投放方法、装置、计算机设备及存储介质
CN115374360B (zh) 媒体资源的召回方法和媒体资源召回模型的训练方法
CN116029770B (zh) 广告创意智能化推送方法、系统、设备与存储介质
Hao et al. Telecom Big Data based Precision Marketing Algorithms for Financial Industry
CN116662501B (zh) 一种基于会话上下文信息的会话推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant