CN113377912B

CN113377912B - 一种基于自然语言处理的移动手机用户画像建立方法

Info

Publication number: CN113377912B
Application number: CN202110644378.5A
Authority: CN
Inventors: 李嘉晨; 陆艺; 徐晓冬; 周建成
Original assignee: Nanjing Guangpu Information Technology Co ltd
Current assignee: Nanjing Guangpu Information Technology Co ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2023-06-30
Anticipated expiration: 2041-06-09
Also published as: CN113377912A

Abstract

本发明公开一种基于自然语言处理的移动手机用户画像建立方法，首先获取移动应用使用序列和对应的使用应用时长序列；对于各移动应用使用序列，根据序列中前后移动应用的不同，动态调整移动应用的量化特征向量；对每个移动应用序列拆分为一系列场景小片段；对所有移动应用场景小片段进行聚类；使用HashingTF算法，估算每个类别各个移动应用的频次，给每个场景类别命名，以此作为衡量使用移动应用行为的标尺；使用som算法和Kmeans++算法，得到每个长序列对应的类别标签；结合场景标尺，统计计算不同类别标签下移动应用使用序列的场景构成的tgi值，以此构建移动应用使用序列的场景偏好矩阵。此种方法可更加精准地对移动应用使用用户进行刻画和描述，实现精准的归类。

Description

一种基于自然语言处理的移动手机用户画像建立方法

技术领域

本发明属于信息技术领域，特别涉及一种基于自然语言处理的移动手机用户画像建立方法。

背景技术

近年来随着科学技术的进步，数字经济已成为拓展新经济空间和推动经济社会升级的重要手段，据《中国互联网发展报告2020》显示,截至2019年底中国移动互联网用户(简称“移动用户”)规模达13.19亿，数字化在改变人类生活和人类社会连接关系的同时，也在改变着各类企业对业务和技术的传统认知。互联网企业通过先进的技术手段采集移动用户对手机应用软件(简称“手机APP”)的访问行为数据，通过数字化转型帮助企业围绕客户重塑运营模式，产生新的商业价值。

随之而来的是对个人隐私和数据安全保护的需求日益增长，欧盟于2018年颁布了GDPR，我国也颁布了《数据安全管理办法》。如何在不触及个人隐私的情况下，使用数据挖掘工具结合统计方法来刻画移动互联网用户的行为特征，成为移动互联网大数据的重要研究课题。

传统做法是基于用户使用的手机APP实施统计分类，分类方式往往简单并且偏于主观；此外也会基于用户使用手机APP的时间长短、频次高低进行划分，诸如此类的简单模式识别方法并不能有效定义复杂且快速增长的手机APP类型，表现为分类结果杂乱、僵化，无法和现实生活中能够被理解的用户特征相对应，也就无从在反映数字化经济生活的情景中发挥应有作用。

作者在长期对移动互联网用户数据的研究分析中发现，移动用户对手机APP使用的先后顺序、以及使用不同手机APP的嵌套关系往往蕴藏着特殊的信息。针对这样的特性，我们发明了基于传统自然语义分析(NLP)技术的分析方法，应用于对移动用户使用手机APP的行为模式划分，以及行为模式相似度的识别。由此产生的“一种移动用户使用手机APP行为进行归类和测量的方法”，在对移动用户进行行为模式识别和分类上取得较好效果。

对用户行为模式识别和分类，可以帮助手机生产厂商和移动应用开发单位更好地了解用户，对用户进行精准个性化非盈利服务，实现更好地用户体验和社会价值，例如，政府部门需要推广一款老年人疾病防控移动应用，服务辖区内的退休无工作且身体不佳缺少子女陪伴的老年人，本发明可以根据对移动用户模式识别和分类的结果，给出疑似目标人群的范围和编号，实现政务部门精准推广，有极大的社会价值和意义。

基于以上分析，本发明人针对目前移动手机用户的使用习惯，采用大数据处理技术构建用户画像，本案由此产生。

发明内容

本发明的目的，在于提供一种基于自然语言处理的移动手机用户画像建立方法，其可更加精准地对移动应用使用用户进行刻画和描述，实现精准的归类。

为了达成上述目的，本发明的解决方案是：

一种基于自然语言处理的移动手机用户画像建立方法，包括如下步骤：

步骤1，设定时间窗口，在数据库中提取各个用户在该时间窗口内使用移动应用的序列，作为移动应用使用序列；然后按照打开时间先后进行排序，并提取相对应的用户使用各个移动应用的时长，从而得到对应移动应用使用序列的使用应用时长序列；

步骤2，汇总所有用户的移动应用使用序列，将每个移动应用看作是一个文本词汇，利用word2vec模型进行训练，从而得到所有移动应用的特征向量，这些特征向量共同组成移动应用向量化模型；

步骤3，对于各移动应用使用序列，根据序列中前后移动应用的不同，动态调整移动应用的量化特征向量；

步骤4，运用自然断点算法，对每个移动应用序列进行切分，每个移动应用序列被拆分为一系列场景小片段；

步骤5，利用TFIDF算法计算显著性权重矩阵P1；

步骤6，利用重复法计算移动应用序列的时长权重矩阵P2；

步骤7，基于步骤3的量化特征向量T_new,k、步骤5的显著性权重矩阵P1、步骤6的时长权重矩阵P2，利用下式计算移动应用使用序列的特征向量：

T_array＝P₁P₂[T_new,k]_n

步骤8，将步骤4的每个场景看作文章集中的一个自然段，计算每个小片段的特征向量，用som算法对这些小片段进行预训练，得到应该划分的聚类数目c_k；

步骤9，使用Kmeans++算法，代入c_k，对所有移动应用场景小片段进行聚类；然后使用HashingTF算法，估算每个类别各个移动应用的频次，计算在不同场景类别中各个移动应用的tgi值，给每个场景类别命名，以此作为衡量使用移动应用行为的标尺；

步骤10，再次使用som算法，对移动应用特征向量加权平均后代表序列的特征向量进行与训练，得到应该划分的聚类数目x_k；

步骤11，使用Kmeans++算法，代入步骤10得到的聚类数目x_k，进行聚类，至此，每个长序列都得到一个类别标签；

步骤12，结合步骤9输出的场景标尺，统计计算不同类别标签下移动应用使用序列的场景构成的tgi值，以此构建移动应用使用序列的场景偏好矩阵。

上述步骤3中，将移动应用使用序列中的各移动应用按照出现频次由高到低进行排序，并根据下式计算第k个移动应用的量化特征向量：

其中，k为排序后的移动应用的位置序号，k＝1,2,3,…；T_k为第k个移动应用的特征向量；C_k表示第k个移动应用的权重；T_new,k表示第k个移动应用的量化特征向量。

上述步骤3中，更新频次由高到低设定位次的移动应用量化特征向量，并优先对频次排位靠前的移动应用量化特征向量进行微调；在对排序靠后的移动应用进行适应性调整时，如果前后出现了频次排位靠前的移动应用，则使用已经调整结束的相对应量化特征向量，而非原始特征向量。

上述步骤4的具体内容是：首先对于对应时间序列上长时间的静默，直接进行第一次切割；然后，代入步骤3中的量化特征向量，计算前后移动应用对应的量化特征向量两两之间的欧式距离，得到距离序列，运用自然断点法找到距离突变点，进行第二次切割，将突变位置断开；至此，每个移动应用序列被拆分成一系列小片段。

上述步骤5中，具体先应用时长矩阵，将时长分若干组别，组别由小到大代表着时长的增长；将移动应用时序序列按时长组别进行重复处理，以此作为新的移动应用使用序列应用于TFIDF算法，得到显著性复合矩阵。

上述步骤10、11中，按月对用户的加权移动应用使用序列进行Kmeans++聚类，每个用户得到一个按月的行为类别标签序列。

采用上述方案后，本发明具有如下改进：

第一，对于移动应用使用序列，着重挖掘移动应用的多功能信息，有效地量化用户使用移动应用所埋藏的方方面面的信息。该模型相较于传统方法能够兼顾移动应用使用频次，移动应用使用顺序，移动应用显著性，移动应用多功能性，移动应用使用时长，移动应用自身特征。实现更加精准量化移动应用使用信息的目的，从而对用户描述分类和刻画也更加精确和全面；

第二，借鉴地理信息学自然裂点的思路，对连续变量特征序列进行自适应划分，得到一系列场景小片段，再利用前后场景片段信息，进一步细分场景片段得到细分场景小片段。这样做能够减少解读主观性，增加结果科学性。同时更精细的划分场景能够让测量移动应用使用行为的标尺提升一个精确度量级，能够衡量更加微小的差异，更加准确地衡量使用移动应用行为模式；

第三，使用TFIDF算法，增加显著性权重矩阵模块，这能够让使用频次少但是极具特殊含义的移动应用能够显现出来，而不被大众移动应用淹没，目的是保留明确代表用户某一方面属性的重要信息；

第四，使用进化树算法，对时序类别标签信息挖掘变异和演化特征，更综合地描述和概括使用移动应用行为的长时间表现。甚至能够挖掘用户职业、身份、人生阶段等变迁信息，尽可能地准确衡量划分用户。

基于以上改进，本发明的有益效果是：

(1)对移动应用使用用户有着更精准的刻画和描述，能够区分用户即使是非常微小的差异，同时对于用户的变迁信息也能够有所挖掘。这能够更好地帮助手机生产厂商了解并分析自己的用户，为进一步优化用户结构、部署产品战略提供根基。同时为精准化定制化营销提供了无限的可能性；

(2)对移动应用使用用户实现更精准的归类，即使是使用同一款移动应用，也能挖掘使用功能的差异，以此达到精确分类的目的。更精准的类别标签体系，能够实现分批次分类群精准推荐与推广，提高推荐效率，节约推荐成本；

(3)能够挖掘并凸显特殊移动应用特征，代表职业、身份的移动应用往往呈现使用频次低，打开时长短的特点。增加显著性权重矩阵模块，得以实现这类移动应用不被主流移动应用特征埋没，实现用户类别标签包含职业身份信息的目的，用以提升产品规划定位和形象的准确度，辅助手机生产厂商设计、定位手机机型。

附图说明

图1是本发明的原理图；

图2是本发明的流程图。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

如图1和图2所示，本发明提供一种基于自然语言处理的移动手机用户画像建立方法，首先构建移动应用使用序列的特征提取和挖掘模块，利用显著性权重矩阵、时长权重矩阵、特征向量偏移算法结合场景标尺模块，对用户使用移动应用的移动应用使用序列进行特征提取、挖掘、测量和聚类，达到对移动应用使用序列量化、聚类的目的，具体包括如下步骤：

所述步骤1中，时间窗口通常设定为一个月，超过一个月的，按一个月的范围进行切割，同一个用户在不同的月份使用移动应用的情况视作不同的序列进行处理；

所述步骤1中，在得到使用应用时长序列时，时长以分钟为单位，并采用向上取整的方式，不足一分钟的看作是一分钟；另外，在获取时长时，是使用时间差，也即结束移动应用的时点减去开启移动应用的时点，并不考虑后台运行的移动应用，若后台应用被重新激活，则认为是重新打开的移动应用；

步骤2，汇总所有用户的移动应用使用序列，将每个移动应用看作是一个文本词汇，上下文窗口选定为5个，学习率设置为0.1，利用word2vec模型进行训练，从而得到所有移动应用的特征向量，这些特征向量共同组成移动应用向量化模型；

在步骤2中，由于采用基于贝叶斯回归的word2vec模型，在窗口选定后，连续的相同移动应用没有数学上的意义，则作简化处理，将连续超过两个的相同移动应用兼并成两个，对训练输出的特征向量不会有任何影响，但是，相应的时长序列，也必须作出一致的兼并处理，以保证总时长保持不变。额外需要分配的时长平均叠加在兼并后的两个位置上。

步骤3，对于各移动应用使用序列，根据序列中前后移动应用的不同，动态调整移动应用的量化特征向量，具体来说，将移动应用使用序列中的各移动应用按照出现频次由高到低进行排序，并根据下式计算第k个移动应用的量化特征向量：

其中，k为排序后的移动应用的位置序号，k＝1,2,3,…；T_k为第k个移动应用的特征向量；C_k表示第k个移动应用的权重，这里特别需要说明的是，如果序列中包含的移动应用较少，对于k的某些取值使得不存在第k-1、k-2或者k+1、k+2个移动应用时，这时可采用最近邻的一个移动应用(可以是其本身)作重复处理来代替；T_new,k表示第k个移动应用的量化特征向量。

在对量化向量进行调整时，设置C_k远大于C_p，k≠p，这样能够保证对特征向量的调整只是微调，不会导致很大的偏移；同时对于需要调整的所有移动应用而言，C_k、C_p是一致的，不随移动应用的不同而改变。

通过以上迭代，更新频次由高到低前百分之一的移动应用量化特征向量，同一个移动应用在不同的上下移动应用环境中具有不同的特征向量，具体而言，微信是使用频次最高的移动应用，步骤2中已经计算获得了微信的特征向量，但是根据前后的移动应用不同，需要对微信的特征向量作相应调整，序列“支付宝-微信-支付宝”当中的微信特征向量和“王者荣耀-微信-王者荣耀”中的微信特征向量因为支付宝和王者荣耀的特征向量不同而微调成两个不同的特征向量，至此所有序列中的微信特征向量都被确定且都各不相同，然后对频次第二名的移动应用支付宝进行调整，例如对序列“微信-支付宝-美团外卖”，微信的特征向量需迭代为对微信特征向量调整步骤调整后的向量，美团外卖则使用步骤2计算获得的特征向量，完成对支付宝的特征向量调整，以此类推，按频次顺序边调整边迭代。

在所述步骤3中，优先对频次排位靠前的移动应用量化特征向量进行微调；在对排序靠后的移动应用进行适应性调整时，如果前后出现了频次排位靠前的移动应用，需要使用已经调整结束的相对应量化特征向量，而不是原始特征向量。这样的迭代过程能够将移动应用的多功能信息越挖越深。

步骤4，运用自然断点算法，对每个移动应用序列进行切分。首先对于对应时间序列上长时间的静默，直接进行第一次切割。然后，代入步骤3中的量化特征向量，计算前后移动应用对应的量化特征向量两两之间的欧式距离，得到距离序列，运用自然断点法找到距离突变点，进行第二次切割，将突变位置断开。至此，每条移动应用序列被拆分成一系列小片段。

上述步骤4中，计算前后移动应用特征向量的欧式距离，获得一个移动距离序列，自然断点法将序列断裂成若干块，断裂点即为移动应用使用序列自然断点。

步骤5，利用TFIDF算法计算显著性权重矩阵P1：该统计算法用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。在这里，一个移动应用代表一个字词，一个移动应用序列代表一个文件集。如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。计算完每个完整序列每个移动应用的TDIDF值，以此作为移动应用权重，输出为显著性权重矩阵P1，其矩阵维度为n*m，n为序列的长度，即完整序列中包含移动应用的个数，m为每个移动应用的特征向量的维度(长度)；

步骤6，利用重复法计算移动应用序列的时长权重矩阵P2。将每条移动应用序列与步骤1得到的时长序列相匹配，制作输出时长权重矩阵P2，其矩阵维度为n*m，n为序列的长度，即序列中包含移动应用的个数，m为每个移动应用的特征向量的维度(长度)；

上述步骤5、6中，具体先应用时长矩阵，将时长分若干组别，组别由小到大代表着时长的增长。将移动应用时序序列按时长组别进行重复处理，例如微信的使用时长是2，王者荣耀的使用时长是5，那么就将序列由微信_王者荣耀处理为微信_微信_王者荣耀_王者荣耀_王者荣耀_王者荣耀_王者荣耀。以此作为新的移动应用使用序列应用于TFIDF算法，得到显著性权重矩阵P1，再结合由步骤1得到的时长序列获取时长权重矩阵P2，将两个矩阵复合得到复合矩阵。

步骤7，基于步骤3、5、6，利用下式计算移动应用使用序列量化特征向量：

T_array＝P₁P₂[T_new,k]_n

其中，P₁为显著性权重矩阵，P₂为时长权重矩阵，P₁P₂为两者复合，n为序列的长度，[T_new,k]_n代表将每个移动应用的量化特征向量T_new,k按移动应用使用序列的先后顺序排列成为n*m大小的矩阵，以实现两个权重矩阵P1、P2的赋权。这样就实现了量化移动应用使用序列，用一个高维向量T_array替代移动应用使用序列。这样得到的移动应用使用序列向量兼顾移动应用使用时长、特殊性、频次，能够准确地刻画全部移动应用使用序列。

步骤8，小片段场景刻画与解读：利用步骤4输出的一系列场景小片段，每个场景可以看作文章集中的一个自然段。利用步骤7的方法同样计算每个移动应用小片段的特征向量并记录下来。用som算法对这些小片段进行预训练，得到应该划分的聚类数目c_k；

步骤9，使用Kmeans++算法，代入步骤8中输出的结果c_k，对所有移动应用场景小片段进行聚类，使用HashingTF算法，估算每个类别各个移动应用的频次，计算在不同场景类别中各个移动应用的tgi值，进行观察分析对比，给每个场景类别命名，以此作为衡量使用移动应用行为的标尺；

上述步骤8、9中，将小片段分完类群后，解读场景小片段的含义时，可以对场景小片段进行进一步细分，细分规则是分析场景小片段前后的小片段类别编号，即针对同一类别编号的场景小片段，在对其上下文框架使用word2vec和kemeans++算法进行进一步细分，得到的细分场景更加稳定且组成简单易解读，细分小片段类别内部差异更小，从而使用移动应用在细分场景小片段中的显著程度来解读细分场景小片段更加精准，相当于把衡量标尺精细化了，能测量更细微的使用移动应用的行为差别。

步骤11，使用Kmeans++算法，代入步骤10中输出的聚类数目x_k，进行聚类，至此，每个长序列都得到一个类别标签；

上述步骤10、11中，按月对用户的加权移动应用使用序列进行Kmeans++聚类，每个用户不同的月份可能存在不同的行为类别标签，每个用户得到一个按月的行为类别标签序列，对于行为类别标签序列聚合成描述用户的模式类别，可以采用成熟的进化树算法，挖掘行为类别标签序列的演化、变异信息。

步骤12，结合步骤9输出的场景标尺，统计计算不同类别标签下移动应用使用序列的场景构成的tgi值，以此构建移动应用使用序列的场景偏好矩阵。根据场景标尺的命名为依据，得到各个移动应用使用序列类别标签的多方位信息，达到测量各个移动应用使用序列类别的目的；

上述步骤12中，用场景标尺衡量、刻画用户行为，是对用户每个月份的量化和描述。对用户的整体描述需要结合进化树算法挖掘的演化变异信息和每个月度量结果作综合性判断和描述。

以下将提供一个具体实施例，从手机生产厂商获得经过用户授权的用户使用移动应用序列和时长数据，然后采用自然语言处理技术建模，从而能够实现精准全面科学的用户画像，具体包括如下内容：

从手机生产厂商数据接口获得2000w用户每天的移动应用使用序列和移动应用使用时长序列，持续三年。例如：

A 2018.01.01王者荣耀-微信-王者荣耀60分钟-1分钟-75分钟

B 2018.01.01微信-饿了么-美团外卖-抖音短视频-快手-微信-今日头条1分钟-3分钟-4分钟-20分钟-15分钟-5分钟-10分钟

……

对上述移动应用使用序列集合(所有用户所有日期)进行word2vec训练，学习率选取0.1，移动窗口选取3，输出向量维度选取64。移动窗口影响模型计算条件概率的范围，在A中微信和王者荣耀间同时出现的条件概率会进行计算，而B中，今日头条和饿了么同时出现的条件概率由于间隔超过了设定的窗口值，条件概率不会被计算。

得到的移动应用特征向量可以被用来分区。特征向量在同一个区域的，表达同一个功能，这是由序列中位置可替代性决定的。例如B中，饿了么和美团外卖出现在序列中的位置如果大体相仿，那么这两个移动应用特征向量会落在同一个区域，在高维空间中相近。因此移动应用特征向量能够实现对移动应用功能的量化。

对于出现频次高的移动应用，例如微信，其功能可能是多样性的，需要按照移动应用的出现频次由高到低对前1％的移动应用依次进行调整。首先调整词频最高的微信，以A为例，设定微信的权重为0.8(C_k)，王者荣耀权重为0.15(C_k+1，C_k-1)，由于不存在间隔为2的前后移动应用，重复王者荣耀，权重设置为0.05(C_k+2，C_k-2)。对以上特征向量作加权平均，得到更新后的A序列中的微信向量。这里的微信会偏向王者荣耀的区域，即游戏区域，功能即偏向于登陆游戏。同理，对于序列B，前置位的微信会偏向美团外卖和饿了么的区域，即功能偏向于支付。后置位的微信会偏向抖音短视频、快手、今日头条的区域，即功能偏向于闲时刷资讯。对于B，更新完微信的特征向量后，例如需要更新序列B中快手的特征向量，对于C_k+1，须使用前轮次更新后的微信特征向量，而不是原始的微信特征向量，快手的特征向量也会偏向相应的功能区域。以此类推，直至所有的频次1％的移动应用在所有的移动应用序列中都更新完毕。

至此，得到了所有移动应用序列中所有移动应用调整后的特征向量。计算每个序列中前后移动应用的向量欧式距离，利用自然断点法，找到突变位点。例如序列B，美团外卖的特征向量距离抖音短视频的特征向量相比于美团外卖距离饿了么以及抖音短视频距离快手显得尤其大，B序列被分割为两个小片段，片段B1：微信-饿了么-美团外卖，片段B2：抖音短视频-快手-微信-今日头条。得到所有移动应用序列的一系列子片段。

再全局计算每个移动应用序列中每个移动应用的TFIDF值，例如序列B，今日头条、饿了么、美团外卖相对特殊，微信相对不显著，得到显著性矩阵[[0.5,2,2,1,1,0.5,2.5]]，此矩阵将今日头条特征向量的占比拉大。

利用相应的时长序列得到时长矩阵，例如序列B，按使用时长得到时长矩阵[[1,3,4,20,15,5,10]]，此矩阵将使用时间长的移动应用的特征向量的占比拉大，反应使用时间的信息。

结合时长矩阵和显著性矩阵，以及移动应用的特征向量集合矩阵。利用步骤7中的计算公式，得到移动应用序列向量。例如序列B，其序列向量由其时长矩阵和显著性矩阵可知，偏向抖音短视频和今日头条。

同理，得到所有小片段的序列向量。特别说明，小片段的显著性矩阵需要在全局小片段集合中重新计算，显著性矩阵会和移动应用序列显著性矩阵有所差异，时长矩阵则不会有差异。

用som算法确定在全局中，移动应用使用序列合适的聚类数目，并对序列向量进行kmeans聚类。例如som算法确定类别数目为27类，类别标签为0-26。得到序列B的标签为25。同理，用som算法确定小片段合适的聚类数目，并对小片段向量进行kmeans聚类，例如som算法确定类别数目为56类，类别标签为0-55。得到子片段B1的类别标签为23，子片段B2的类别标签为24。

对于子片段，细化计算子片段亚型。利用得到子片段类别标签，分析子片段前后的子片段类别标签。例如用户E某一天的子片段类别标签序列为53_44_29_34_33。首先分析出现频次最高的子片段类别29，对于29类子片段利用所有子片段序列中该子片段前后各两个子片段标签对所有的29类子片段进行进一步细致划分(kmeans聚类)。如果29标签前或后的子片段不足两个，则用重复法补全。按频次高低以此类推，直至细分完所有子片段的类别。对于用户E的该子片段序列，进一步细分后获得新的子片段亚型序列53*2-44*0-29*1-34*5-33*2。得到所有的子片段亚型标签后，统计移动应用在子片段亚型中的分布情况(词频，tgi显著程度)，对每一个子片段亚型标签进行解读和命名，得到精细科学的移动应用使用行为衡量标尺。例如29*1子片段亚型解读为，在上下学路上无聊地刷短视频的使用场景。

使用演化树算法对用户按天获得的序列类别编号进行聚合。例如用户C按天排序后的序列类别标签为22_1_0_3_3_3_3_22_3_22_22......用户D按天排序后的序列类别标签为0_8_8_8_8_8......利用前缀树的算法，得到用户C的用户类别标签为3_22，用户D的用户类别标签为8。前缀树反应的是用户相对稳定的模式类别，忽略某几天不稳定的偶然的序列类别标签，由于用户生活习惯按常理不会有大幅度变化，因此大部分用户的序列类别标签是相对稳定的。

对用户类别标签进行筛选，保留具有一定人数的类别标签，得到75类。剩余的罕见类别标签利用序列向量比对的方法，得到75类中的最相近的一个类别标签作为该用户的类别标签。

对于每一个用户类别标签，分析全局中，子片段亚型类别标签的分布情况，计算tgi值，综合考虑子片段亚型类别标签在每个用户类别标签中的显著情况。用子片段亚型的名称衡量解读刻画每一个用户类别标签。例如对类别0_11，衡量解读为兼职的喜爱moba类游戏爱看短视频的大学生。至此，获得所有用户的用户类别标签以及相应的衡量解读，得到完整精细全面的用户画像，用以理解用户和针对性产品战略规划。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于自然语言处理的移动手机用户画像建立方法，其特征在于包括如下步骤：

步骤5，利用TFIDF算法计算显著性权重矩阵P1；

步骤6，利用重复法计算移动应用序列的时长权重矩阵P2；

T_array＝P₁P₂[T_new,k]_n

2.如权利要求1所述的方法，其特征在于：所述步骤3中，将移动应用使用序列中的各移动应用按照出现频次由高到低进行排序，并根据下式计算第k个移动应用的量化特征向量：

3.如权利要求1所述的方法，其特征在于：所述步骤3中，更新频次由高到低设定位次的移动应用量化特征向量，并优先对频次排位靠前的移动应用量化特征向量进行微调；在对排序靠后的移动应用进行适应性调整时，如果前后出现了频次排位靠前的移动应用，则使用已经调整结束的相对应量化特征向量，而非原始特征向量。

4.如权利要求1所述的方法，其特征在于：所述步骤4的具体内容是：首先对于对应时间序列上长时间的静默，直接进行第一次切割；然后，代入步骤3中的量化特征向量，计算前后移动应用对应的量化特征向量两两之间的欧式距离，得到距离序列，运用自然断点法找到距离突变点，进行第二次切割，将突变位置断开；至此，每个移动应用序列被拆分成一系列小片段。

5.如权利要求1所述的方法，其特征在于：所述步骤5中，具体先应用时长矩阵，将时长分若干组别，组别由小到大代表着时长的增长；将移动应用时序序列按时长组别进行重复处理，以此作为新的移动应用使用序列应用于TFIDF算法，得到显著性复合矩阵。

6.如权利要求1所述的方法，其特征在于：所述步骤10、11中，按月对用户的加权移动应用使用序列进行Kmeans++聚类，每个用户得到一个按月的行为类别标签序列。