CN112632275A - 基于个人文本信息的人群聚类数据处理方法、装置及设备 - Google Patents
基于个人文本信息的人群聚类数据处理方法、装置及设备 Download PDFInfo
- Publication number
- CN112632275A CN112632275A CN202011394270.7A CN202011394270A CN112632275A CN 112632275 A CN112632275 A CN 112632275A CN 202011394270 A CN202011394270 A CN 202011394270A CN 112632275 A CN112632275 A CN 112632275A
- Authority
- CN
- China
- Prior art keywords
- network
- users
- label
- matrix
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims abstract description 165
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 12
- 235000019580 granularity Nutrition 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 101100368725 Bacillus subtilis (strain 168) tagF gene Proteins 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010992 reflux Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于数据处理领域,公开了一种基于个人文本信息的人群聚类数据处理方法、装置及设备,能够为用户的各项特征添加对应的标签值,并匹配对应的标签权重,并根据用户之间的相关性构建相关网络矩阵,将相关网络矩阵与其他的社团网络矩阵进行结合组成多种相似性网络矩阵,这样就可以根据多重相似性网络矩阵,查找对应活跃用户作为种子用户的相关用户,证明向这些用户进行产品推销成功率相对较高,另外还可以根据构建的多重相似性网络矩阵中呈现的各个用户之间的相关性,挖掘个体用户的隐藏特性、个体用户之间的相似性和社交属性,能方便的输出人群聚类或基于种子用户扩展进行精准营销。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种基于个人文本信息的人群聚类数据处理方法、装置及设备。
背景技术
基于文本的人群聚类网络构建一般使用关键词匹配或者机器学习预测等单一方法,一个标签通常只由一种数据粒度或方法产生,没有考虑标签的时效性,传统方法通常依靠标签的是否来圈定,并未挖掘个体的隐藏特性,也不会考虑个体朋友、亲属之间的相似性。
因此,目前的人群聚类网络的构建容易出现覆盖率不高或者准确率不高的情况。
发明内容
有鉴于此,本申请提供了一种基于个人文本信息的人群聚类数据处理方法、装置及设备。主要目的在于解决目前人群聚类网络的构建容易出现覆盖率不高或者准确率不高的技术问题。
依据本申请的第一方面,提出了一种基于个人文本信息的人群聚类数据处理方法,步骤包括:
为获取的至少一个用户的特征文本添加对应的标签值,其中,每个用户对应至少一个特征文本;
为每个标签值匹配对应的标签权重;
以所述用户作为行,所述标签权重作为列,构建标签矩阵集;
根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵;
获取至少一个社交网络矩阵,将所述相关网络矩阵与至少一个所述社交网络矩阵进行结合构建多重相似性网络矩阵;
接收活跃用户的信息,根据所述活跃用户的信息在所述多重相似性网络矩阵中进行标记,将所述活跃用户作为种子用户,并计算所述多重相似性网络矩阵中其他用户距离所述种子用户的路径距离;
将所述路径距离小于等于设定阈值的其他用户作为目标用户,并获取所述目标用户的个人文本信息进行展示。
进一步地,所述为获取的至少一个用户的特征文本添加对应的标签值,具体包括:
利用标签预测模型或标签添加规则向所述特征文本中添加相应的标签;
从多个维度为所述特征文本的标签确定对应的标签值,其中多个维度包括:频次维度、利用tf-idf算法对标签进行统计计算后得到的标签重要性维度、数据不同粒度或特定行为维度。
进一步地,所述为每个标签值匹配对应的标签权重,具体包括:
为每个所述标签值设置对应的基础权重值;
为每个所述标签值设定相应的时间衰减系数;
将所述基础权重值与所述时间衰减系数相乘后,再进行归一化处理得到对应的标签权重。
进一步地,在所述以所述用户作为行,所述标签权重作为列,构建标签矩阵集之后,具体包括:
接收带有用户标记的特征反馈文本,根据所述用户标记查找所述特征反馈文本对应的用户的特征文本;
比对所述特征反馈文本与所述特征文本是否相同,若不同,则根据所述特征反馈文本对应的标签值匹配对应的反馈标签权重,并利用所述反馈标签权重替代所述标签矩阵集中所述特征文本对应的标签权重,形成新的标签矩阵集,若相同,则不进行处理。
进一步地,根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵,具体包括:
利用皮尔森算法根据所述标签矩阵集计算各个用户之间的相关系数;
当所述相关系数大于等于设定相关阈值时,确定所述相关系数对应的两个用户之间具有连边,所述相关系数对应的两个用户之间的相关值为1,当所述相关系数小于设定相关阈值时,所述相关系数对应的两个用户之间的相关值为0;
以各个用户作为相关网络矩阵的行和列,所述相关值作为相关网络矩阵的取值,构建相关网络矩阵。
进一步地,在获取至少一个社交网络矩阵,将所述相关网络矩阵与至少一个所述社交网络矩阵进行结合构建多重相似性网络矩阵之后,所述方法还包括:
利用Louvain算法从所述多重相似性网络矩阵的各个网络矩阵中检测得到目标网络矩阵;
以所述目标网络矩阵作为网络节点,确定各个目标网络矩阵之间的网络相关系数,当所述网络相关系数大于等于设定网络相关阈值时,确定所述网络相关系数对应的两个目标网络矩阵之间具有连边,所述网络相关系数对应的两个目标网络矩阵之间的网络相关值为1,当所述网络相关系数小于设定相关阈值时,所述网络相关系数对应的两个目标网络矩阵之间的网络相关值为0;
以各个目标网络矩阵作为新构网络矩阵的行和列,所述网络相关值作为新构网络矩阵的取值,构建新构网络矩阵;
当对应得到多个新构网络矩阵时,再利用Louvain算法对多个新构网络矩阵进行检测,并利用检测出的目标新构网络矩阵重新构建上一层社团网络,以此迭代处理得到多层次的社团网络。
进一步地,得到所述多层次的社团网络之后,所述方法还包括:
计算多层次的社团网络中的待定社团网络的各类标签权重的数值平均值P1与多层次的社团网络中其他社团网络的各类标签权重的数值平均值P2;
若其中一类标签权重或多类标签权重的P1大于P2,则利用其中一类标签权重或多类标签权重对应的标签类别对所述待定社团网络进行标记。
依据本申请的第二方面,提出了一种基于个人文本信息的人群聚类数据处理装置,包括:
添加模块,用于为获取的至少一个用户的特征文本添加对应的标签值,其中,每个用户对应至少一个特征文本;
匹配模块,用于为每个标签值匹配对应的标签权重;
矩阵构建模块,用于以所述用户作为行,所述标签权重作为列,构建标签矩阵集;
相关系数计算模块,用于根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵;
结合模块,用于获取至少一个社交网络矩阵,将所述相关网络矩阵与至少一个所述社交网络矩阵进行结合构建多重相似性网络矩阵;
距离计算模块,用于接收活跃用户的信息,根据所述活跃用户的信息在所述多重相似性网络矩阵中进行标记,将所述活跃用户作为种子用户,并计算所述多重相似性网络矩阵中其他用户距离所述种子用户的路径距离;
信息展示模块,用于将所述路径距离小于等于设定阈值的其他用户作为目标用户,并获取所述目标用户的个人文本信息进行展示。
依据本申请的第三方面,提出了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
依据本申请的第四方面,提出了一种前端服务器设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
借由上述技术方案,本申请提供的一种基于个人文本信息的人群聚类数据处理方法、装置及设备,能够为用户的各项特征添加对应的标签值,并匹配对应的标签权重,并根据用户之间的相关性构建相关网络矩阵,将相关网络矩阵与其他的社团网络矩阵进行结合组成多种相似性网络矩阵,这样就可以根据多重相似性网络矩阵,查找对应活跃用户作为种子用户的相关用户,证明向这些用户进行产品推销成功率相对较高,另外还可以根据构建的多重相似性网络矩阵中呈现的各个用户之间的相关性,挖掘个体用户的隐藏特性、个体用户之间的相似性和社交属性,能方便的输出人群聚类或基于种子用户扩展进行精准营销。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请的一个实施例的基于个人文本信息的人群聚类数据处理方法的流程图;
图2为本申请的另一个实施例的基于个人文本信息的人群聚类数据处理装置的结构框图;
图3为本申请的一个实施例的终端设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本申请实施例提供了一种基于个人文本信息的人群聚类数据处理方法,步骤包括:
步骤101,为获取的至少一个用户的特征文本添加对应的标签值,其中,每个用户对应至少一个特征文本。
其中,用户的特征文本的类别包括:喜欢的颜色、职业、学历、学校、年龄、住址、兴趣爱好、性别、身高、体重等个人信息。每个类别的不同特征对应不同的标签值。各个不同特征对应的标签值的获取规则预先存储在标签值存储库中,直接调取对应类别的标签值添加规则为对应的特征文本添加合适的标签值。
例如,年龄类,对应的标签值添加规则为:0-10岁对应的标签值为1,11-18岁对应的标签值为2,19-45岁对应的标签值为3,46-65岁对应的标签值为4,65岁以上对应的标签值为5。
步骤102,为每个标签值匹配对应的标签权重。
步骤103,以用户作为行,标签权重作为列,构建标签矩阵集。
步骤104,根据标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据相关值构建相关网络矩阵。
步骤105,获取至少一个社交网络矩阵,将相关网络矩阵与至少一个社交网络矩阵进行结合构建多重相似性网络矩阵。
步骤106,接收活跃用户的信息,根据活跃用户的信息在多重相似性网络矩阵中进行标记,将活跃用户作为种子用户,并计算多重相似性网络矩阵中其他用户距离种子用户的路径距离。
步骤107,将路径距离小于等于设定阈值的其他用户作为目标用户,并获取目标用户的个人文本信息进行展示。
通过上述方案,能够为用户的各项特征添加对应的标签值,并匹配对应的标签权重,并根据用户之间的相关性构建相关网络矩阵,将相关网络矩阵与其他的社团网络矩阵进行结合组成多种相似性网络矩阵,这样就可以根据多重相似性网络矩阵,查找对应活跃用户作为种子用户的相关用户,证明向这些用户进行产品推销成功率相对较高,另外还可以根据构建的多重相似性网络矩阵中呈现的各个用户之间的相关性,挖掘个体用户的隐藏特性、个体用户之间的相似性和社交属性,能方便的输出人群聚类或基于种子用户扩展进行精准营销。
在具体实施例中,步骤101具体包括:
步骤1011,利用标签预测模型或标签添加规则向特征文本中添加相应的标签。
在该步骤中,标签添加规则包括:基于关键词偏好,通过关键词匹配提取标签。标签添加规则还包括:基于结构化,对高频模板进行信息抽取。标签预测模型包括:使用分类、回归模型进行预测。标签预测模型或标签添加规则,两者缺一不可。在实际的应用中,标签预测模型难以解决的问题,利用简单的标签添加规则也可以达到很好的效果。
步骤1012,从多个维度为特征文本的标签确定对应的标签值,其中多个维度包括:频次维度、利用tf-idf算法对标签进行统计计算后得到的标签重要性维度、数据不同粒度或特定行为维度。
在上述方案中,tf-idf算法为term frequency–inverse document frequency,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
其中,频次维度,即为标签出现的次数、频率;标签重要性维度,即为将用户个人特征文本所有的标签值看做文档,特定标签看做词汇,计算tf-idf,可描绘该标签的重要性;数据不同粒度或特定行为维度:以零售为例,购买、收藏、关注等属于特定行为,不同时间窗口即为数据不同粒度。
通过上述方案,能够结合不同层次的信息,尽可能保证用户的特征文本的标签值确定的准确率和覆盖率。
在具体实施例中,步骤102具体包括:
步骤1021,为每个标签值设置对应的基础权重值。
其中,可以根据特征文本的不同来源的准确性或重要性设置对应的基础权重值a。
步骤1022,为每个标签值设定相应的时间衰减系数b。
步骤1023,将基础权重值与时间衰减系数相乘a*b后,再进行归一化处理得到对应的标签权重。
通过上述方案,能够使得得到的标签权重更加符合用户的特征文本的特点,进而保证直接根据标签权重得到的标签矩阵集进行的运算能够更加准确。
在具体实施例中,在步骤103之后,具体包括:
步骤1031,接收带有用户标记的特征反馈文本,根据用户标记查找特征反馈文本对应的用户的特征文本。
步骤1032,比对特征反馈文本与特征文本是否相同,若不同,则根据特征反馈文本对应的标签值匹配对应的反馈标签权重,并利用反馈标签权重替代标签矩阵集中特征文本对应的标签权重,形成新的标签矩阵集,若相同,则不进行处理。
例如,用户A的标签tag1,tag2,tag3…的取值为1,2,3…;B的标签取值为2,3,4…标签矩阵集(也可称作用户画像)是以用户作为行,tag的取值作为列的矩阵。
在上述方案中,营销员在进行营销过程中,会对反馈相应用户的统计结果,根据反馈的结果按照上述步骤进行数据回流,对标签权重进行迭代拟合,从而调整对应的标签矩阵集,进而实现对标签矩阵集的监控和检测。
例如,反馈的是性别等数据,直接根据反馈的性别确定对应的标签值,进而确定相应的标签权重作为反馈标签权重,对标签矩阵集中对应的标签权重利用反馈标签权重进行替换。
又如,对于游戏付费人群一部分人的营销效果较好,一部分人的效果较差。可以看作分类任务,判断不同特征对于分类的重要性(如计算gini指数等),根据重要性改变对应的基础权重值,从而调整对应的标签权重。
通过上述方案,能够根据后期营销的反馈结果,对标签矩阵集进行及时调整,保证标签矩阵集的准确性。
在具体实施例中,步骤104具体包括:
步骤1041,利用皮尔森算法根据标签矩阵集计算各个用户之间的相关系数。
其中,皮尔森算法,即Pearson correlation coefficient,皮尔森相关系数,计算两个变量X,Y的相关系数的公式为:
皮尔森相关系数是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系,相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
步骤1042,当相关系数大于等于设定相关阈值时,确定相关系数对应的两个用户之间具有连边,相关系数对应的两个用户之间的相关值为1,当相关系数小于设定相关阈值时,相关系数对应的两个用户之间的相关值为0。
步骤1043,以各个用户作为相关网络矩阵的行和列,相关值作为相关网络矩阵的取值,构建相关网络矩阵。
例如用户1、2有连边,则网络矩阵M[1,2]=1M[2,1]=1(对称矩阵)
通过上述方案,能够直接根据相关网络矩阵获知各个用户之间的关联关系,方便根据其指定精准营销策略。
在具体实施例中,在步骤105之后,方法还包括:
步骤1051,利用Louvain算法从多重相似性网络矩阵的各个网络矩阵中检测得到目标网络矩阵。
其中,Louvain算法为社区发现算法,一种基于模块度的图算法模型,该算法速度快,而针对点多边少的多重相似性网络矩阵,进行聚类效果相对明显。
利用Louvain算法对多重相似性网络矩阵进行社团检测,检测出来的目标网络矩阵作为新的节点进行处理。
步骤1052,以目标网络矩阵作为网络节点,确定各个目标网络矩阵之间的网络相关系数,当网络相关系数大于等于设定网络相关阈值时,确定网络相关系数对应的两个目标网络矩阵之间具有连边,网络相关系数对应的两个目标网络矩阵之间的网络相关值为1,当网络相关系数小于设定相关阈值时,网络相关系数对应的两个目标网络矩阵之间的网络相关值为0。
步骤1053,以各个目标网络矩阵作为新构网络矩阵的行和列,网络相关值作为新构网络矩阵的取值,构建新构网络矩阵。
步骤1054,当对应得到多个新构网络矩阵时,再利用Louvain算法对多个新构网络矩阵进行检测,并利用检测出的目标新构网络矩阵重新构建上一层社团网络,以此迭代处理得到多层次的社团网络。
通过上述方案,能够得到多层次的社团网络,更加方便根据社团网络确定各个用户之间的关系以及喜好,进而更好的指定精准营销策略,方便使用。
在具体实施例中,在步骤1054之后,方法还包括:
步骤1055,计算多层次的社团网络中的待定社团网络的各类标签权重的数值平均值P1与多层次的社团网络中其他社团网络的各类标签权重的数值平均值P2。
步骤1056,若其中一类标签权重或多类标签权重的P1大于P2,则利用其中一类标签权重或多类标签权重对应的标签类别对待定社团网络进行标记。
例如,待定社团网络A在金融类的标签权重的平均值较所有人的在金融类的标签权重的平均值明显高,可认为待定社团网络A是投资一族。可以对待定社团网络A进行投资方向的营销推广。
通过上述方案,能够根据标签权重的计算确定各个社团网络的人群聚类的特点,进而根据该特点对社团网络进行标记,这样便于对该社团网络中的用户进行有针对性的营销推广。
另外一个社团网络可以对应有多个标记,标记包括:热爱运动标记、喜欢投资标记、喜欢购物标记、喜欢宠物标记等。
通过本申请的上述方案,能够为用户的各项特征添加对应的标签值,并匹配对应的标签权重,并根据用户之间的相关性构建相关网络矩阵,将相关网络矩阵与其他的社团网络矩阵进行结合组成多种相似性网络矩阵,这样就可以根据多重相似性网络矩阵,查找对应活跃用户作为种子用户的相关用户,证明向这些用户进行产品推销成功率相对较高,另外还可以根据构建的多重相似性网络矩阵中呈现的各个用户之间的相关性,挖掘个体用户的隐藏特性、个体用户之间的相似性和社交属性,能方便的输出人群聚类或基于种子用户扩展进行精准营销。
基于上述实施例描述的方案,本实施例提出了基于个人文本信息的人群聚类数据处理方法,具体步骤包括:
步骤一:单个标签产出
单个标签产出的主要目的是基于文本产出原始标签。同一标签由不同方法、不同维度的数据产出。
1.不同方法:
基于关键词偏好:通过关键词匹配提取标签。
基于结构化:对高频模板进行信息抽取。
基于模型预测:使用分类、回归模型进行预测。
......
用户标签规则和模型,两者缺一不可。在实际的应用中,模型难以解决的问题,利用简单的用户标签规则也可以达到很好的效果。
2.不同维度:
频次:标签出现的次数、频率。
tf-idf:将用户个人所有的的标签值看做文档,特定标签看做词汇,计算tf-idf。可描绘该标签的重要性。
数据不同粒度或特定行为:以零售为例:购买、收藏、关注等行为,不同时间窗口粒度。
......
源自不同方法、不同维度产出标签,可以结合不同层次的信息,能尽可能权衡保证准确率和覆盖率。
步骤二:标签权重系统
1.标签权重系统在上一步的基础上,为不同方法不同维度的标签打上不同的基础权重(基于不同来源的准确性、重要性)。
2.为不同方法不同维度的标签设定不同的时间衰减系数。
3.以上权重相乘归一化后作为标签权重。
步骤三:标签权重汇总
1.基于特定标签的不同方法、不同维度的标签值,乘以对应的标签权重,并合并得到最终的该标签权重值,结合不同标签生成用户画像。
用户画像实际上就是用户的标签集。例如用户a在tag1,tag2,tag3…的取值为1,2,3…;b的取值为2,3,4…用户画像是用户作为行,tag作为列的矩阵。
2.根据营销反馈的结果,将效果数据回流,对权重进行迭代拟合,从而调整优化用户画像,进一步提高准确性。同时在实际的应用中,需要对画像的质量进行监控,对画像的波动进行检测。
对于用户基础画像,例如性别等的反馈数据,直接对tag的值进行修改;
对于行为类的标签,例如对于游戏付费人群一部分人的营销效果较好,一部分人的效果较差。可以看作分类任务,将tag看作特征,判断不同tag对于分类的重要性(例如计算gini指数等),从而调整对应的标签权重。
标签权重汇总所生成的用户画像将具有具体的取值,更能体现用户所具有的特性,有助于之后的精准营销。同时能根据营销结果进行权重调整,提升用户画像的准确率。
步骤四:构建用户相似性网络
1.基于用户画像中人与人之间的标签值的相似性,通过阈值构建网络(两两相似性大于阈值则有连边)。
计算相似性:计算用户a,用户b的用户画像的皮尔森相关性;对于相关性>阈值的判定两者具有连边。最终的网络为行、列为用户,值为1、0分别代表两者有、无连边。
例如用户1、2有连边,则网络矩阵M[1,2]=1M[2,1]=1(对称矩阵)。
2.再结合社交网络、亲属关系网络等能体现用户之间相似性的网络,共同构建多重网络。
构建的用户相似性网络能体现用户在标签系统、社交上多重属性的相似性,在此基础上能进行精准营销。
多重网络的每层网络具有相同的节点,层与层之间的连边只存在于它与它在其他层对应的节点之间。他们的超邻接矩阵可表示为(以具有两层网络的多重网络为例):其中,I为N维单位矩阵(N为节点数),M1,M2分别代表不同层的邻接矩阵。超邻接矩阵大小为NL*NL,L为层数。
步骤五:层次化的社团检测
1.对生成的多重网络进行社团检测(Louvain算法),Louvain算法检测出来的社团可重新处理成一个新的节点,网络表示为邻接矩阵,之前得出的社团具有很多节点,将它看作新的网络里的一个节点。将上一级生成的社团看作一个节点,社团与社团之间具有连边,则代表这些新的节点(之前的社团)之间具有连边,进行重新构图。
继续跑Louvain算法,这样就可以得到层次化的社团标签了。其中,Louvain算法也可以分层进行,将每一次Louvain算法检测出来的社区进行压缩处理成一个新的节点,重新构图,继续跑Louvain算法,这样就可以得到层次化的社区标签了。
2.基于发现的社团,分析其社团内的各标签权重和对所有人群的各标签权重的占比,判定其社团在不同标签维度上的人群共性、特性,即人群聚类。层次化的社团标签可得到层次化的人群聚类。
对于划分的不同社团,计算该社团的人群在不同tag(标签权重值)上的平均值,与所有人群在不同tag上的平均值进行对比,可以判断该社团人群的共性、特性,从而对人群进行划分。例如社团A在金融类的tag上的平均值较所有人的在金融类tag上的平均值明显高,可认为他们是投资一族。
可对聚类后的特定人群进行针对性投放,层次化的人群聚类可以根据不同需求进行精准营销。
步骤六:基于相似度的lookalike
其中,lookalike即相似人群扩展,是基于种子用户,通过一定的算法评估模型,找到更多拥有潜在关联性的相似人群的技术。
基于营销中反馈效果较好的人群或由客户提供的名单,将他们作为种子用户,在网络中依次获取活跃用户中与种子用户最短路径长度为1、2......的人群,从而基于种子用户进行扩展来精准营销。
其中,种子用户与活跃用户均为构建的网络中的节点,计算网络中节点的最短路径可以通过Dijkstra算法计算。其中,Dijkstra算法为迪杰斯特拉算法,是从一个顶点到其余各顶点的最短路径算法。
基本思路是用种子用户去预测未标记节点。种子用户就像是一个源头,可以对其它数据进行标注,对于在构建的网络中距离种子用户越近的人群(即最短路径为1、2、3的人群),认为他们与种子用户的相似度越大,对他们进行精准营销。
综上所述,能够基于用户标签权重的相似性、社交属性构建多重网络,对构建的多重网络进行层次化的社团检测,挖掘个体的隐藏特性、个体之间的相似性和社交属性,能方便的输出人群聚类或基于种子用户扩展进行精准营销。
基于图1所示实施例,提出了一种基于个人文本信息的人群聚类数据处理装置,如图2所示,包括:
添加模块,用于为获取的至少一个用户的特征文本添加对应的标签值,其中,每个用户对应至少一个特征文本。
匹配模块,用于为每个标签值匹配对应的标签权重。
矩阵构建模块,用于以所述用户作为行,所述标签权重作为列,构建标签矩阵集。
相关系数计算模块,用于根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵。
结合模块,用于获取至少一个社交网络矩阵,将所述相关网络矩阵与至少一个所述社交网络矩阵进行结合构建多重相似性网络矩阵。
距离计算模块,用于接收活跃用户的信息,根据所述活跃用户的信息在所述多重相似性网络矩阵中进行标记,将所述活跃用户作为种子用户,并计算所述多重相似性网络矩阵中其他用户距离所述种子用户的路径距离。
信息展示模块,用于将所述路径距离小于等于设定阈值的其他用户作为目标用户,并获取所述目标用户的个人文本信息进行展示。
在具体实施例中,添加模块具体包括:
标签天剑单元,用于利用标签预测模型或标签添加规则向特征文本中添加相应的标签;
确定单元,用于从多个维度为特征文本的标签确定对应的标签值,其中多个维度包括:频次维度、利用tf-idf算法对标签进行统计计算后得到的标签重要性维度、数据不同粒度或特定行为维度。
在具体实施例中,匹配模块具体包括:
基础权重设置单元,用于为每个标签值设置对应的基础权重值;
衰减系数设置单元,用于为每个标签值设定相应的时间衰减系数;
归一化处理单元,用于将基础权重值与时间衰减系数相乘后,再进行归一化处理得到对应的标签权重。
在具体实施例中,矩阵构建模块包括:
接收单元,用于接收带有用户标记的特征反馈文本,根据用户标记查找特征反馈文本对应的用户的特征文本;
比对单元,用于比对特征反馈文本与特征文本是否相同,若不同,则根据特征反馈文本对应的标签值匹配对应的反馈标签权重,并利用反馈标签权重替代标签矩阵集中特征文本对应的标签权重,形成新的标签矩阵集,若相同,则不进行处理。
在具体实施例中,相关系数计算模块具体包括:
相关系数计算单元,用于利用皮尔森算法根据标签矩阵集计算各个用户之间的相关系数;
相关值确定单元,用于当相关系数大于等于设定相关阈值时,确定相关系数对应的两个用户之间具有连边,相关系数对应的两个用户之间的相关值为1,当相关系数小于设定相关阈值时,相关系数对应的两个用户之间的相关值为0;
网络矩阵构建单元,用于以各个用户作为相关网络矩阵的行和列,相关值作为相关网络矩阵的取值,构建相关网络矩阵。
在具体实施例中,装置还包括:
检测模块,用于利用Louvain算法从多重相似性网络矩阵的各个网络矩阵中检测得到目标网络矩阵;
重构模块,用于以目标网络矩阵作为网络节点,确定各个目标网络矩阵之间的网络相关系数,当网络相关系数大于等于设定网络相关阈值时,确定网络相关系数对应的两个目标网络矩阵之间具有连边,网络相关系数对应的两个目标网络矩阵之间的网络相关值为1,当网络相关系数小于设定相关阈值时,网络相关系数对应的两个目标网络矩阵之间的网络相关值为0;以各个目标网络矩阵作为新构网络矩阵的行和列,网络相关值作为新构网络矩阵的取值,构建新构网络矩阵;
迭代处理模块,用于当对应得到多个新构网络矩阵时,再利用Louvain算法对多个新构网络矩阵进行检测,并利用检测出的目标新构网络矩阵重新构建上一层社团网络,以此迭代处理得到多层次的社团网络。
在具体实施例中,装置还包括:
标记模块,用于计算多层次的社团网络中的待定社团网络的各类标签权重的数值平均值P1与多层次的社团网络中各类标签权重的数值平均值P2;若其中一类标签权重或多类标签权重的P1大于P2,则利用其中一类标签权重或多类标签权重对应的标签类别对待定社团网络进行标记。
基于上述图1所示系统和图2所示方法的实施例,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图2所示的基于个人文本信息的人群聚类数据处理方法。
基于上述图1所示系统和图2所示方法的实施例,为了实现上述目的,本申请实施例还提供了一种终端设备,如图3所示,包括存储器32和处理器31,其中存储器32和处理器31均设置在总线33上存储器32存储有计算机程序,处理器31执行计算机程序时实现图2所示的基于个人文本信息的人群聚类数据处理方法。
其中,存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与计算机设备中其它硬件和软件之间通信。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储器(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
可选地,该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,能够为用户的各项特征添加对应的标签值,并匹配对应的标签权重,并根据用户之间的相关性构建相关网络矩阵,将相关网络矩阵与其他的社团网络矩阵进行结合组成多种相似性网络矩阵,这样就可以根据多重相似性网络矩阵,查找对应活跃用户作为种子用户的相关用户,证明向这些用户进行产品推销成功率相对较高,另外还可以根据构建的多重相似性网络矩阵中呈现的各个用户之间的相关性,挖掘个体用户的隐藏特性、个体用户之间的相似性和社交属性,能方便的输出人群聚类或基于种子用户扩展进行精准营销。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种基于个人文本信息的人群聚类数据处理方法,其特征在于,步骤包括:
为获取的至少一个用户的特征文本添加对应的标签值,其中,每个用户对应至少一个特征文本;
为每个标签值匹配对应的标签权重;
以所述用户作为行,所述标签权重作为列,构建标签矩阵集;
根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵;
获取至少一个社交网络矩阵,将所述相关网络矩阵与至少一个所述社交网络矩阵进行结合构建多重相似性网络矩阵;
接收活跃用户的信息,根据所述活跃用户的信息在所述多重相似性网络矩阵中进行标记,将所述活跃用户作为种子用户,并计算所述多重相似性网络矩阵中其他用户距离所述种子用户的路径距离;
将所述路径距离小于等于设定阈值的其他用户作为目标用户,并获取所述目标用户的个人文本信息进行展示。
2.根据权利要求1所述的方法,其特征在于,所述为获取的至少一个用户的特征文本添加对应的标签值,具体包括:
利用标签预测模型或标签添加规则向所述特征文本中添加相应的标签;
从多个维度为所述特征文本的标签确定对应的标签值,其中多个维度包括:频次维度、利用tf-idf算法对标签进行统计计算后得到的标签重要性维度、数据不同粒度或特定行为维度。
3.根据权利要求1所述的方法,其特征在于,所述为每个标签值匹配对应的标签权重,具体包括:
为每个所述标签值设置对应的基础权重值;
为每个所述标签值设定相应的时间衰减系数;
将所述基础权重值与所述时间衰减系数相乘后,再进行归一化处理得到对应的标签权重。
4.根据权利要求1所述的方法,其特征在于,在所述以所述用户作为行,所述标签权重作为列,构建标签矩阵集之后,具体包括:
接收带有用户标记的特征反馈文本,根据所述用户标记查找所述特征反馈文本对应的用户的特征文本;
比对所述特征反馈文本与所述特征文本是否相同,若不同,则根据所述特征反馈文本对应的标签值匹配对应的反馈标签权重,并利用所述反馈标签权重替代所述标签矩阵集中所述特征文本对应的标签权重,形成新的标签矩阵集,若相同,则不进行处理。
5.根据权利要求1所述的方法,其特征在于,根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵,具体包括:
利用皮尔森算法根据所述标签矩阵集计算各个用户之间的相关系数;
当所述相关系数大于等于设定相关阈值时,确定所述相关系数对应的两个用户之间具有连边,所述相关系数对应的两个用户之间的相关值为1,当所述相关系数小于设定相关阈值时,所述相关系数对应的两个用户之间的相关值为0;
以各个用户作为相关网络矩阵的行和列,所述相关值作为相关网络矩阵的取值,构建相关网络矩阵。
6.根据权利要求1所述的方法,其特征在于,在获取至少一个社交网络矩阵,将所述相关网络矩阵与至少一个所述社交网络矩阵进行结合构建多重相似性网络矩阵之后,所述方法还包括:
利用Louvain算法从所述多重相似性网络矩阵的各个网络矩阵中检测得到目标网络矩阵;
以所述目标网络矩阵作为网络节点,确定各个目标网络矩阵之间的网络相关系数,当所述网络相关系数大于等于设定网络相关阈值时,确定所述网络相关系数对应的两个目标网络矩阵之间具有连边,所述网络相关系数对应的两个目标网络矩阵之间的网络相关值为1,当所述网络相关系数小于设定相关阈值时,所述网络相关系数对应的两个目标网络矩阵之间的网络相关值为0;
以各个目标网络矩阵作为新构网络矩阵的行和列,所述网络相关值作为新构网络矩阵的取值,构建新构网络矩阵;
当对应得到多个新构网络矩阵时,再利用Louvain算法对多个新构网络矩阵进行检测,并利用检测出的目标新构网络矩阵重新构建上一层社团网络,以此迭代处理得到多层次的社团网络。
7.根据权利要求6所述的方法,其特征在于,得到所述多层次的社团网络之后,所述方法还包括:
计算多层次的社团网络中的待定社团网络的各类标签权重的数值平均值P1与多层次的社团网络中各类标签权重的数值平均值P2;
若其中一类标签权重或多类标签权重的P1大于P2,则利用其中一类标签权重或多类标签权重对应的标签类别对所述待定社团网络进行标记。
8.一种基于个人文本信息的人群聚类数据处理装置,其特征在于,包括:
添加模块,用于为获取的至少一个用户的特征文本添加对应的标签值,其中,每个用户对应至少一个特征文本;
匹配模块,用于为每个标签值匹配对应的标签权重;
矩阵构建模块,用于以所述用户作为行,所述标签权重作为列,构建标签矩阵集;
相关系数计算模块,用于根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵;
结合模块,用于获取至少一个社交网络矩阵,将所述相关网络矩阵与至少一个所述社交网络矩阵进行结合构建多重相似性网络矩阵;
距离计算模块,用于接收活跃用户的信息,根据所述活跃用户的信息在所述多重相似性网络矩阵中进行标记,将所述活跃用户作为种子用户,并计算所述多重相似性网络矩阵中其他用户距离所述种子用户的路径距离;
信息展示模块,用于将所述路径距离小于等于设定阈值的其他用户作为目标用户,并获取所述目标用户的个人文本信息进行展示。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7所述的方法。
10.一种终端设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011394270.7A CN112632275B (zh) | 2020-12-03 | 2020-12-03 | 基于个人文本信息的人群聚类数据处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011394270.7A CN112632275B (zh) | 2020-12-03 | 2020-12-03 | 基于个人文本信息的人群聚类数据处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112632275A true CN112632275A (zh) | 2021-04-09 |
CN112632275B CN112632275B (zh) | 2022-05-13 |
Family
ID=75307453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011394270.7A Active CN112632275B (zh) | 2020-12-03 | 2020-12-03 | 基于个人文本信息的人群聚类数据处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632275B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379474A (zh) * | 2021-07-13 | 2021-09-10 | 京东数科海益信息科技有限公司 | 匹配用户所属群体和信息推送的方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731962A (zh) * | 2015-04-03 | 2015-06-24 | 重庆邮电大学 | 一种社交网络中基于相似社团的好友推荐方法及系统 |
US20150213370A1 (en) * | 2014-01-27 | 2015-07-30 | Facebook, Inc. | Label inference in a social network |
CN109859054A (zh) * | 2018-12-13 | 2019-06-07 | 平安科技(深圳)有限公司 | 网络社团挖掘方法、装置、计算机设备及存储介质 |
CN110457477A (zh) * | 2019-08-09 | 2019-11-15 | 东北大学 | 一种面向社交网络的兴趣社群发现方法 |
CN111723298A (zh) * | 2020-05-11 | 2020-09-29 | 珠海高凌信息科技股份有限公司 | 基于改进标签传播的社交网络社团发现方法、装置及介质 |
-
2020
- 2020-12-03 CN CN202011394270.7A patent/CN112632275B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213370A1 (en) * | 2014-01-27 | 2015-07-30 | Facebook, Inc. | Label inference in a social network |
CN104731962A (zh) * | 2015-04-03 | 2015-06-24 | 重庆邮电大学 | 一种社交网络中基于相似社团的好友推荐方法及系统 |
CN109859054A (zh) * | 2018-12-13 | 2019-06-07 | 平安科技(深圳)有限公司 | 网络社团挖掘方法、装置、计算机设备及存储介质 |
CN110457477A (zh) * | 2019-08-09 | 2019-11-15 | 东北大学 | 一种面向社交网络的兴趣社群发现方法 |
CN111723298A (zh) * | 2020-05-11 | 2020-09-29 | 珠海高凌信息科技股份有限公司 | 基于改进标签传播的社交网络社团发现方法、装置及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379474A (zh) * | 2021-07-13 | 2021-09-10 | 京东数科海益信息科技有限公司 | 匹配用户所属群体和信息推送的方法、装置、设备及介质 |
CN113379474B (zh) * | 2021-07-13 | 2024-02-06 | 京东科技信息技术有限公司 | 匹配用户所属群体和信息推送的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112632275B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11301761B2 (en) | Behavioral prediction for targeted end users | |
Kim et al. | When Bitcoin encounters information in an online forum: Using text mining to analyse user opinions and predict value fluctuation | |
CN108320171B (zh) | 热销商品预测方法、系统及装置 | |
US20230102337A1 (en) | Method and apparatus for training recommendation model, computer device, and storage medium | |
Xu et al. | Improving user recommendation by extracting social topics and interest topics of users in uni-directional social networks | |
US11243992B2 (en) | System and method for information recommendation | |
Afonso et al. | Housing prices prediction with a deep learning and random forest ensemble | |
CN106251174A (zh) | 信息推荐方法及装置 | |
US20190220902A1 (en) | Information analysis apparatus, information analysis method, and information analysis program | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN112905897B (zh) | 相似用户确定方法、向量转化模型、装置、介质及设备 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
Khan et al. | Comparative analysis on Facebook post interaction using DNN, ELM and LSTM | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN114254615A (zh) | 组卷方法、装置、电子设备和存储介质 | |
CN112632275B (zh) | 基于个人文本信息的人群聚类数据处理方法、装置及设备 | |
CN112463966B (zh) | 虚假评论检测模型训练方法、检测方法及装置 | |
Cutler et al. | Using weak supervision to scale the development of machine-learning models for social media-based marketing research | |
Iwański et al. | Application of the Information Bottleneck method to discover user profiles in a Web store | |
CN113094584A (zh) | 推荐学习资源的确定方法和装置 | |
CN113704599A (zh) | 营销转化用户的预测方法、装置及计算机设备 | |
Abbasi et al. | Identifying influentials in social networks | |
Ali et al. | Identifying and Profiling User Interest over time using Social Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |