CN104050298A - 一种基于lda主题模型算法的用户细分方法 - Google Patents

一种基于lda主题模型算法的用户细分方法 Download PDF

Info

Publication number
CN104050298A
CN104050298A CN201410317014.6A CN201410317014A CN104050298A CN 104050298 A CN104050298 A CN 104050298A CN 201410317014 A CN201410317014 A CN 201410317014A CN 104050298 A CN104050298 A CN 104050298A
Authority
CN
China
Prior art keywords
user
preference
lda
training
preference attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410317014.6A
Other languages
English (en)
Other versions
CN104050298B (zh
Inventor
张一文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Pinguo Technology Co Ltd
Original Assignee
Chengdu Pinguo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Pinguo Technology Co Ltd filed Critical Chengdu Pinguo Technology Co Ltd
Priority to CN201410317014.6A priority Critical patent/CN104050298B/zh
Publication of CN104050298A publication Critical patent/CN104050298A/zh
Application granted granted Critical
Publication of CN104050298B publication Critical patent/CN104050298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于LDA主题模型算法的用户细分方法,首先基于用户偏好和习惯进行LDA建模,然后运用训练好的模型来预测并且将用户细分为个性化群组。本发明的积极效果是:能够将社交网络平台上众多的用户或客户个性化;即所有客户不再被看成简单的数字,而是具有不同偏好标签的个体;用个体的偏好和习惯来量化地勾勒出个体的具体细节轮廓。采用本发明方法得出的对个体属性和偏好的诠释在某些时候甚至能超过个体本人对自身的诠释和了解。

Description

一种基于LDA主题模型算法的用户细分方法
技术领域
本发明涉及一种基于LDA主题模型算法的用户细分方法。
背景技术
本发明先介绍用户细分过程,紧随其后的是个人偏好小节,最终则得出关于LDA理论方面的简要介绍。
1.用户分类
数据挖掘可以提供客户洞察力,这对建立有效的市场营销、销售以及个性化策略是至关重要的。它会导致客户之间的个性化交流,因此通过数据分析来提升满意度以及有益的客户关系。
通过客户生活周期的各个阶段,即从获取和建立一种强大的关系到预防摩擦和赢回失去的客户,它可支持一种“个性化”且优化的客户管理。营销人员努力获得更大的市场份额以及更大比例的客户。简单来讲,他们负责获取、开发并维持顾客。
为了能够提供个性化的市场营销战略,用户细分的主要流程是根据用户的一些特征,把用户群划分为不同的群体。
在手动或者传统用户细分中,通常按用户的行为和使用特点进行细分。尽管行为分类可以由业务规则创建,但这项方法拥有很多基础性的缺点:它只能有效地处理少数分类领域,而且其客观性是受到质疑的,因为它是基于业务专家的个人感知。
另一方面,基于数据挖掘的方法可以创建数据驱动的行为细分。细分算法可以分析行为数据,确认不同群组的客户并且提出基于数据格式的方法。
流行的基于数据挖掘的分类方法包括:价值基础细分法(value-basedsegmentation)、行为细分法(behavioral segmentation)、忠诚度细分法(loyalty segmentation)、社会细分法(socio-based segmentation)以及需求基础细分法(needs-based segmentation)。
还存在另一种用户细分法,该方法是建立在个人偏好主观性的基础上的。
2.个人偏好
个人偏好可以看作是对于特定的物体或者概念的情感、行为以及感受的独特结合,这种全面融合使得用户细分方法更具个性化的独特性。
为了更好地了解用户,可以定义许多个人偏好,用于量化客户。比如:
(1)喜欢玩游戏的用户;
(2)喜欢听音乐的用户;
(3)喜欢看电影的用户;
(4)喜欢网上购物的用户;
(5)喜欢阅读的用户;
(6)喜欢旅行的用户;
(7)喜欢美食的用户。
为了将这些个性化标签应用到用户身上,从而有效地细分用户,首先需要了解他们的不同特征。这是项挑战性工作,因为用户不会明确地告诉我们他们是谁,偏好是什么;我们需要根据一些隐含信息来间接地获取。
举例来说,用户隐含的一些信息如下:他们所听的音乐类型、喜欢看的电影或者电视剧类型、浏览的网站类型、喜欢拍或者观赏的照片、社交网络上结交的朋友类型以及喜欢阅读的书籍类型。最终,我们能够从社交网络上搜寻到某个特定的用户,例如他们的爱好和私人信息。
本发明并不关注如何从用户获取这些隐含的私人特征。本发明假设这些用户间接信息或特征已经获取了,并且基于那些信息建立LDA模型。
3.Latent Dirichlet Allocation(潜在主题抽取)算法
Latent Dirichlet Allocation(潜在主题抽取)或者LDA,是一种被应用在文本挖掘方面的机器学习方法,通常目的在于从一个文档集合中自动发现专题论题。
简而言之,LDA模型从一大堆文档集合中抽取一个预先确定数量的主题,而且该训练模式可以被用来推断其后任何文档的主题(不同的权重)。例如,一个文档谈论苹果电脑和汽车,那么其推断主题很可能即为“电脑”和“汽车”。
主题建模是指,将整个文档集合细分成相关少数主题的词并且作为主题融合代表每个文档。这样,通过察看主题中的词就可以解释这个模型。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种基于LDA主题模型算法的用户细分方法,目的在于将社交网络平台上众多的用户或客户贴上富有个性化的标签,例如游戏玩家、社交网络发烧友、音乐爱好者、喜欢网上购物、高级用户、旅行家、喜欢阅读的等其他标签。而且,根据本发明,一个用户或客户还可以同时继承多个标签。
本发明解决其技术问题所采用的技术方案是:一种基于LDA主题模型算法的用户细分方法,包括如下步骤:
步骤一、随机挑选一组用户,并为每一用户建立一个对应的文本文档;
步骤二、构建用户偏好属性字典;
步骤三、LDA模型训练:
(1)基于构建好的用户偏好属性字典,创建一个代表整个训练数据集的词袋;
(2)利用创建好的词袋,把所有训练用户的偏好从文字格式转换到BOW格式;
(3)将BOW格式的训练数据填入LDA模型来进行训练;
步骤四、预测且细分新用户:
(1)对于每一位新用户,按照步骤二的方法构建该用户的偏好属性字典;
(2)按照步骤三的方法将该用户的偏好从文字格式转化为BOW格式,再将BOW格式的训练数据填入训练好的LDA模型;
(3)LDA模型按照该用户的实际偏好输出跟该用户相关的各种主题标签及其权重。
与现有技术相比,本发明的积极效果是:能够将社交网络平台上众多的用户或客户个性化;即所有客户不再被看成简单的数字,而是具有不同偏好(标签)的个体。用个体的偏好和习惯来量化地勾勒出个体的具体细节轮廓。采用本发明方法得出的对个体属性和偏好的诠释在某些时候甚至能超过个体本人对自身的诠释和了解。
本发明可以将用户细分为个性化的群组,例如,喜欢网上购物的用户、喜欢阅读的用户以及喜欢听音乐的用户;可以用群组主题上类似的理念或者偏好一起来构成主题上有联系的群组;本发明还可以预测或者细分新的(或者未预见的)用户为各种主题。
具体实施方式
本发明主要包括两部分,第一,基于用户偏好和习惯的LDA建模。第二,运用训练好的模型来预测并且将用户细分为个性化群组。
第一部分:LDA模型训练
LDA算法的核心在于将用户偏好转变为便于LDA使用的文本模式:
首先将某一用户的习惯和偏好用来建立该用户的多个维度或者方面。例如,该人是否喜欢阅读、购物、旅行或者玩游戏。这就类似于一篇文档,其内容或者词从整体上来描述该文档的意义或者信息。
然后将这些用习惯和偏好表示的用户的维度信息填充到LDA算法里面。经历特定数量的模型培养,将这些用习惯和偏好表示的特定数量的用户的维度信息细分为N个不同的主题,即“主题1”、“主题2”、“主题3”、…“主题N”、,每个主题代表一个偏好和习惯。
第二部分:预测及用户聚类
在第二部分,基于用户的偏好,使用训练好的LDA模型来细分新用户:将各新用户的偏好数据填充到已经培育的LDA模型,然后输出各用户的各个主题的可能性,并与所有可能的主题相对应。比如:
用户1(主题3:50%;主题1:15%;…);
用户2(主题10:45%;主题47:6%;…);
用户3(主题23:54%;主题6:26%;...);
用户M(主题7:76%;主题2:3%;…);
例如,如果某位用户喜欢网上购物、阅读以及欣赏音乐,那么当我们把这些信息输入到训练好的LDA模型后,模型的输出(主题标签)在理论上是应该能把这些不同纬度的爱好反映出来的。也就是说,通过几个主题标签就能把一个用户的偏好和习惯表达出来。
以下是本发明方法步骤的详细描述:
一种基于LDA主题模型算法的用户细分方法,包括如下步骤:
步骤一、随机挑选一组用户,并为每一用户建立一个对应的文本文档:
1、随机挑选一组用户来构建训练数据集,用户数可为1000至1000万;
2、对于每一用户,从其文本文档中提取一组属性,用于描述该用户的偏好和习惯。也就是说,每位用户实际上就是一个单独的文档,用户的偏好和习惯也就是这个文档里的文字内容。
步骤二、构建用户偏好属性字典
1、结合所有训练用户的偏好属性于一个单独的字典,而且这个字典会记录每一个偏好属性的出现频率。比如,“网上购物”在5000个训练用户的偏好里出现,那么这个偏好属性的出现频率就是5000。
2、移除训练数据中出现频率低于5%的偏好属性。这是因为出现频率太低的偏好属性不会对LDA模型的准确度有任何的帮助;相反,频率低的偏好属性对模型的准确度是有害的。
3、移除训练数据中出现频率高于90%的偏好属性。这是因为出现频率太高的偏好属性不会对LDA模型的准确度有任何的帮助;相反,频率高的偏好属性对模型的准确度是有害的。
4、在剩下的偏好属性中,仅保留按出现频率从高到低排列的前N个偏好属性。N通常取6000至10000个,只要能满足用户偏好的维度即可,太多的偏好属性会影响计算速度。
步骤三、LDA模型训练
1、基于构建好的偏好属性字典,创建一个代表整个训练数据集的词袋BOW(Bag of words)。BOW算法的主要功能在于对一个文本,忽略其词序、语法和句法,将其仅仅看作是一个词的集合。也就是说,用一些比较有代表性的词的集合来代表一个文本的内容。
2、利用创建好的词袋(BOW),把所有训练用户的偏好从文字格式转换到BOW格式。如表1所示,也就是说,我们所有的训练用户都用1或0来代替他们的偏好。1代表这个用户拥有某个偏好,0代表用户没有这个偏好。
表1:
3、将BOW格式的训练数据填入LDA模型来进行训练。也就是说,利用LDA算法把用户爱好根据相似度细分到不同的主题。以表2为例具体说明如下:
表2:
表2中左边是被LDA细分到一起的用户偏好,右边是根据相似度细分的主题标签。即,每一个LDA主题标签(右边的)会拥有不用维度的内容(左边的)。
步骤四、预测且细分新用户:
1、对于每一位新用户,按照步骤二的方法构建该用户的偏好属性字典;
2、按照步骤三的方法将该用户的偏好从文字格式转化为BOW格式,再将BOW格式的训练数据填入训练好的LDA模型;
3、LDA模型按照该用户的实际偏好输出跟该用户相关的各种主题标签及其权重,如表3所示。
表3:
用户1001 权重
女生主题 32%
儿童游戏主题 30%
网上购物主题 24%
... ...
也就是说,通过把用户的偏爱和爱好首先用文字描述,然后转变成BOW格式,输入到训练好的LDA模型来进行对用户画像。按照以上的例子,因为用户1001偏好有32%属于“女生主题”,30%属于“儿童游戏主题”,和24%的“网上购物主题”。那我们就可以判断这位用户是一名女性、可能有小孩和喜欢网上购物。

Claims (3)

1.一种基于LDA主题模型算法的用户细分方法,其特征在于:包括如下步骤:
步骤一、随机挑选一组用户,并为每一用户建立一个对应的文本文档;
步骤二、构建用户偏好属性字典;
步骤三、LDA模型训练:
(1)基于构建好的用户偏好属性字典,创建一个代表整个训练数据集的词袋;
(2)利用创建好的词袋,把所有训练用户的偏好从文字格式转换到BOW格式;
(3)将BOW格式的训练数据填入LDA模型来进行训练;
步骤四、预测且细分新用户:
(1)对于每一位新用户,按照步骤二的方法构建该用户的偏好属性字典;
(2)按照步骤三的方法将该用户的偏好从文字格式转化为BOW格式,再将BOW格式的训练数据填入训练好的LDA模型;
(3)LDA 模型按照该用户的实际偏好输出跟该用户相关的各种主题标签及其权重。
2.根据权利要求1所述的一种基于LDA主题模型算法的用户细分方法,其特征在于:步骤二所述构建用户偏好属性字典的方法为:
(1)将所有训练用户的每一个偏好属性及各偏好属性的出现频率记录在一个单独的字典中; 
(2)移除训练数据中出现频率低于5%的偏好属性;
(3)移除训练数据中出现频率高于90%的偏好属性;
(4)在剩下的偏好属性中,仅保留按出现频率从高到低排列的前N个偏好属性。
3.根据权利要求2所述的一种基于LDA主题模型算法的用户细分方法,其特征在于:N取6000至10000个。
CN201410317014.6A 2014-07-04 2014-07-04 一种基于lda主题模型算法的用户细分方法 Active CN104050298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410317014.6A CN104050298B (zh) 2014-07-04 2014-07-04 一种基于lda主题模型算法的用户细分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410317014.6A CN104050298B (zh) 2014-07-04 2014-07-04 一种基于lda主题模型算法的用户细分方法

Publications (2)

Publication Number Publication Date
CN104050298A true CN104050298A (zh) 2014-09-17
CN104050298B CN104050298B (zh) 2017-09-26

Family

ID=51503130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410317014.6A Active CN104050298B (zh) 2014-07-04 2014-07-04 一种基于lda主题模型算法的用户细分方法

Country Status (1)

Country Link
CN (1) CN104050298B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463633A (zh) * 2014-12-19 2015-03-25 成都品果科技有限公司 一种基于地理位置和兴趣点信息的用户细分方法
CN104574965A (zh) * 2015-01-11 2015-04-29 杭州电子科技大学 一种基于海量交通流数据的城市交通热点区域划分方法
CN105045859A (zh) * 2015-07-10 2015-11-11 海信集团有限公司 一种智能设备的用户特征分析方法及装置
CN105701230A (zh) * 2016-01-19 2016-06-22 成都品果科技有限公司 一种基于图像内容的用户兴趣细分方法及系统
US11784948B2 (en) 2020-01-29 2023-10-10 International Business Machines Corporation Cognitive determination of message suitability

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778207A (zh) * 2014-01-15 2014-05-07 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN103870840A (zh) * 2014-03-11 2014-06-18 西安电子科技大学 基于改进的潜在狄利克雷分配的自然图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778207A (zh) * 2014-01-15 2014-05-07 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN103870840A (zh) * 2014-03-11 2014-06-18 西安电子科技大学 基于改进的潜在狄利克雷分配的自然图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张梦笑: "基于LDA模型的观点聚类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
项珑: "基于特征提取和主题模型的文本分类研究", 《国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463633A (zh) * 2014-12-19 2015-03-25 成都品果科技有限公司 一种基于地理位置和兴趣点信息的用户细分方法
CN104574965A (zh) * 2015-01-11 2015-04-29 杭州电子科技大学 一种基于海量交通流数据的城市交通热点区域划分方法
CN105045859A (zh) * 2015-07-10 2015-11-11 海信集团有限公司 一种智能设备的用户特征分析方法及装置
CN105701230A (zh) * 2016-01-19 2016-06-22 成都品果科技有限公司 一种基于图像内容的用户兴趣细分方法及系统
CN105701230B (zh) * 2016-01-19 2020-01-17 成都品果科技有限公司 一种基于图像内容的用户兴趣细分方法及系统
US11784948B2 (en) 2020-01-29 2023-10-10 International Business Machines Corporation Cognitive determination of message suitability

Also Published As

Publication number Publication date
CN104050298B (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
Zhao et al. An image-text consistency driven multimodal sentiment analysis approach for social media
Mehraliyev et al. From measurement scale to sentiment scale: Examining the effect of sensory experiences on online review rating behavior
McQuarrie et al. The megaphone effect: Taste and audience in fashion blogging
KR102119868B1 (ko) 홍보용 미디어 콘텐츠 제작 시스템 및 그 방법
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN103778260A (zh) 一种个性化微博信息推荐系统和方法
CN104050298B (zh) 一种基于lda主题模型算法的用户细分方法
Chen et al. Product placement in social games: Consumer experiences in China
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
CN108804701A (zh) 基于社交网络大数据的人物画像模型构建方法
Pathak et al. A method to analyze multiple social identities in twitter bios
Kalinowski The fairest of them all: The creative interests of female fan fiction writers and the fair use doctrine
Ytre-Arne Positioning the self: Identity and women's magazine reading
CN117556802B (zh) 一种基于大语言模型的用户画像方法、装置、设备及介质
CN105701230B (zh) 一种基于图像内容的用户兴趣细分方法及系统
Marston Young people’s digitally-networked bodies: The changing possibilities of what a gendered body can be, do and become online
Chong et al. Social media influencers and Instagram storytelling: Case study of Singapore Instagram influencers
Hou Social media celebrity: An investigation into the latest metamorphosis of fame
Scorrano et al. The relationship between unstructured information and marketing knowledge: an experiment in the US wine market
Watson Grab your fork: a netnographic study of a foodie blog and its community.
Dekalov et al. Cultural experts and communicative capitalism: Transformation of communicative practices
Chen The dissemination, influence, and efficiency of Jameson’s Cultural theory combined with Chinese mass culture and mass sports culture in the sustainable development of China
Grubenmann Innovation in Journalism–Towards a holistic approach
Kohli et al. Modeling anonymous human behavior using social media
Konstantinou The 7 Neoliberal Arts, or: Art in the Age of Mass High Culture

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 610041 Chengdu City, Sichuan free trade test area, Chengdu high tech Zone Tianfu Avenue, middle section 1268, 1 floor 13

Patentee after: Chengdu PinGuo Digital Entertainment Ltd.

Address before: 610041 C12-16 software building, Tianfu Software Park, hi tech Zone, Sichuan, Chengdu

Patentee before: Chengdu PinGuo Digital Entertainment Ltd.