CN106202391A - 一种用户社群的自动分类方法及装置 - Google Patents

一种用户社群的自动分类方法及装置 Download PDF

Info

Publication number
CN106202391A
CN106202391A CN201610538341.3A CN201610538341A CN106202391A CN 106202391 A CN106202391 A CN 106202391A CN 201610538341 A CN201610538341 A CN 201610538341A CN 106202391 A CN106202391 A CN 106202391A
Authority
CN
China
Prior art keywords
user
community
article
label
works
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610538341.3A
Other languages
English (en)
Inventor
白艺冲
董少灵
段明伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen North North Ming Yi Technology Co Ltd
Original Assignee
Shenzhen North North Ming Yi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen North North Ming Yi Technology Co Ltd filed Critical Shenzhen North North Ming Yi Technology Co Ltd
Priority to CN201610538341.3A priority Critical patent/CN106202391A/zh
Publication of CN106202391A publication Critical patent/CN106202391A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用户社群的自动分类方法及装置,所述方法包括对已发布的文章进行主题模型分析,提取其主题并设置其作品标签,所述每一主题对应多个作品标签;收集同一文章的浏览行为,并记录与之对应的浏览用户;为浏览用户标注与作品标签相对应的社群标签;对所述浏览用户进行多维聚类分析;以及根据聚簇大小、密度进行用户社群分类。所述装置及方法利用大数据分析技术,对用户进行多维聚类分析,从而可更精准地获得用户社群分类,因此也可更有效且精准化地进行营销或商业推广。

Description

一种用户社群的自动分类方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种用户社群的自动分类方法及装置。
背景技术
一般社会学家与地理学家所指的社群(community),广义而言是指在某些边界线、地区或领域内发生作用的一切社会关系。
在互联网中,社群泛指网络上基于共同的兴趣、爱好、年龄、性别、收入等特征形成的网络群体。
在目前的互联网应用技术中,希望通过对社群的划分来进行有针对性的策划、营销或者其它商业活动,使得上述活动更有效率。
在现有技术中,对社群的划分的通常方法是通过建立社交群组(如即时通信聊天群),通过用户主动加入小组,再根据小组对用户进行社群标签,并判断该小组成员组成为一个社群来达成。
然而,本发明的发明人发现:上述社群都由用户主动或手动邀请加入,而用户不一定知道该社群的存在,甚至不一定知道自己所属的社群,因此通过建立群组不能有效且精准地划分出社群,从而也无法进行有效率且精准化的营销或商业推广。
发明内容
本发明的目的在于,提供一种用户社群的自动分类方法及装置,以更精准地获得用户社群分类。
一种用户社群的自动分类方法,所述方法包括:对已发布的文章进行主 题模型分析,提取其主题并设置其作品标签,所述每一主题对应多个作品标签;收集同一文章的浏览行为,并记录与之对应的浏览用户;为浏览用户标注与作品标签相对应的社群标签;对所述浏览用户进行多维聚类分析;以及根据聚簇大小、密度进行用户社群分类。
一种用户社群的自动分类装置,所述装置包括:标签单元,用于对已发布的文章进行主题模型分析,提取其主题并设置其作品标签,所述每一主题对应多个作品标签;记录单元,用于收集同一文章的浏览行为,并记录与之对应的浏览用户;标注单元,用于为浏览用户标注与作品标签相对应的社群标签;分析单元,用于对所述浏览用户进行多维聚类分析;以及分类单元,用于根据聚簇大小、密度进行用户社群分类。
相对于现有技术,所述装置及方法利用大数据分析技术,对用户进行多维聚类分析,从而可更精准地获得用户社群分类,因此也可更有效且精准化地进行营销或商业推广。
附图说明
图1为本发明第一实施例提供的用户社群自动分类方法的流程示意图;
图2为本发明第二实施例提供的用户社群自动分类方法的流程框图;
图3为图2所示方法中主题模型分析的原理示意图;
图4为本发明第三实施例提供的用户社群自动分类装置的结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的搜索结果相关性评测方法及装置其具体实施方式、方法、步骤、结构、特征及其功效,详细说明如下。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式 的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
需要指明的是,在本发明实施例中,所述方法及装置除了使用在即时通讯公众平台,其也应适用于其它SNS(Social Networking Serivces,社会性网络服务)社区,如微博(Micro Blog)、BBS(电子公告牌系统,Bulletin Board System)或其它各类第三方的媒体发布平台,并不局限于具体实施例。
第一实施例
请参阅图1,其为本发明第一实施例提供的用户社群自动分类方法的流程示意图。所述方法包括:
步骤101:对已发布的文章进行主题模型分析,提取其主题并设置其作品标签,所述每一主题对应多个作品标签;
步骤102:收集同一文章的浏览行为,并记录与之对应的浏览用户;
步骤103:为浏览用户标注与作品标签相对应的社群标签;
步骤104:对所述浏览用户进行多维聚类分析;
步骤105:根据聚簇大小、密度进行用户社群分类。
在本实施例中,所述方法利用大数据分析技术,对用户进行多维聚类分析,从而可更精准地获得用户社群分类,因此也可更有效且精准化地进行营销或商业推广。
第二实施例
请一起参阅图2,在本实施例中,将以即时通讯中的公众平台为例说明本发明用户社群自动分类方法的具体实施过程。
其中,公众平台指的是基于即时通讯的一种媒体发布功能,用户可以通过公众平台发表文字和图片,同时可通过其他软件将文章或者音乐分享到朋 友圈。用户可以对好友新发的照片、文章等进行“评论”或点“赞”(表示喜欢)等。
本实施例中,在步骤101中,将以即时通讯中公众平台为例来说明具体的用户社群的分类方法及流程。
具体地,对已发布的文章进行主题模型分析中,主题表示一个概念,其具体表现为一系列相关的单词及其出现的条件概率。这些单词与主题存在强相关性。
可以认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。因此,文章中每个词语出现的概率为:
这个概率公式可以用矩阵表示为图3。
其中“文档-词语”矩阵表示文章中每个单词的词频(出现的概率);“主题-词语”矩阵表示主题中每个单词的出现概率;“文档-主题”矩阵表示文章中每个主题出现的概率。
给定一系列文章,通过对文章进行分词,计算各个文章中每个单词的词频就可以得到“文档-词语”矩阵。主题模型即通过上述左边这个矩阵进行训练,学习出右边两个矩阵。
以一篇标题为“夏天如何预防中暑”的文章为例,假设该篇文章中高频词汇出现的机率为:
中暑:出现的机率为0.8%;
板兰根:出现的机率为0.7%;
养生:出现的机率为0.6%;
假设与主题“中医”相关的标签包括了“中暑、板兰根、养生、当归、长寿、太极”等,根据隐含语意分布分析LDA(Latent Dirichlet Allocation) 方法,分析出该篇文章的主题为“中医”,其作品标签为“中暑”。
在步骤102中,当作品标签确定之后,可根据收集文章的浏览行为来记录该篇文章的浏览用户,如用户(编号)A1~A30。
步骤103:为浏览用户标注与作品标签相对应的社群标签。
在本实施例中,上述编号为A1~A30的用户的社群标签为“中暑”。
同样地,假使通过分析其它文章及其浏览用户得到:
B1~B20用户的社群标签为“体育”;
C1~C25用户的社群标签为“八卦”;
D1~D35用户的社群标签为“养生”;
E1~B38用户的社群标签为“美颜”;
F1~F40用户的社群标签为“单身”;
G1~G50用户的社群标签为“育儿”;
H1~B60用户的社群标签为“婚恋”;
……
上述各用户的编号虽不同,但可能为同一用户,例如,编号B20与D21为同一用户,编号E28与G21为同一用户,等等。
步骤104:对所述浏览用户进行多维聚类分析。
通过多维聚类分析可以计算出用户距离和相关度。其中,聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。聚类是一种无监督式的机器学习方法,其实施过程为:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离、马式距离、汉明距离、余弦距离等)来估计样本所属类别。从结构性来划分,聚类方法分为自上而下和自下而上两种方法,前者的算法是先把所有样本视为一类,然后不断从这个大类中分离出小类,直到不能再分为止;后者则相反,首先所有样本自成一类,然后不断两两合并,直到最终形成几个大类。
本实施例中,采用K-means目标函数聚类方法对用户社群进行分类,其 处理流程包括:
(1)、从n个数据对象任意选择k个对象作为初始聚类中心;
(2)、根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
(3)、重新计算每个(有变化)聚类的均值(中心对象);
(4)、循环(2)到(3)直到每个聚类不再发生变化为止。
具体地,首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
在步骤105:根据聚簇大小、密度进行用户社群分类。
在本实施例中,所述为浏览用户标注与作品标签相对应的社群标签(即步骤101)后,所述方法还进一步包括:
(101a)、搜寻与所述文章对应的浏览用户的其他浏览交集文章;
(101b)、对交集文章进行主题模型分析,提取其主题并设置其作品标签;
(101c)、根据所述交集文章的作品标签对所述已发布的文章进行作品标签整合,此为一迭代修正过程,根据用户阅读行为以及卷标关系进行调整。
通过(101a)、(101b)、(101c)发现交集文章,并对步骤101中的已发布文章的标签进行整合。
在其中一种实施方式中,假设交集文章的主题仍然为“中医”,但作品标签为“养生”,但可根据对已发布的文章进行作品标签整合,例如将作品标签整合为“养生”。
综上所述,在本实施例中:
首先,通过LDA主题分析可将文章进行标签分类,并可发现交集文章并为其设置作品标签,进而整合原来的文章作品标签,从而可获得更准确的作品标签和用户社群标签;
其次,通过用户的行为方式(共同的浏览纪录)去分析理解用户的需求兴趣,从而有利于更客观地划分用户社群;
总体上,本实施例利用大数据分析技术,对用户进行多维聚类分析,从而可更精准地获得用户社群分类,因此也可更有效且精准化地进行营销或商业推广。
实际运用时,例如可以对“体育”爱好者进行健身推广,对“美颜”的社群的用户进行美容产品推广或运营,对“单身”社群的用户,通过组办线下活动加强其互动等。
请参阅图4,本发明第三实施例提供一种用户社群自动分类装置100,所述装置100具体可为一个服务器,本实施例中,所述装置100包括:
标签单元10,用于对已发布的文章进行主题模型分析,提取其主题并设置其作品标签,所述每一主题对应多个作品标签;
记录单元20,用于收集同一文章的浏览行为,并记录与之对应的浏览用户;
标注单元30,用于为浏览用户标注与作品标签相对应的社群标签;
分析单元40,用于对所述浏览用户进行多维聚类分析;以及
分类单元50,用于根据聚簇大小、密度进行用户社群分类。
进一步地,所述用户社群的自动分类装置还包括标签整合单元60,用于:搜寻与所述文章对应的浏览用户的其他浏览交集文章;对交集文章进行主题模型分析,提取其主题并设置其作品标签;且根据所述交集文章的作品标签对所述已发布的文章进行作品标签整合。
在本实施例中,所述标签单元10对已发布的文章进行主题模型分析采 用LDA主题分析方法。所述分析单元50采用K-means目标函数聚类方法对用户社群进行分类。
综上所述,所述用户社群自动分类装置100利用大数据分析技术,对用户进行多维聚类分析,从而可更精准地获得用户社群分类,因此也可更有效且精准化地进行营销或商业推广。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (8)

1.一种用户社群的自动分类方法,其特征在于,所述方法包括:
对已发布的文章进行主题模型分析,提取其主题并设置其作品标签,所述每一主题对应多个作品标签;
收集同一文章的浏览行为,并记录与之对应的浏览用户;
为浏览用户标注与作品标签相对应的社群标签;
对所述浏览用户进行多维聚类分析;以及
根据聚簇大小、密度进行用户社群分类。
2.如权利要求1所述的用户社群的自动分类方法,其特征在于,所述为浏览用户标注与作品标签相对应的社群标签后,所述方法进一步包括:
搜寻与所述文章对应的浏览用户的其他浏览交集文章;对交集文章进行主题模型分析,提取其主题并设置其作品标签;且根据所述交集文章的作品标签对所述已发布的文章进行作品标签整合。
3.如权利要求1所述的用户社群的自动分类方法,其特征在于,所述对已发布的文章进行主题模型分析采用隐含语意分布分析方法。
4.如权利要求1所述的用户社群的自动分类方法,其特征在于,采用K-means目标函数聚类方法对用户社群进行分类。
5.一种用户社群的自动分类装置,其特征在于,所述装置包括:
标签单元,用于对已发布的文章进行主题模型分析,提取其主题并设置其作品标签,所述每一主题对应多个作品标签;
记录单元,用于收集同一文章的浏览行为,并记录与之对应的浏览用户;
标注单元,用于为浏览用户标注与作品标签相对应的社群标签;
分析单元,用于对所述浏览用户进行多维聚类分析;以及
分类单元,用于根据聚簇大小、密度进行用户社群分类。
6.如权利要求5所述的用户社群的自动分类装置,其特征在于,进一步包括标签整合单元,用于:
搜寻与所述文章对应的浏览用户的其他浏览交集文章;对交集文章进行主题模型分析,提取其主题并设置其作品标签;且根据所述交集文章的作品标签对所述已发布的文章进行作品标签整合。
7.如权利要求5所述的用户社群的自动分类装置,其特征在于,所述标签单元对已发布的文章进行主题模型分析采用隐含语意分布分析方法。
8.如权利要求5所述的用户社群的自动分类装置,其特征在于,所述分析单元采用K-means目标函数聚类方法对用户社群进行分类。
CN201610538341.3A 2016-07-08 2016-07-08 一种用户社群的自动分类方法及装置 Pending CN106202391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610538341.3A CN106202391A (zh) 2016-07-08 2016-07-08 一种用户社群的自动分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610538341.3A CN106202391A (zh) 2016-07-08 2016-07-08 一种用户社群的自动分类方法及装置

Publications (1)

Publication Number Publication Date
CN106202391A true CN106202391A (zh) 2016-12-07

Family

ID=57473135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610538341.3A Pending CN106202391A (zh) 2016-07-08 2016-07-08 一种用户社群的自动分类方法及装置

Country Status (1)

Country Link
CN (1) CN106202391A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108830643A (zh) * 2018-05-31 2018-11-16 杭州量聚网络科技有限公司 一种营销推广方法和系统
CN111353019A (zh) * 2020-02-25 2020-06-30 上海昌投网络科技有限公司 一种微信公众号公号主题分类方法及装置
CN111461781A (zh) * 2020-03-31 2020-07-28 广东奥园奥买家电子商务有限公司 一种电商用户的分类方法和装置以及设备
CN112711699A (zh) * 2019-10-24 2021-04-27 上海哔哩哔哩科技有限公司 用户划分方法、系统、计算机设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637178A (zh) * 2011-02-14 2012-08-15 北京瑞信在线系统技术有限公司 一种音乐推荐方法、装置及系统
CN103077220A (zh) * 2012-12-29 2013-05-01 中国科学院深圳先进技术研究院 一种基于用户群关联度的个性化推荐方法及系统
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637178A (zh) * 2011-02-14 2012-08-15 北京瑞信在线系统技术有限公司 一种音乐推荐方法、装置及系统
CN103077220A (zh) * 2012-12-29 2013-05-01 中国科学院深圳先进技术研究院 一种基于用户群关联度的个性化推荐方法及系统
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QUINCY19941229: "LDA主题模型发现", 《HTTPS://WENKU.BAIDU.COM/VIEW/1413B1A0A417866FB94A8E11.HTML》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108399228B (zh) * 2018-02-12 2020-11-13 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108830643A (zh) * 2018-05-31 2018-11-16 杭州量聚网络科技有限公司 一种营销推广方法和系统
CN112711699A (zh) * 2019-10-24 2021-04-27 上海哔哩哔哩科技有限公司 用户划分方法、系统、计算机设备及可读存储介质
CN112711699B (zh) * 2019-10-24 2023-04-07 上海哔哩哔哩科技有限公司 用户划分方法、系统、计算机设备及可读存储介质
CN111353019A (zh) * 2020-02-25 2020-06-30 上海昌投网络科技有限公司 一种微信公众号公号主题分类方法及装置
CN111461781A (zh) * 2020-03-31 2020-07-28 广东奥园奥买家电子商务有限公司 一种电商用户的分类方法和装置以及设备

Similar Documents

Publication Publication Date Title
CN106202391A (zh) 一种用户社群的自动分类方法及装置
CN107894998B (zh) 视频推荐方法及装置
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN104899596B (zh) 一种多标签分类方法及其装置
CN109960763A (zh) 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN110059177B (zh) 一种基于用户画像的活动推荐方法及装置
CN104077357A (zh) 基于用户的协同过滤组合推荐方法
CN107194617B (zh) 一种app软件工程师软技能分类系统及方法
CN102663001A (zh) 基于支持向量机的博客作者兴趣与性格自动识别方法
CN110287313A (zh) 一种风险主体的确定方法及服务器
CN103150333A (zh) 微博媒体中的意见领袖识别方法
CN108959323B (zh) 视频分类方法和装置
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
Jiang et al. Travel recommendation via author topic model based collaborative filtering
CN108647800A (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN103268330A (zh) 基于图片内容的用户兴趣提取方法
CN103778206A (zh) 一种网络服务资源的提供方法
CN112115712B (zh) 基于话题的群体情感分析方法
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
CN106506528A (zh) 一种大数据环境下的网络安全分析系统
CN108228587A (zh) 群体识别方法及群体识别装置
Zubiaga et al. Political homophily in independence movements: analyzing and classifying social media users by national identity
CN104778205B (zh) 一种基于异构信息网络的移动应用排序和聚类方法
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207