CN107766576A - 一种微博用户兴趣特征的提取方法 - Google Patents
一种微博用户兴趣特征的提取方法 Download PDFInfo
- Publication number
- CN107766576A CN107766576A CN201711126633.7A CN201711126633A CN107766576A CN 107766576 A CN107766576 A CN 107766576A CN 201711126633 A CN201711126633 A CN 201711126633A CN 107766576 A CN107766576 A CN 107766576A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- word
- user
- theme
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明提出了一种微博用户兴趣特征的提取方法,其将微博映射到其对应的兴趣类别的步骤为:步骤1,将用户的每条微博进行分词;步骤2,通过计算分词结果与每个主题词库重合词的个数,选取个数高于阈值ε个数的主题为该微博的候选主题;步骤3,如果步骤2中没有获取具体的主题,则分别通过Twitter‑LDA和TF‑IDF获取两个带权关键词集合,通过word2vec获取两个关键词集合与每个细胞词库的相似度,选取相似性最高的m个类别作为该微博的候选主题;步骤4,得到用户所有微博的主题类别得到用户的主题分布作为用户兴趣特征的表达。
Description
技术领域
本发明涉及提取方法,尤其涉及一种微博用户兴趣特征的提取方法。
背景技术
在微博、twitter等社交媒体普及的同时,基于微博、twitter等各种应用也应允而生,其中,针对博主兴趣的分析推荐技术获得了很多的关注,其中关于微博的个性化推荐的学术研究也开始出现,例如基于地理位置信息的好友推荐、基于相同Tag信息的好友推荐、基于共同关注的好友推荐、基于话题热度的微博话题推荐等,然而这些个性化分析技术通常只考虑了博主的某部分相对片面的信息,却忽略了一个重要的目的,推荐的账号或话题是否能被博主接受,是其想要的、真正感兴趣的。传统的基于协同过滤的个性化推荐算法,根据博主之间的近似程度来选择推荐物品,这种方式虽然能够较好地完成各种推荐,然而这种忽略个体间差异性寻求共性的推荐方法,只能覆盖部分博主或博主的部分兴趣,不能完整的刻画博主的兴趣,如一些商业化的应用案例中,推荐系统只能向同类的账户推送相同的产品。这种只需考虑博主对商品的潜在购买欲或对一部电影期望观看指数的推荐算法,并不适合所有的系统,在微博中尤为如此。微博中信息繁杂,每个博主的兴趣爱好广泛,博主兴趣获取很复杂。如能通过有效方法智能提取用户兴趣特征,用于微博的个性化服务中,将会减少用户检索的时间,提高网络利用的效率。
现有技术中的对兴趣的提取方法主要有以下几种:(1)基于文本关键词提取的方法,分析了微博用户的文本信息,通过TF-IDF提取用户关键词,同时,也通过机器翻译的方法来提取关键词,可以通过两种关键词提取的方法来获取用户兴趣关键词,并将用户兴趣进行了可视化的分析和展示;(2)基于主题模型的分析方法,采用生成模型,引入一个潜在变量来指示是否有推文与其作者的兴趣相关,通过分析用户的兴趣主题分布来得到用户兴趣特征;(3)基于辅助知识库的提取方法,采用了基于知识库的方法来分析用户兴趣,首先对用户的微博文本内容分析,提取出文本中的实体信息,然后结合知识库来分析得到的实体,得到表达用户兴趣的类别树,最后用类别树来表达用户兴趣特征;(4)基于用户关注好友的分析方法,对用户在微博文本中提及的名人进行了提取,并分析名人的职业等关键信息得到用户的兴趣,或者分析微博用户关注的专家,由于不同的专家可以代表一些不同的主题内容,可以通过分析用户关注的专家信息得到用户兴趣。
现有技术中的用户兴趣特征提取的有许多不足之处:例如基于关键词提取的方法得到是带权重的关键词集合,用户的兴趣表达是以词的形式展现,粒度较小;而采用用户主题模型的方法得到的用户兴趣为隐式特征,用户的主题分布难以直观的表达以及可视化;采用知识库等分析方法,则需要全面完整的知识库来分析用户微博中的信息,目前已有公共知识库尚不多,难以有效地进行分析。
发明内容
为了更好地解决上述问题,本发明提出了一种微博用户兴趣的推荐方法,其将微博映射到其对应的兴趣类别的步骤为:步骤1,将用户的每条微博进行分词;步骤2,通过计算分词结果与每个主题词库重合词的个数,选取个数高于阈值ε个数的主题为该微博的候选主题,ε默认取3;步骤3,如果步骤2中没有获取具体的主题,则分别通过Twitter-LDA和TF-IDF获取两个带权关键词集合,通过word2vec获取所述两个关键词集合与每个细胞词库的相似度,所述Twitter-LDA得到的带权关键词集合为WTL,所述TF-IDF得到的带权关键词集合为WTI,将所述WTL与所述WTI分别与每个词库类别通过word2vec计算相似性得到SimTL和SimTI,则该微博与对应词库的相似性为:Sim=α×SimTI+(1-α)×SimTL,所述α为权重系数,选取相似性最高的m个类别作为该微博的候选主题,所述m默认为3;步骤4,得到用户所有微博的主题类别后,进而就得到了用户在512个主题上的分布,作为用户兴趣特征的表达。
本发明能够挖掘微博用户的兴趣特征,其分析结果粒度适中,方法可行性高,并且结果易于可视化分析,在微博的个性化服务中,将会极大地减少用户检索的时间,提高网络利用的效率。
附图说明
图1为本发明的Twitter-LDA的概率图模型;
图2为本发明将微博映射到其对应的兴趣类别的步骤。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出的一种微博用户兴趣特征的提取方法,采用了一个包含512个兴趣类别的细胞词库来分析用户兴趣。每一类别下包含表达该类别兴趣的一些细胞词。通过分析用户的每条微博,将其映射为其中一个或多个类别,从而可以得到一个512维的向量来表达用户兴趣,每一维表示用户对该维兴趣类别的喜欢程度。
本发明提出的一种微博用户兴趣特征的提取方法,通过计算该微博分词后结果与各个细胞词库的重合词的个数,取个数高于某个阈值ε的维度类别为该微博标记。由于可能会出现重合词不存在的情况,因此本发明采用将Twitter-LDA与TF-IDF相结合的方法来进行类别标记,具体地,跟每个词库的相似性通过word2vec来分析。
由于微博中的文本长度受限总字数不能太长,因此标准的LDA模型不适合处理分析微博这种短文本数据。现有技术汇中通过将用户的所有微博整合为一篇文档来处理,解决微博短文本的问题,这被看做是一种用户主题模型。然而这样做忽略掉了单个微博的因素。本发明采用的Twitter-LDA主题模型,在所述模型中,用户的一条微博属于一个主题,而且用户微博中的词不限制只来自于主题中的词,还包括与主题无关的背景词。
如图1所示为本发明的Twitter-LDA的概率图模型,在微博中有K个主题,K为正整数,每个主题表达为主题词的分布。每个用户有自己的主题兴趣表示为在K个主题上的分布。根据用户的主题兴趣用户的每条微博被赋予一个主题k。微博中的每个词语或者来自背景词分布θB或者来自主题词分布θk。该词是一个背景词还是一个主题词取决于隐变量y,y=0时,该词从背景词分布θB中产生,y=1时,该词从主题词分布θk中产生。y的取值由分布π决定,也就是背景词与主题词的比例由π决定。通过将吉布斯采样的方法,得到Twitter-LDA的模型参数,进而可以得到用户每条微博的主题,进而得到该主题下词语的概率分布,取权重最高的一个作为微博的关键词。
在一条给定的微博中,词频(term frequency,tf)指某一个给定的词语在该微博文本中的出现频率,该数字是对词数(term count)的归一化,以防止偏向长文本;而逆向文件频率(inverse document frequency,idf)是一个词语普遍重要性的度量,某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。TF-IDF获得微博文本的词语权重信息的方法为,对于在某一段文本dj里的词语ti来说,其tf值可以表示为:,其中分子ni,j是该词在文件dj中的出现次数,分母部分则是在文件dj中所有字词的出现次数之和;逆向文件频率可以表示为式:,其中|D|表示语料库中的文件总数。通过两者乘积,得到微博文本的词语权重信息tfidfi,j=tfi,j×idfi,所述i是第i篇文档也就是微博,j是第j个词语,i,j为正整数。
本发明提出的一种微博用户兴趣的推荐方法中,如图2所示为其将微博映射到其对应的兴趣类别的步骤:
步骤1,读取用户的微博,将用户的每条微博进行分词;
步骤2,通过计算分词结果与每个主题词库重合词的个数,选取个数高于阈值ε个数的主题为该微博的候选主题,ε为正整数,ε默认取3;
步骤3,如果步骤2不能得到具体的主题,则分别通过Twitter-LDA和TF-IDF来得到两个带权关键词集合。通过word2vec获取两个关键词集合与每个细胞词库的相似度。假设Twitter-LDA得到的带权关键词集合为WTL,TF-IDF得到的带权关键词集合为WTI。将WTL与WTI分别与每个词库类别通过word2vec计算相似性得到SimTL和SimTI,则该微博与对应词库的相似性计算结果为:Sim=α×SimTI+(1-α)SimTL,所述α为权重系数,选取相似性最高的m个类别作为该微博的候选主题,m为正整数,m默认取3;
步骤4,得到用户所有微博的主题类别后,进而就得到了用户在512个主题上的分布,作为用户兴趣特征的表达。
本发明提出的一种微博用户兴趣特征的提取方法,其基于细胞词库的兴趣提取方法通过细胞词库得到用户对不同主题的喜欢程度,解决了基于关键词提取的方法兴趣表达以词的形式展现,粒度较小的问题;其次,将用户兴趣以不同类别下的概率来表达,便于以词云来展示,解决了主题模型的方法得到的用户兴趣难以直观的表达以及可视化的问题;同时,该方法不需要知识库等辅助,简单方便。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种微博用户兴趣特征的提取方法,其将微博映射到用户对应的兴趣类别的步骤为:步骤1,读取用户的微博,将用户的每条微博进行分词;步骤2,读取512个兴趣类别的细胞词库,通过计算分词结果与所述词库重合词的个数,选取个数高于阈值ε的主题为该微博的候选主题,ε默认取3;步骤3,如果步骤2中没有获取具体的主题,则分别通过Twitter-LDA和TF-IDF获取两个带权关键词集合,通过word2vec获取所述两个关键词集合与每个细胞词库的相似度,所述Twitter-LDA得到的带权关键词集合为WTL,所述TF-IDF得到的带权关键词集合为WTI,将所述WTL与所述WTI分别与每个词库类别通过word2vec得到相应的相似性SimTL和SimTI,则该微博与对应词库的相似性为:Sim=α×SimTI+(1-α)×SimTL,所述α为权重系数,选取相似性最高的m个类别作为该微博的候选主题,所述m默认为3;步骤4,得到用户所有微博的主题类别后,进而就得到了用户在512个主题上的分布,作为用户兴趣特征的表达。
2.根据专利要求1所述的方法,其特征在于,需要通过Twitter-LDA得到微博的带权重关键词集合。Twitter-LDA的概率图模型中,微博中的每个主题表达为主题词的分布,用户的每条微博基于用户的主题兴趣被赋予一个主题k,所述用户的主题兴趣表示为在微博中所有主题上的分布,然后基于背景词分布θB或者主题词分布θk产生微博中的每个词语,然后通过将吉布斯采样的方法得到Twitter-LDA的模型参数,进而可以得到用户每条微博的主题,以及在该主题下词语的概率分布,最后选取权重最高的30个作为微博的关键词。
3.根据权利要求2所述的方法,其特征在于,所述微博中的每个词语产生于背景词分布θB或者来自主题词分布θk取决于隐变量y,当隐变量y=0时,所述词语从背景词分布θB中产生;当隐变量y=1时,所述词语从主题词分布θk中产生,所述隐变量y的取值由分布π决定。
4.根据权利要求1所述的方法,其特征在于,利用所述TF-IDF获得微博文本的词语权重信息的步骤为,首先对于在某一段微博dj里的词语ti,所述i是第i篇文档也就是微博,j是第j个词语,i,j为正整数,通过获取词频tf值,其中分子ni,j是该词在微博dj中的出现次数,而分母部分则表示为在微博dj中所有字词的出现次数之和;然后通过公式获取逆向文件频率idf,其中分子|D|表示语料库中的文件总数;通过两者乘积,得到微博文本的词语权重信息tfidfi,j=tfi,j×idfi。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711126633.7A CN107766576A (zh) | 2017-11-15 | 2017-11-15 | 一种微博用户兴趣特征的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711126633.7A CN107766576A (zh) | 2017-11-15 | 2017-11-15 | 一种微博用户兴趣特征的提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107766576A true CN107766576A (zh) | 2018-03-06 |
Family
ID=61278853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711126633.7A Pending CN107766576A (zh) | 2017-11-15 | 2017-11-15 | 一种微博用户兴趣特征的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766576A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325175A (zh) * | 2018-08-23 | 2019-02-12 | 广东工业大学 | 融合微博兴趣挖掘的新闻推送方法、装置及设备 |
CN110097096A (zh) * | 2019-04-16 | 2019-08-06 | 天津大学 | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 |
CN110737846A (zh) * | 2019-10-28 | 2020-01-31 | 北京字节跳动网络技术有限公司 | 一种社交界面推荐方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136300A (zh) * | 2011-12-05 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种文本相关主题的推荐方法和装置 |
CN103793481A (zh) * | 2014-01-16 | 2014-05-14 | 中国科学院软件研究所 | 基于用户兴趣挖掘的微博词云生成方法及访问支持系统 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN103970866A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于微博文本的微博用户兴趣发现方法及系统 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
CN105183833A (zh) * | 2015-08-31 | 2015-12-23 | 天津大学 | 一种基于用户模型的微博文本推荐方法及其推荐装置 |
CN105843957A (zh) * | 2016-04-15 | 2016-08-10 | 国家计算机网络与信息安全管理中心 | 微博深度分类方法及系统 |
CN105938481A (zh) * | 2016-04-07 | 2016-09-14 | 北京航空航天大学 | 一种城市多模式文本数据的异常检测方法 |
-
2017
- 2017-11-15 CN CN201711126633.7A patent/CN107766576A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136300A (zh) * | 2011-12-05 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种文本相关主题的推荐方法和装置 |
CN103793481A (zh) * | 2014-01-16 | 2014-05-14 | 中国科学院软件研究所 | 基于用户兴趣挖掘的微博词云生成方法及访问支持系统 |
CN103970866A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于微博文本的微博用户兴趣发现方法及系统 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
CN105183833A (zh) * | 2015-08-31 | 2015-12-23 | 天津大学 | 一种基于用户模型的微博文本推荐方法及其推荐装置 |
CN105938481A (zh) * | 2016-04-07 | 2016-09-14 | 北京航空航天大学 | 一种城市多模式文本数据的异常检测方法 |
CN105843957A (zh) * | 2016-04-15 | 2016-08-10 | 国家计算机网络与信息安全管理中心 | 微博深度分类方法及系统 |
Non-Patent Citations (3)
Title |
---|
WAYNE XIN ZHAO等: "Comparig twitter and traditional media using topic models", 《SPRINGER-VERLAG BERLIN HEIDELBERG》 * |
孙世杰等: "基于LDA模型的Twitter中文微博热点主题词组发现", 《洛阳师范学院学报》 * |
徐天一: "基于用户模型的微博文本推荐算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊 )》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325175A (zh) * | 2018-08-23 | 2019-02-12 | 广东工业大学 | 融合微博兴趣挖掘的新闻推送方法、装置及设备 |
CN110097096A (zh) * | 2019-04-16 | 2019-08-06 | 天津大学 | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 |
CN110097096B (zh) * | 2019-04-16 | 2023-04-25 | 天津大学 | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 |
CN110737846A (zh) * | 2019-10-28 | 2020-01-31 | 北京字节跳动网络技术有限公司 | 一种社交界面推荐方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tong et al. | A text mining research based on LDA topic modelling | |
Zhao et al. | Automatic detection of cyberbullying on social networks based on bullying features | |
CN103870973B (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
CN102193936B (zh) | 一种数据分类的方法及装置 | |
CN107357793B (zh) | 信息推荐方法和装置 | |
Fang et al. | Detecting hot topics from Twitter: A multiview approach | |
WO2019218508A1 (zh) | 一种基于主题情感联合概率的电子商务虚假评论识别方法 | |
Chehal et al. | Implementation and comparison of topic modeling techniques based on user reviews in e-commerce recommendations | |
CN108804701A (zh) | 基于社交网络大数据的人物画像模型构建方法 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN109598586A (zh) | 一种基于注意力模型的推荐方法 | |
Yang et al. | A topic model for co-occurring normal documents and short texts | |
Kaladevi et al. | RETRACTED ARTICLE: Integrated CNN-and LSTM-DNN-based sentiment analysis over big social data for opinion mining | |
CN114706987B (zh) | 文本类目预测方法、装置、设备、存储介质和程序产品 | |
CN107766576A (zh) | 一种微博用户兴趣特征的提取方法 | |
Sapul et al. | Trending topic discovery of Twitter Tweets using clustering and topic modeling algorithms | |
CN116362811A (zh) | 一种基于大数据的广告自动化投放管理系统 | |
Yao et al. | Online deception detection refueled by real world data collection | |
Huang et al. | An empirical study of personalized advertising recommendation based on DBSCAN clustering of sina weibo user-generated content | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
Negara et al. | Topic modeling using latent dirichlet allocation (LDA) on twitter data with Indonesia keyword | |
Shi et al. | Web service network embedding based on link prediction and convolutional learning | |
Zhao et al. | Dtree2vec: A High-Accuracy and Dynamic Scheme for Real-Time Book Recommendation by Serialized Chapters and Local Fine-Grained Partitioning | |
Gao et al. | Identification of Deceptive Reviews by Sentimental Analysis and Characteristics of Reviewers. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180306 |