CN107483256B - 一种网络化数据流的标签提取方法 - Google Patents
一种网络化数据流的标签提取方法 Download PDFInfo
- Publication number
- CN107483256B CN107483256B CN201710737185.8A CN201710737185A CN107483256B CN 107483256 B CN107483256 B CN 107483256B CN 201710737185 A CN201710737185 A CN 201710737185A CN 107483256 B CN107483256 B CN 107483256B
- Authority
- CN
- China
- Prior art keywords
- user
- user node
- label
- network data
- data block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络化数据流的标签提取方法,包括:1.根据社交网络中用户节点之间存在的关注关系,构建数据流形式的网络数据块,并获得网络数据块中每个用户节点的邻居列表;2.更新每一个网络数据块中每个用户节点的邻居列表;3.根据每一个网络数据块中用户的微博内容,采用主题建模法抽取出每个用户对应的候选标签列表,4.根据网络数据块中每个用户及其所有邻居用户的候选标签列表,得出每个用户的标签集。本发明在面向大规模的社交网络数据流中,能及时、有效的捕捉到社交用户的兴趣标签,从而能达到用户信息推荐和为公司做决策的目的。
Description
技术领域
本发明属于标签自动提取领域,具体来说是一种网络化数据流的标签提取方法。
背景技术
近年来,社交网络正在成为人类社会关系维系和信息传播的重要方式和载体。它不仅是一个提供社交用户互相交流与分享信息的社交平台,还是一个社交关系网络,如社交用户之间常常通过关注、转发、通知等方式形成了一个复杂的关系网络。社交网络因贴近人们日常生活,是用户真实想法、思想的反映,通过对社交用户兴趣挖掘,一方面可以帮助社交网络平台更好的提供用户个性化信息和广告服务,另一方面,公司还可以根据用户的兴趣做出决策。
现有的关于社交网络用户兴趣挖掘主要集中在对静态数据的挖掘,即先爬取一个时间段内一些用户的数据存储到硬盘中,然后通过访问硬盘再进行用户数据分析。在实际应用中,社交网络上的信息往往不是一次性到来的,而是逐步到来的,即以数据流的形式存在的。进一步地说,这些数据是频繁产生,涉及的内容主题是多变的,数据量是无限的,不能完全存储这些数据,因此现有研究以局部数据来代替全局数据进行社交网络用户兴趣挖掘是不全面,不准确的,迫切需要提出一种实时的、基于数据流下社交用户兴趣标签提取的解决方案。
社交网络数据流的连续性、多变性、快速性以及无限性等特点使得传统的社交用户兴趣挖掘方法面临精度低和时效性差等方面的问题;而社交网络数据流之间存在的网络结构特性进一步加剧了这一问题,使得已有方法难以及时有效的挖掘出社交网络用户的兴趣。
发明内容
本发明为克服现有技术中的不足之处,提出一种网络化数据流的标签提取方法,以期能快速、实时、有效发现社交网络用户的兴趣标签,从而能让企业更全面性和针对性的了解用户所关心的兴趣,向用户推送感兴趣的内容,并帮助企业做决策。
本发明为解决技术问题采用如下技术方案:
本发明一种网络化数据流的标签提取方法的特点是按如下步骤进行:
步骤1、根据社交网络中用户节点之间存在的关注关系,构建数据流形式的网络数据块集合D,并获得网络数据块集合D中每个用户节点的邻居列表;
步骤2、更新每一个网络数据块中每个用户节点的邻居列表;
步骤3、根据第α个网络数据块Dα中每个用户节点的微博内容,利用主题模型法抽取出每个用户节点的多个候选标签,从而构成每个用户节点相应的候选标签列表;所述每个用户节点的候选标签列表包括若干个主题标签及其相应得分;
步骤4、根据第α个网络数据块Dα中第i个用户节点及其邻居列表的候选标签列表,得到第i个用户节点的标签集。
本发明所述的网络化数据流的标签提取方法的特点也在于,所述步骤一是按如下步骤进行:
步骤1.1、在社交网络中,将满足连通图关系的用户节点及其微博内容划分为一个网络数据块,记为第1个网络数据块D1;所述第1个网络数据块D1中包含的用户节点数目记为m1,且m1≤M,M是网络数据块的最大用户数量;
步骤1.2、定义网络数据块的总数为K、任意一个网络数据块为第α个网络数据块,初始化α=1;
步骤1.3、定义每个网络数据块用户节点的计数变量为j,初始化j=1;
步骤1.4、将所述第α个网络数据块Dα中所有用户节点所关注的除mα个用户节点以外的其他用户节点放入用户列表集List中,从所述用户列表集List中任意选择一个用户节点及其微博内容放入第α+1个网络数据块Dα+1中;
步骤1.5、将j+1赋值给j,判断j>M是否成立或者从所述用户列表集List中不存在任何用户节点能与所述第α+1个网络数据块Dα+1中用户节点所形成的网络结构构成连通图是否成立,若任一个条件成立,则表示形成了第α+1个网络数据块Dα+1,且第α+1个网络数据块Dα+1中的用户节点数目mα+1不超过M;否则,从所述用户列表集List中选择与所述第α+1个网络数据块Dα+1中用户节点所形成的网络结构能构成连通图的用户节点及其微博内容放入第α+1个网络数据块Dα+1中,并返回步骤1.5执行;
步骤1.6、根据所述第α+1个网络数据块Dα+1中所有用户节点以及前α个网络数据块Dα中所有用户节点的网络结构,得到所述第α+1个网络数据块Dα+1中每个用户节点的邻居列表;
步骤1.7、将α+1赋值给α,并判断α>K是否成立,若成立,则表示获得了数据流形式的网络数据块集合D={D1,D2,....,Dα,...,DK};否则,返回步骤1.3执行。
所述步骤二是按如下步骤进行:
步骤2.1、定义变量i;初始化α=1;
步骤2.2、初始化i=1;
步骤2.3、根据所述第α个网络数据块Dα中第i个用户节点所关注的用户节点中,是否与mα个用户节点存在交集;若存在,则将存在交集的用户节点与第i个用户节点相连接,从而更新第i个用户节点的邻居列表;若不存在,则保持第i个用户节点的邻居列表不变;
步骤2.4、将i+1赋值给i,并判断i>mα是否成立,若成立,则表示完成第α个网络数据块Dα中所有用户节点的邻居列表更新;否则,返回步骤2.3执行;
步骤2.5、将α+1赋值给α,并判断α>K是否成立,若成立,则表示完成所有网络数据块中所有用户节点的邻居列表更新;否则,返回步骤2.2执行。
所述步骤四是按如下步骤进行:
步骤4.1、根据第i个用户节点的邻居列表中每个邻居节点的主题标签的相应得分,将低于平均分的相应主题标签删除,从而更新第i个用户节点的邻居列表中每个邻居的候选标签列表。
步骤4.2、定义第i个用户节点的邻居总数为Qi、任意一个邻居为第i个用户节点的第k个邻居用户,k=1,2,…,Qi,并初始化k=1;
步骤4.3、计算所述第i个用户节点与其第k个邻居用户的候选标签列表之间的相似度,对于第i个用户节点的任一个候选标签,判断是否能从所述第i个用户节点的第k个邻居的候选标签列表中找到能满足相似度阈值且相似度最大的主题标签,若能找到,则将第i个用户节点相应的主题标签,与所找到的第k个邻居节点的主题标签组成成对主题标签,并将所述成对主题标签及其相似度一起加入第i个用户节点的第k个邻居用户的待选重叠标签集中;否则,执行步骤4.6;
步骤4.4、判断第i个用户节点的第k个邻居用户的待选重叠标签集中,是否存在相同的第i个用户节点的第k个邻居用户的主题标签,若存在,则将所有相同的第i个用户节点的第k个邻居用户的主题标签中相似度最大的主题标签所对应的成对主题标签及其相似度一起添加到第i个用户节点的第k个邻居用户的重叠标签集中,否则,直接将不相同的第i个用户节点的第k个邻居用户的主题标签所对应的成对主题标签及其相似度一起添加到第i个用户节点的第k个邻居用户的重叠标签集中;
步骤4.5、将所述重叠标签集中第i个用户节点的第k个邻居用户的每个主题标签的得分乘以自身的相似度值,再与第i个用户节点的主题标签的得分相加,从而得到第i个用户节点的每个主题标签的得分调整值,并更新到第i个用户节点的候选标签列表中;
步骤4.6、将k+1赋值给k,判定k>Qi是否成立,若成立,根据更新后的第i个用户节点的候选标签列表,选取前Top个得分最高的主题标签作为第i个用户节点的标签集,否则返回执行步骤4.3。
与已有技术相比,本发明有益效果体现在:
1、本发明在构建网络化数据流的过程中,利用社交网络用户中存在的关注关系,依据数据块中用户不仅需满足与上一个数据块中用户能构成网络关系,还需满足与当前数据块中的用户能构成网络关系的原则,构建出不断到来的网络化数据块,真实的模拟了社交网络数据流快速性、连续性、多变性等特点。
2、本发明根据社交网络中,社交用户的兴趣都会受到所关注用户的兴趣影响的基本思想,通过在社交用户发表的微博内容提取候选标签的基础上,将当前社交用户所关注的邻居社交用户的兴趣标签信息作为补充,从而能更准确的发现社交用户的兴趣标签集。
3、本发明在处理用户兴趣标签集的过程中,基于数据块即来即处理的原则,仅仅存储已知数据块的用户标签集,避免存储了所有用户的微博内容,从而节省了大量存储空间;在调整社交用户的标签集时,仅仅需要考虑相关的邻居用户更新用户标签集,与需要考虑全局关系下所有邻居用户的标签集相比,节省了大量的时间。
4、本发明在计算社交用户候选兴趣标签集与其邻居社交用户候选兴趣标签集重叠标签过程中,引入语义相似度计算词之间的相似度,不仅解决了不同数据块中兴趣主题不统一问题,还解决了社交用户标签集和其邻居社交用户标签集之间标签重叠稀疏问题;在构造重叠主题标签对时,依据当前用户的标签集中的主题标签与邻居用户的标签集中的主题标签的一一对应设计,防止了当前社交用户兴趣标签在受邻居用户的影响下兴趣标签的偏离。
具体实施方式
本实施例中,一种网络化数据流的标签提取方法是按如下步骤进行:
步骤1、在社交网络中,例如新浪微博的社交网络,根据社交网络中用户节点之间存在的关注关系,构建数据流形式的网络数据块集合D,并获得D中每个用户节点的邻居列表。
步骤1.1、在社交网络中,将满足连通图关系的用户节点及其微博内容划分为一个网络数据块,记为第1个网络数据块D1,这里是依据社交关系,初始选取若干个新浪微博用户及其发布的微博内容构成;其中第1个网络数据块D1中包含的用户节点数目记为m1,且m1≤M,M是网络数据块的最大用户数量;本实施例中,M设定为500。
步骤1.2、定义网络数据块的总数为K、任意一个网络数据块为第α个网络数据块,初始化α=1;本实施例中,K设定为100。
步骤1.3、定义每个网络数据块用户节点计数的变量j,初始化j=1;
步骤1.4、将第α个网络数据块Dα中所有用户节点所关注的除mα个用户节点以外的其他用户节点放入用户列表集List中,从用户列表集List中任意选择一个用户节点及其微博内容放入第α+1个网络数据块Dα+1中;
步骤1.5、将j+1赋值给j,判断j>M是否成立或者用户列表集List中不存在任何用户节点能与第α+1个网络数据块Dα+1中用户节点所形成的网络结构构成连通图是否成立,若其中任一个条件成立,则表示形成了第α+1个网络数据块Dα+1,且第α+1个网络数据块Dα+1中的用户节点数目mα+1不超过M;否则,从用户列表集List中选择与第α+1个网络数据块Dα+1中用户节点所形成的网络结构能构成连通图的用户节点及其微博内容放入第α+1个网络数据块Dα+1中,返回步骤1.5执行;
步骤1.6、根据第α+1个网络数据块Dα+1中所有用户节点以及前α个网络数据块Dα中所有用户节点的网络结构,得到第α+1个网络数据块Dα+1中每个用户节点的邻居列表;
步骤1.7、将α+1赋值给α,并判断α>K是否成立,若成立,则表示获得了数据流形式的网络数据块集合D={D1,D2,....,Dα,...,DK};否则,返回步骤1.3执行;
步骤2、更新每一个网络数据块中每个用户节点的邻居列表。
步骤2.1、定义变量i;初始化α=1;
步骤2.2、初始化i=1;
步骤2.3、根据第α个网络数据块Dα中第i个用户节点所关注的用户节点中,是否与mα个用户节点存在交集;若存在,则将存在交集的用户节点与第i个用户节点相连接,从而更新第i个用户节点的邻居列表;若不存在,则保持第i个用户节点的邻居列表不变;本实施例中,用户的邻居列表是指与该用户连接的并且其关注的用户集合。
步骤2.4、将i+1赋值给i,并判断i>mα是否成立,若成立,则表示完成第α个网络数据块Dα中所有用户节点的邻居列表更新;否则,返回步骤2.3执行;
步骤2.5、将α+1赋值给α,并判断α>K是否成立,若成立,则表示完成所有网络数据块中所有用户节点的邻居列表更新;否则,返回步骤2.2执行;
步骤3、根据第α个网络数据块Dα中每个用户节点的微博内容,利用主题模型法,如Author-topic(AT)模型,抽取出每个用户节点的多个候选标签,从而构成每个用户节点相应的候选标签列表;每个用户节点的候选标签列表包括若干个主题标签及其相应得分。
主题模型,就是对文档中隐含主题的一种建模方法。常见的主题模型有LatentDirichlet Allocation(LDA),Author-topic(AT),Labeled-LDA等模型。这些模型都可以用于社交网络中用户兴趣主题发现,本实例选用AT模型,因为AT相比于其他常用主题模型,可以直接获得用户对应的主题分布,具体的AT模型原理参见文献:Rosen-Zvi M,GriffithsT,Steyvers M,Smyth P,The author-topic model for authors and documents,in:Proceedings of the 20th conference onUncertainty in artificial intelligence(2004),487-494.
步骤3.1、采用正则表达式删除用户发布微博内容中如表情符号,url链接等噪音信息。
步骤3.2、利用分词工具,如Part-Of-Speech Tagger,对新浪微博内容进行分词和词性标注,并选取每个用户的名词词性的词语,去除名词里的停用词,从而构成每个用户的词语集合W={w1,w2,....,wr,...,wR},wr表示在词语集合W中第r个名词词性的词语,1≤r≤R。
步骤3.3、根据第α个数据块Dα中所有用户对应的名词短语集合,采用主题模型Author-topic(AT)模型构建出Dα上的T个主题分布,这里T设置为50。
步骤3.4、依据Dα上的T个主题,获得Dα中每个用户对应的候选标签列表,这里每个用户选取得分最高的top 10个主题,每个主题中选取得分最高的top 5个词语集合及相应的主题得分加入到用户候选标签列表中。
步骤4、根据第α个网络数据块Dα中第i个用户节点及其邻居列表的候选标签列表,得到第i个用户节点的标签集。
步骤4.1、根据第i个用户节点的邻居列表中每个邻居节点的主题标签的相应得分,将低于平均分的相应主题标签删除,从而更新第i个用户节点的邻居列表中每个邻居的候选标签列表;本实施例中,删去候选标签集合中标签平均得分小于阈值μ的标签,以保证候选标签集合为用户uk的重要兴趣标签,其中μ设为0.2。
步骤4.2、定义第i个用户节点的邻居总数为Qi、任意一个邻居为第i个用户节点的第k个邻居用户,k=1,2,…,Qi,并初始化k=1;
步骤4.3、利用Wikipedia来度量词语之间的相似度,使用余弦相似度计算所述第i个用户节点与其第k个邻居用户的候选标签列表之间的相似度,对于第i个用户节点的任一个候选标签,判断是否能从所述第i个用户节点的第k个邻居的候选标签列表中找到能满足相似度阈值S且相似度最大的主题标签,若能找到,则将第i个用户节点相应的主题标签,与所找到的第k个邻居节点的主题标签组成成对主题标签,并将所述成对主题标签及其相似度一起加入第i个用户节点的第k个邻居用户的待选重叠标签集中;否则,执行步骤4.6;本实施例中,阈值S的取值为0.5。
例如:假设第i个用户节点候选标签列表是{<ai1,si1>,<ai2,si2>,<ai3,si3>,<ai4,si4>,<ai5,si5>,<ai6,si6>},其中,ai1,ai2,ai3,ai4,ai5,ai6和si1,si2,si3,si4,si5,si6分别指候选标签名及其对应的得分。第i个用户节点的第k个邻居节点的候选标签列表是{<bk1,sk1>,<bk2,sk2>,<bk3,sk3>},其中,bk1,bk2,bk3和sk1,sk2,sk3分别指候选标签名及其对应的得分。具体的相似度计算过程如下:
(1)针对第i个用户节点候选标签ai1,依次从第i个用户节点的第k个邻居节点的候选标签列表选择标签计算相似度值,得到ai1和bk1之间的相似度值0.2,ai1和bk2之间的相似度值0.63,ai1和bk3之间的相似度值0.53,ai1和bk4之间的相似度值0.15,ai1和bk5之间的相似度值0.3,ai1和bk6之间的相似度值0.12,依据候选标签之间的相似度值需大于或等于相似度阈值0.5且相似度最大的原则,因此将<<ai1,si1>,<bk2,sk2>,0.63>加入第i个用户节点的第k个邻居用户的待选重叠标签集中。
(2)同理,对第i个用户节点候选标签ai2,得到ai2和bk1之间的相似度值0.55,ai2和bk2之间的相似度值为0.4,ai2和bk3之间的相似度值是0.51,ai2和bk4之间的相似度值0.35,ai2和bk5之间的相似度值为0.2,ai2和bk6之间的相似度值是0.11,因此将<<ai2,si2>,<bk1,sk1>,0.55>加入第i个用户节点的第k个邻居用户的待选重叠标签集中。
(3)对第i个用户节点候选标签ai3,与第i个用户节点的第k个邻居节点的候选标签列表中任何一个标签之间的相似度值都小于0.5,所以不添加任何元素到待选重叠标签集中。
(4)对第i个用户节点候选标签ai4,得到ai4和bk1之间的相似度值0.54,ai4和bk2之间的相似度值是0.68,ai4和bk3之间的相似度值是0.59,ai5和bk4之间的相似度值是0.33,ai5和bk5之间的相似度值是0.28,ai5和bk6之间的相似度值是0.21,因此将<<ai4,si4>,<bk2,sk2>,0.68>加入第i个用户节点的第k个邻居用户的待选重叠标签集中。
(5)对第i个用户节点候选标签ai5,得到ai5和bk1之间的相似度值0.39,ai5和bk2之间的相似度值是0.41,ai5和bk3之间的相似度值是0.79,ai5和bk4之间的相似度值是0.24,ai5和bk5之间的相似度值是0.26,ai5和bk6之间的相似度值是0.32,因此将<<ai5,si5>,<bk3,sk3>,0.79>加入第i个用户节点的第k个邻居用户的待选重叠标签集中。
(6)对第i个用户节点候选标签ai6,得到ai6和bk1之间的相似度值0.35,ai6和bk2之间的相似度值为0.27,ai6和bk3之间的相似度值是0.66,ai6和bk4之间的相似度值是0.52,ai6和bk5之间的相似度值为0.26,ai6和bk6之间的相似度值是0.32,因此将<<ai6,si6>,<bk3,sk3>,0.66>加入第i个用户节点的第k个邻居用户的待选重叠标签集中。
因此,第i个用户节点的第k个邻居用户的待选重叠标签集为{<<ai1,si1>,<bk2,sk2>,0.63>,<<ai2,si2>,<bk1,sk1>,0.55>,<<ai4,si4>,<bk2,sk2>,0.68>,<<ai5,si5>,<bk3,sk3>,0.79>,<<ai6,si6>,<bk3,sk3>,0.66>}
步骤4.4、判断第i个用户节点的第k个邻居用户的待选重叠标签集中,是否存在相同的第i个用户节点的第k个邻居用户的主题标签,若存在,则将所有相同的第i个用户节点的第k个邻居用户的主题标签中相似度最大的主题标签所对应的成对主题标签及其相似度一起添加到第i个用户节点的第k个邻居用户的重叠标签集中,否则,直接将不相同的第i个用户节点的第k个邻居用户的主题标签所对应的成对主题标签及其相似度一起添加到第i个用户节点的第k个邻居用户的重叠标签集中;
例如:针对第i个用户节点的第k个邻居用户的待选重叠标签集{<<ai1,si1>,<bk2,sk2>,0.63>,<<ai2,si2>,<bk1,sk1>,0.55>,<<ai4,si4>,<bk2,sk2>,0.68>,<<ai5,si5>,<bk3,sk3>,0.79>,<<ai6,si6>,<bk3,sk3>,0.66>},其中<<ai1,si1>,<bk2,sk2>,0.63>和<<ai4,si4>,<bk2,sk2>,0.68>具有相同的第i个用户节点的第k个邻居用户的主题标签bk2,选取相似度最大的成对标签<<ai4,si4>,<bk2,sk2>,0.68>添加到第i个用户节点的第k个邻居用户的重叠标签集中;同样地,<<ai5,si5>,<bk3,sk3>,0.79>和<<ai6,si6>,<bk3,sk3>,0.66>具有相同的第i个用户节点的第k个邻居用户的主题标签bk3,选取相似度最大的成对标签<<ai5,si5>,<bk3,sk3>,0.79>添加到第i个用户节点的第k个邻居用户的重叠标签集中;针对成对标签<<ai2,si2>,<bk1,sk1>,0.55>,因不存在与第i个用户节点的第k个邻居用户的主题标签相同的其他标签对,直接将成对标签添加到第i个用户节点的第k个邻居用户的重叠标签集中。因此,第i个用户节点的第k个邻居用户的重叠标签集为{<<ai4,si4>,<bk2,sk2>,0.68>,<<ai5,si5>,<bk3,sk3>,0.79>,<<ai2,si2>,<bk1,sk1>,0.55>}。
步骤4.5、将重叠标签集中第i个用户节点的第k个邻居用户的每个主题标签的得分乘以自身的相似度值,再与第i个用户节点的主题标签的得分相加,从而得到第i个用户节点的每个主题标签的得分调整值,并更新到第i个用户节点的候选标签列表中。
例如:根据第i个用户节点的第k个邻居用户的重叠标签集{<<ai4,si4>,<bk2,sk2>,0.68>,<<ai5,si5>,<bk3,sk3>,0.79>,<<ai2,si2>,<bk1,sk1>,0.55>}和步骤4.5的得分调整公式,最终,第i个用户节点候选标签列表得分调整值更新为{<ai1,si1>,<ai2,(si2+0.55×sk1)>,<ai3,si3>,<ai4,(si4+sk2×0.68)>,<ai5,(si5+sk3×0.79)>,<ai6,si6>}。
步骤4.6、将k+1赋值给k,判定k>Qi是否成立,若成立,根据更新后的第i个用户节点的候选标签列表,选取前Top个得分最高的主题标签作为第i个用户节点的标签集,否则返回执行步骤4.3。
Claims (3)
1.一种网络化数据流的标签提取方法,其特征是按如下步骤进行:
步骤1、根据社交网络中用户节点之间存在的关注关系,构建数据流形式的网络数据块集合D,并获得网络数据块集合D中每个用户节点的邻居列表;
步骤2、更新每一个网络数据块中每个用户节点的邻居列表;
步骤3、根据第α个网络数据块Dα中每个用户节点的微博内容,利用主题模型法抽取出每个用户节点的多个候选标签,从而构成每个用户节点相应的候选标签列表;所述每个用户节点的候选标签列表包括若干个主题标签及其相应得分;
步骤4、根据第α个网络数据块Dα中第i个用户节点及其邻居列表的候选标签列表,得到第i个用户节点的标签集;
步骤4.1、根据第i个用户节点的邻居列表中每个邻居用户的主题标签的相应得分,将低于平均分的相应主题标签删除,从而更新第i个用户节点的邻居列表中每个邻居用户的候选标签列表;
步骤4.2、定义第i个用户节点的邻居用户总数为Qi、任意一个邻居用户为第i个用户节点的第k个邻居用户,k=1,2,…,Qi,并初始化k=1;
步骤4.3、计算所述第i个用户节点与其第k个邻居用户的候选标签列表之间的相似度,对于第i个用户节点的任一个候选标签,判断是否能从所述第i个用户节点的第k个邻居用户的候选标签列表中找到能满足相似度阈值且相似度最大的主题标签,若能找到,则将第i个用户节点相应的主题标签,与所找到的第k个邻居用户的主题标签组成成对主题标签,并将所述成对主题标签及其相似度一起加入第i个用户节点的第k个邻居用户的待选重叠标签集中;否则,执行步骤4.6;
步骤4.4、判断第i个用户节点的第k个邻居用户的待选重叠标签集中,是否存在相同的第i个用户节点的第k个邻居用户的主题标签,若存在,则将所有相同的第i个用户节点的第k个邻居用户的主题标签中相似度最大的主题标签所对应的成对主题标签及其相似度一起添加到第i个用户节点的第k个邻居用户的重叠标签集中,否则,直接将不相同的第i个用户节点的第k个邻居用户的主题标签所对应的成对主题标签及其相似度一起添加到第i个用户节点的第k个邻居用户的重叠标签集中;
步骤4.5、将所述重叠标签集中第i个用户节点的第k个邻居用户的每个主题标签的得分乘以自身的相似度值,再与第i个用户节点的主题标签的得分相加,从而得到第i个用户节点的每个主题标签的得分调整值,并更新到第i个用户节点的候选标签列表中;
步骤4.6、将k+1赋值给k,判定k>Qi是否成立,若成立,根据更新后的第i个用户节点的候选标签列表,选取前Top个得分最高的主题标签作为第i个用户节点的标签集,否则返回执行步骤4.3。
2.根据权利要求1所述的网络化数据流的标签提取方法,其特征在于:所述步骤1是按如下步骤进行:
步骤1.1、在社交网络中,将满足连通图关系的用户节点及其微博内容划分为一个网络数据块,记为第1个网络数据块D1;所述第1个网络数据块D1中包含的用户节点数目记为m1,且m1≤M,M是网络数据块的最大用户数量;
步骤1.2、定义网络数据块的总数为K、任意一个网络数据块为第α个网络数据块,初始化α=1;
步骤1.3、定义每个网络数据块用户节点的计数变量为j,初始化j=1;
步骤1.4、将所述第α个网络数据块Dα中所有用户节点所关注的除mα个用户节点以外的其他用户节点放入用户列表集List中,从所述用户列表集List中任意选择一个用户节点及其微博内容放入第α+1个网络数据块Dα+1中;
步骤1.5、将j+1赋值给j,判断j>M是否成立或者从所述用户列表集List中不存在任何用户节点能与所述第α+1个网络数据块Dα+1中用户节点所形成的网络结构构成连通图是否成立,若任一个条件成立,则表示形成了第α+1个网络数据块Dα+1,且第α+1个网络数据块Dα+1中的用户节点数目mα+1不超过M,并执行步骤1.6;否则,从所述用户列表集List中选择与所述第α+1个网络数据块Dα+1中用户节点所形成的网络结构能构成连通图的用户节点及其微博内容放入第α+1个网络数据块Dα+1中,并返回步骤1.5执行;
步骤1.6、根据所述第α+1个网络数据块Dα+1中所有用户节点以及前α个网络数据块中所有用户节点的网络结构,得到所述第α+1个网络数据块Dα+1中每个用户节点的邻居列表;
步骤1.7、将α+1赋值给α,并判断α>K是否成立,若成立,则表示获得了数据流形式的网络数据块集合D={D1,D2,....,Dα,...,DK};否则,返回步骤1.3执行。
3.根据权利要求1所述的网络化数据流的标签提取方法,其特征在于:所述步骤2是按如下步骤进行:
步骤2.1、定义变量i;初始化α=1;
步骤2.2、初始化i=1;
步骤2.3、根据所述第α个网络数据块Dα中第i个用户节点所关注的用户节点中,是否与mα个用户节点存在交集;若存在,则将存在交集的用户节点与第i个用户节点相连接,从而更新第i个用户节点的邻居列表;若不存在,则保持第i个用户节点的邻居列表不变;
步骤2.4、将i+1赋值给i,并判断i>mα是否成立,若成立,则表示完成第α个网络数据块Dα中所有用户节点的邻居列表更新;否则,返回步骤2.3执行;
步骤2.5、将α+1赋值给α,并判断α>K是否成立,若成立,则表示完成所有网络数据块中所有用户节点的邻居列表更新;否则,返回步骤2.2执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710737185.8A CN107483256B (zh) | 2017-08-24 | 2017-08-24 | 一种网络化数据流的标签提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710737185.8A CN107483256B (zh) | 2017-08-24 | 2017-08-24 | 一种网络化数据流的标签提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107483256A CN107483256A (zh) | 2017-12-15 |
CN107483256B true CN107483256B (zh) | 2020-02-18 |
Family
ID=60602380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710737185.8A Active CN107483256B (zh) | 2017-08-24 | 2017-08-24 | 一种网络化数据流的标签提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107483256B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537115A (zh) * | 2015-01-21 | 2015-04-22 | 北京字节跳动科技有限公司 | 用户兴趣的探索方法和装置 |
CN105069172A (zh) * | 2015-09-09 | 2015-11-18 | 中国人民大学 | 兴趣标签生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467282B2 (en) * | 2015-12-17 | 2019-11-05 | Facebook, Inc. | Suggesting tags on online social networks |
-
2017
- 2017-08-24 CN CN201710737185.8A patent/CN107483256B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537115A (zh) * | 2015-01-21 | 2015-04-22 | 北京字节跳动科技有限公司 | 用户兴趣的探索方法和装置 |
CN105069172A (zh) * | 2015-09-09 | 2015-11-18 | 中国人民大学 | 兴趣标签生成方法 |
Non-Patent Citations (1)
Title |
---|
结合用户关系网和标签共现网的微博用户标签推荐研究;吴小兰等;《情报学报》;20150531;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107483256A (zh) | 2017-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stieglitz et al. | Social media analytics–Challenges in topic discovery, data collection, and data preparation | |
Hoang et al. | Predicting information diffusion on Twitter–Analysis of predictive features | |
Efron | Information search and retrieval in microblogs | |
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
CN106682770B (zh) | 一种基于好友圈子的动态微博转发行为预测系统及方法 | |
Ferrara et al. | Online popularity and topical interests through the lens of instagram | |
Ardon et al. | Spatio-temporal and events based analysis of topic popularity in twitter | |
US9286379B2 (en) | Document quality measurement | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
Psomakelis et al. | Big IoT and social networking data for smart cities: Algorithmic improvements on Big Data Analysis in the context of RADICAL city applications | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
Liu et al. | Detecting collusive spamming activities in community question answering | |
TW201719569A (zh) | 社交業務特徵用戶的識別方法和裝置 | |
CN109684548A (zh) | 一种基于用户图谱的数据推荐方法 | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
Cui et al. | Personalized microblog recommendation using sentimental features | |
Xiao et al. | Predicting User Influence in Social Media. | |
CN105468780A (zh) | 一种微博文本中产品名实体的规范化方法及装置 | |
Hou et al. | Research on the behaviour and law of quantity growth of followers based on WeChat official account | |
CN115329078B (zh) | 文本数据处理方法、装置、设备以及存储介质 | |
Sotsenko et al. | Using a rich context model for real-time big data analytics in twitter | |
Yan et al. | User recommendation with tensor factorization in social networks | |
Abebe et al. | Overview of event-based collective knowledge management in multimedia digital ecosystems | |
CN107483256B (zh) | 一种网络化数据流的标签提取方法 | |
Brugere et al. | Evaluating social networks using task-focused network inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |