CN104239539B - 一种基于多种信息融合的微博信息过滤方法 - Google Patents

一种基于多种信息融合的微博信息过滤方法 Download PDF

Info

Publication number
CN104239539B
CN104239539B CN201410487114.3A CN201410487114A CN104239539B CN 104239539 B CN104239539 B CN 104239539B CN 201410487114 A CN201410487114 A CN 201410487114A CN 104239539 B CN104239539 B CN 104239539B
Authority
CN
China
Prior art keywords
feature
microblogging
user
microblog
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410487114.3A
Other languages
English (en)
Other versions
CN104239539A (zh
Inventor
闫碧莹
余雷
袁伟
邓攀
赵鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhong kjia speed (Beijing) Information Technology Co., Ltd.
Original Assignee
SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd filed Critical SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Priority to CN201410487114.3A priority Critical patent/CN104239539B/zh
Publication of CN104239539A publication Critical patent/CN104239539A/zh
Application granted granted Critical
Publication of CN104239539B publication Critical patent/CN104239539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于多种信息融合的微博信息过滤方法,属于智能信息处理技术领域。方法包括:步骤1,构建分布式爬虫,抓取微博数据;步骤2,对微博数据进行预处理;步骤3,对微博数据进行中文分词,去除停用词,获取分词结果,得到词集合VOC;步骤4,从微博内容角度提取特征;步骤5,从用户角度提取微博特征;步骤6,从传播路径提取特征;步骤7,构建分类模型,筛选非垃圾微博;本发明通过结合微博信息去重和分类学习算法去除微博垃圾信息的双重过程,实现微博信息过滤,既过滤掉重复微博信息,又过滤掉垃圾微博信息。

Description

一种基于多种信息融合的微博信息过滤方法
技术领域
本发明属于智能信息处理技术领域,具体涉及一种基于多种信息融合的微博信息过滤方法。
背景技术
微博,作为一种新的传播载体,包含了大量用户针对人物、事件等的微博信息,因此在网络舆情发起和传播中起着重要作用,并成为网络舆情浏览和分析的重要数据源之一。但是,在微博空间,便捷的“转发”操作以及快速增长的“网络水军”,使得大量相同或相似的数据在微博空间内迅速传播。同时,噪音微博作为一种宣传手段也迅猛蔓延到微博空间的各个角落。对于网络舆情分析而言,噪音微博通常没有意义,相同或相似的微博也只具有一定的统计意义。对于微博用户的浏览而言,用户会发现自己看到的微博数据很多,但真正得到的有意义的信息量却有限,浪费了时间和精力。同时,这类微博的存在也严重影响到了信息检索的准确性,大大降低了分析的可信性。因此,对微博客文本信息进行过滤提纯,对于减轻用户浏览理解和系统存储的负担,提高文本内容检索、网络舆情分析的效率等都具有十分重要的意义。
虽然微博的研究目前已成为一个热点,但总体上,针对微博的文本过滤技术还处于起步阶段。考虑到微博的传播性、用户相关性、以及其具有的时间相关性等特点,目前已有的多种针对文本内容本身的信息过滤方法已不足以满足微博信息过滤的要求。
发明内容
本发明在分析了中文微博客文本流中噪音微博和相似微博特点的基础上,提出了针对微博文本流的噪音判别和内容相似性双重检测的过滤方法,具体是指:一种基于多种信息融合的微博信息过滤方法。
具体步骤为:
步骤一:构建分布式爬虫,抓取微博数据。
步骤二:对微博数据进行预处理。
采用规则集对微博数据进行预处理;预处理包括去噪和去重,具体指去除微博数据中文本长度小于长度阈值L的数据、重复的微博数据、广告内容和自动回复数据,其中一条微博数据包括微博正文和评论中的数据。
步骤三、对微博数据进行中文分词,去除停用词,获取分词结果,得到词集合VOC。
步骤四:从微博内容角度提取特征。微博特征包括:微博文本n-gram、通过LDA对微博文本聚类提取的主题、微博文本中是否包含链接和微博文本中是否包含联系方式。
步骤五:从用户角度提取微博特征。
微博特征包括:用户名、用户关注数、粉丝数、用户平均转发和回复次数、用户注册时间、用户平均上线间隔、用户每次上线发表文章数、用户性别、所在地、个人说明和标签。
步骤六:从传播路径提取特征。
微博特征包括:评价传播层次、平均每层转发次数和传播衰减指数。
步骤七:构建分类模型,筛选非垃圾微博;
以步骤四,步骤五和步骤六得到的微博特征为基础,构建分类模型,筛选分类,过滤掉微博垃圾。
步骤701:从微博内容角度,微博用户角度和微博传播路径3个角度选取若干特征,分别为样本数据和测试数据,将所有特征进行离散化和归一化处理。
步骤702:运用分类器模型,得到最优模型参数;
步骤703:交叉训练最优模型参数,使得模型针对样本数据分类具有最高精度。
步骤704:将测试数据带入分类器模型进行分类。
本发明的优点和积极效果在于:
1)一种基于多种信息融合的微博信息过滤方法,通过对微博数据实时抓取后再进行过滤,实现了保留高质量微博数据的目标。
2)一种基于多种信息融合的微博信息过滤方法,通过结合微博信息去重和分类学习算法去除微博垃圾信息的双重过程,实现微博信息过滤,既过滤掉重复微博信息,又过滤掉垃圾微博信息。
3)一种基于多种信息融合的微博信息过滤方法,将微博传播路径特征引入分类训练模型,使垃圾微博识别准确度更高。
4)一种基于多种信息融合的微博信息过滤方法,通过URL、字符率、高频词等特征判别,过滤噪音微博;通过分段过滤和索引过滤的双重内容过滤,检测和剔除相似微博。该方法能有效的对海量中文微博数据进行提纯,准确地过滤掉其中的噪音微博和相似微博。
说明书附图
图1是本发明一种基于多种信息融合的微博信息过滤方法总体流程图。
图2是本发明一种基于多种信息融合的微博信息过滤方法的数据预处理过程。
图3是本发明中关于中文分词的流程图。
图4是本发明实施例中普通热门信息的传播路径示例图。
图5是本发明实施例中垃圾热门信息的传播路径示例图。
具体实施方式
下面将结合附图和具体实施例对本发明作出进一步的详细说明。
一种基于多种信息融合的微博信息过滤方法,具体涉及一种自动计算微博上垃圾信息的方法。
根据所过滤信息的范围,人工定义制作评估数据集。不同的任务框架下对垃圾信息的定义不同,同样,本发明并不是针对某一个任务,如分类或者聚类,或者情感分析的上层应用,而是通用的,从逻辑上判断信息是否无用。
垃圾信息的定义:
1)重复性较强:有很多和它类似的微博;
2)转发回复数较少:对其他人来说没有价值;
3)不是出于兴趣转发:如水军转发和回复;
4)微博内容蕴含的价值信息较少:如表情、一个字回复等。
同时满足以上几条中两条及以上的微博,定义为垃圾信息。
本发明基于不同的信息源,分别从微博内容、用户信息、传播路径三个角度计算微博的价值信息,藉此发现微博的垃圾度。
从用户角度计算微博的垃圾程度:微博上充斥着大量水军,转发大量广告贴产生垃圾信息,而水军公司为了方便,往往在注册时使用用户名后缀加上数字。同时,水军的行为往往具有联动性,如集中时间段的登录行为,一段时间的“爆发”或者“消亡”,这些都不太符合常人的行为习惯。因此,从这些因素中可以分辨出来一部分水军用户。
从微博内容本身计算微博的垃圾程度:广告微博的内容往往具有一些明显的特征,如有“购买”等词,带url链接,有联系人和联系方式等,通过内容判断得到一部分信息。
从微博传播路径中计算微博的垃圾程度:正常的微博传播和垃圾的微博传播传具有明显的不同;如垃圾的微博转发量衰减指数、热门话题的扁平传播,缺乏区域影响力点、传播速度的集中性等。
综合以上几种信息源,建立基于特征的分类模型,预估微博的垃圾程度。
如附图1所示,具体操作步骤如下:
步骤一:构建分布式爬虫,抓取微博数据。
主要通过新浪api抓取新浪微博数据。
步骤二:对微博数据进行预处理。
预处理包括去噪和去重;对微博数据分别通过如附图2所示的具体步骤实施:
步骤201:去除微博数据中文本长度小于长度阈值L的数据。
具体采用比较大小的程序自动过滤微博数据中文本长度小于长度阈值L的微博数据。长度阈值L的值根据经验或具体领域视情况而定,本发明L值选取5。
步骤202:去除重复的微博数据。
利用Bloom filter算法或Simhash算法对微博数据中的重复数据进行过滤。
步骤203:去除微博数据中包含的广告内容。
设计与广告词匹配的正则表达式和匹配规则库,去除微博文本中包含的广告内容。
广告词匹配规则库中包含了常用的广告词;编写正则表达式用于匹配广告词匹配规则库中的任意词,正则表达式是根据具体模板而定的。
步骤204:去除基于网络特定回复模板的自动回复数据。
基于网络特定回复模板设计与网络自动回复内容匹配的正则表达式,去除微博数据中基于网络特定回复模板的自动回复内容。
步骤205:重复步骤201,再次计算微博数据中文本的长度,并去除不满足长度规则的微博数据,进行二次清洗。
步骤三、对微博数据进行中文分词,去除停用词,获取分词结果,得到词集合VOC。
具体的分词过程如附图3所示:
步骤301:对微博数据进行中文分词同时去除停用词;
调用中文分词器对微博数据进行分词,同时去除停用词;
步骤302:对微博数据中的英文词进行形态变换,转换到统一形式;
对步骤301处理之后的分词结果中包含的英文词进行形态变换,转换到统一形式;包括将时态统一为一般现在时,将语态统一为主动语态。
步骤303:计算每个词的文档频率df和词频tf;主要是对步骤302得到的分词结果中的每个词,计算其文档频率df和词频tf;
文档频率df:是指出现过该词的文件个数除以文件集中的文件总数;
词频tf:是指该词在文件中出现的次数除以该文件的总词语数。
步骤304:计算每个词的特征强度ft;针对步骤302得到的分词结果中的每个词,计算其特征强度ft,特征强度ft定义为:
其中idf代表逆文档频率,是文档频率df的倒数;
步骤305:提取特征强度ft大于特征强度阈值T的词,构成词集合VOC。
根据步骤304计算所得的特征强度ft,筛选特征强度ft大于强度阈值T的词,将微博数据中所有的特征强度ft大于特征强度阈值T的词组成词集合VOC,特征强度阈值T根据具体适用场合而定。
步骤四:从微博内容角度提取特征。
微博特征包括:微博文本n-gram、通过LDA对微博文本聚类提取的主题、微博文本中是否包含链接和微博文本中是否包含联系方式。
其中微博文本中是否包含链接和微博文本中是否包含联系方式的特征提取通过正则表达式匹配得到;
通过LDA对微博文本聚类提取的主题的特征提取的具体实施步骤如下:
1)对词集合VOC中的单词做统计,得到文档d中单词wi出现的频率,设为p(wi|d)。
词集合VOC中的每一条微博数据设为一个文档d,对于任一时间区间period,其区间内n个文档d组成文档集合D;设每一个文档d均含有m个单词;每条微博数据进过中文分词后的单词序列设为<w1,w2,...,wm>,wi表示第i个单词。
对每个时间区间内的所有文档建立文档-主题模型,得到主题集合T并提取主题,所述的文档-主题模型选取基于Gibbs sampling的LDA主题模型,在每个时间区间内对当时的文档集合D进行聚类,挖掘到隐含的主题集合T设为<t1,t2,...,tk>,提取的主题为topic;本实施例选取k个topic,ti表示第i个topic。
2)为词集合VOC中的每个单词wi,随机指定一个主题topic,作为初始主题。
3)通过Gibbs sampling公式,重新采样每个单词wi的所属主题topic,并在词集合VOC中更新直到Gibbs sampling收敛。
4)应用频率p(wi|d),通过LDA聚类得到文档对应主题的概率矩阵A,A是一个n*k的矩阵,其中元素aij表示第i个文档d对应第j个主题topic的概率。
步骤五:从用户角度提取微博特征。
微博特征包括:用户名、用户关注数、粉丝数、用户平均转发和回复次数、用户注册时间、用户平均上线间隔、用户每次上线发表文章数、用户性别、所在地、个人说明和标签。
从用户角度提取的微博特征在一定程度上也能判别垃圾微博数据。例如,通过观察发现,现代公司的广告帖转发中用户名普遍为“中文+长串数字”,且微博内容大多与广告相关,因此认定为“水军”广告转发,不具备价值,是需要过滤的垃圾信息。
步骤六:从传播路径提取微博特征。
微博特征包括:评价传播层次、平均每层转发次数和传播衰减指数;
其中评价传播层次的特征提取是通过统计被转发的层次数和每层被转发的次数得到;
平均每层转发次数的特征提取通过每条微博数据下方的转发数得到;
传播衰减指数的特征提取通过如下公式得到:
第k'层传播衰减指数=(传播到第k'层的微博数量-传播到第k'+1层的微博数量)/传播到第k'层的微博数量;
一般来说,垃圾热门信息的传播路径和普通热门信息的传播路径不一样,普通热门信息的传播路径选取奔驰汽车内饰致癌的信息传播图,如附图4所示,传播特点是:局部热点,多层次,衰减缓慢。
而垃圾热门信息的传播路径选取如现代公司新车上市微博的一个转发传播路线图,如附图5所示,传播特点是:层次较少、且每层的转发数过于近似。
步骤七:构建分类模型,筛选非垃圾微博;
以步骤四,步骤五和步骤六得到的微博特征为基础,建立分类模型,采用决策树算法、K-临近算法或SVM(支持向量机)算法,对微博数据进行分类,从而将正常微博数据与垃圾微博数据区别出来,过滤掉垃圾微博数据;具体过程如下:
步骤701:从微博内容角度,微博用户角度和微博传播路径3个角度选取若干特征,分别为样本数据和测试数据,将所有特征进行离散化和归一化处理。
本实施例中选取特征如下:
1.从微博内容角度通过步骤四提取的特征包括:
微博文本1-gram、微博文本2-gram、微博文档d对应每个主题topic的概率分别作为一个特征、微博文本中是否包含链接和微博文本中是否包含联系方式共计4+k个特征;
对以上特征进行离散化和归一化处理,具体如下:
a)对于特征“微博文本1-gram”:设所有微博数据的此特征值组成集合Fea1,对Fea1根据数值大小进行k-means聚类,聚类类别值范围为3-10;能实现聚类的方法,如层次聚类,som聚类方法均落入本发明的保护范围之内。
本实施例中优选聚为9类,将特征离散为9个特征<F11,F12,...,F19>,对于任意一条微博数据,若其特征“微博文本1-gram”的值落在第i'类(i'=1,2,…,9),则将特征标记为F1i'=1;否则F1i'=0。
b)对于特征“微博文本2-gram”的处理与对于特征“微博文本1-gram”的处理类似,将特征离散为9个特征<F21,F22,...,F29>;
若其特征“微博文本2-gram”的值落在第i'类(i'=1,2,…,9),则将特征标记为F2i'=1;否则F2i'=0。
c)对于特征“微博文档d对应每个主题topic的概率”,将特征离散设为k个特征<F31,F32,...,F3k>,(j=1,2,…,k)根据步骤四得到的文档对应主题的概率矩阵A,对任意一条微博数据,其第i个文档d对应k个主题topic的概率为<ai1,ai2,...,aik>,对ai1,ai2,...,aik从大到小进行排序,若元素aij落在前Top名,本实施例中Top=4,则F3j=1,否则F3j=0。
d)对于特征“是否包含链接”,将特征离散设为9个特征<F41,F42,...,F49>,若包含链接,则F4i'=1;否则F4i'=0。
e)对于特征“是否包含联系方式”,将特征离散设为9个特征<F51,F52,...,F59>,若包含联系方式,则F5i'=1;否则F5i'=0。
2.从微博用户角度通过步骤五提取的特征包括:用户关注数、粉丝数、用户平均转发数、用户平均回复次数、用户注册时间、用户平均上线间隔、用户每次上线发表文章数、用户性别、所在地、个人说明字数长度和标签个数;
对以上特征进行离散化和归一化处理的具体步骤如下:
a1)对于特征“用户关注数”,将特征离散为9个特征<F61,F62,...,F69>,对于任意一条微博数据,若其特征“用户关注数”的值落在第i'类(i'=1,2,…,9),则将特征标记为F6i'=1;否则F6i'=0。
b1)对于特征“粉丝数”,将特征离散为9个特征<F71,F72,...,F79>,将特征“用户平均转发数”离散为9个特征<F81,F82,...,F89>,将特征“用户平均回复次数”离散为9个特征<F91,F92,...,F99>、将特征“用户注册时间”离散为9个特征<F101,F102,...,F109>,将特征“用户平均上线间隔”离散为9个特征<F111,F112,...,F119>,将特征“用户每次上线发表文章数”离散为9个特征<F121,F122,...,F129>,将特征“个人说明字数长度”离散为9个特征<F151,F152,...,F159>,将特征“标签个数”离散为9个特征<F161,F162,...,F169>,处理与特征“用户关注数”类似,均对于任意一条微博数据,若其特征“粉丝数”、“用户平均转发数”、“用户平均回复次数”、“用户注册时间”、“用户平均上线间隔”、“用户每次上线发表文章数”、“个人说明字数长度”、“标签个数”的值落在第i'类(i'=1,2,…,9),则将特征标记分别为F7i'=1;F8i'=1;F9i'=1;F10i'=1;F11i'=1;F12i'=1;F15i'=1;F16i'=1;F7i'=1;否则为0。
c1)对于特征“用户性别”,设为F13,若用户性别为男,则F13=1;否则用户性别为女,则F13=0。
d1)对于特征“所在地”,对所有所在地进行编号,设不同所在地总数为p,则将该特征离散为p个特征<F141,F142,...,F14p>,对于任意一条微博数据,若其特征“所在地”对应的编号为i,则F14i=1;否则F14i=0。
3.从微博传播特征角度通过步骤六提取的特征包括:评价传播层次、平均每层转发次数和传播衰减指数。
对于特征“评价传播层次”和“平均每层转发次数”的处理与特征“用户关注数”类似:将特征“评价传播层次”和“平均每层转发次数”分别离散为9个特征,设为<F171,F172,...,F179>和<F181,F182,...,F189>,对于任意一条微博数据,若其特征“评价传播层次”和“平均每层转发次数”的值落在第i'类(i'=1,2,…,9),则将特征标记为F17i'=1和F18i'=1;否则F17i'=0和F18i'=0。
对于特征“传播衰减指数”,设第k'层传播的衰减指数为F19k',其处理与特征“用户关注数”类似:将第k'层的特征离散为9个特征,设为<F19k'1,F19k'2,...,F19k'9>,对于任意一条微博数据,若其特征“第k'层传播衰减指数”的值落在第i″类(i″=k'1,k'2,…,k'9),则将特征标记为F19i″=1;否则F19i″=0。
步骤701对从微博内容角度,微博用户角度和微博传播路径3个角度选取的若干特征离散化和归一化处理后,得到的是关于特征值为1和0的向量值;
步骤702:运用分类器模型,得到最优模型参数。
分类器模型优选svm分类器模型;基于高斯径向基函数(Radial Basis Function)作为核函数:
c为惩罚因子,xc为核函数中心,x是需要判断的样本点,σ为函数的宽度参数;
将步骤701得到的关于特征值为1和0的向量值带入SVM分类器模型,并经过高斯径向基函数运算后得到最优模型参数c和σ。
现有技术中能实现分类功能的分类器模型均在本发明的保护范围之内。
步骤703:交叉训练最优模型参数c和σ,使得模型针对样本数据分类具有最高精度。
运用现有的算法库对步骤702得到的最优模型参数c和σ进行交叉训练,使得模型针对样本数据分类具有最高精度。
步骤704:将测试数据带入分类器模型进行分类。
对于步骤701中任意一条微博,按照步骤4,步骤5,步骤6提取的测试特征,代入703得到的具有最优模型参数c和σ的分类器模型,得出分类器判别结果,从而判定正常微博与垃圾微博。

Claims (5)

1.一种基于多种信息融合的微博信息过滤方法,其特征在于,包括如下步骤:
步骤一:构建分布式爬虫,抓取微博数据;
步骤二:对微博数据进行预处理;
采用规则集对微博数据进行预处理;预处理包括去噪和去重,具体指去除微博数据中文本长度小于长度阈值L的数据、重复的微博数据、广告内容和自动回复数据,其中一条微博数据包括微博正文和评论中的数据;
步骤三、对微博数据进行中文分词,去除停用词,获取分词结果,得到词集合VOC;
步骤四:从微博内容角度提取特征;
微博特征包括:微博文本n-gram、通过LDA对微博文本聚类提取的主题、微博文本中是否包含链接和微博文本中是否包含联系方式;
步骤五:从用户角度提取微博特征;
微博特征包括:用户名、用户关注数、粉丝数、用户平均转发和回复次数、用户注册时间、用户平均上线间隔、用户每次上线发表文章数、用户性别、所在地、个人说明和标签;
步骤六:从传播路径提取特征;
微博特征包括:评价传播层次、平均每层转发次数和传播衰减指数;
所述的传播衰减指数的特征提取通过如下公式得到:
第k'层传播衰减指数=(传播到第k'层的微博数量-传播到第k'+1层的微博数量)/传播到第k'层的微博数量;
步骤七:构建分类模型,筛选非垃圾微博;
以步骤四,步骤五和步骤六得到的微博特征为基础,构建分类模型,筛选分类,过滤掉微博垃圾;具体如下:
步骤701:从微博内容角度,微博用户角度和微博传播路径3个角度选取若干特征,分别为样本数据和测试数据,将所有特征进行离散化和归一化处理;
步骤702:运用分类器模型,得到最优模型参数;
步骤703:交叉训练最优模型参数,使得模型针对样本数据分类具有最高精度;
步骤704:将测试数据带入分类器模型进行分类。
2.根据权利要求1所述的一种基于多种信息融合的微博信息过滤方法,其特征在于,所述的步骤三具体如下:
步骤301:对微博数据进行中文分词同时去除停用词;
步骤302:对微博数据中的英文词进行形态变换,转换到统一形式;包括将时态统一为一般现在时,将语态统一为主动语态;
步骤303:计算每个词的文档频率df和词频tf;
文档频率df:是指出现过该词的文件个数除以文件集中的文件总数;
词频tf:是指该词在文件中出现的次数除以该文件的总词语数;
步骤304:计算每个词的特征强度ft;特征强度ft定义为:
<mrow> <mi>f</mi> <mi>t</mi> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>t</mi> <mi>f</mi> </mrow> <mrow> <mi>i</mi> <mi>d</mi> <mi>f</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中idf代表逆文档频率,是文档频率df的倒数;
步骤305:提取特征强度ft大于特征强度阈值T的词,构成词集合VOC。
3.根据权利要求1所述的一种基于多种信息融合的微博信息过滤方法,其特征在于,所述的步骤四中,所述的微博文本中是否包含链接、微博文本中是否包含联系方式,其特征提取均通过正则表达式匹配得到;
所述的通过LDA对微博文本聚类提取的主题,其特征提取的具体实施步骤如下:
1)对词集合VOC中的单词做统计,得到文档d中单词wi'出现的频率,设为p(wi'|d);
词集合VOC中的每一条微博数据设为一个文档d,对于任一时间区间period,其区间内n个文档d组成文档集合D;设每一个文档d均含有m个单词;每条微博数据经过中文分词后的单词序列设为<w1,w2,...,wm>,wi'表示第i'个单词;
对每个时间区间内的所有文档建立文档-主题模型,得到主题集合T并提取主题,所述的文档-主题模型选取基于Gibbs sampling的LDA主题模型,在每个时间区间内对当时的文档集合D进行聚类,挖掘到隐含的主题集合T设为<t1,t2,...,tk>,提取的主题为topic;选取k个topic,tk表示第k个topic;
2)为词集合VOC中的每个单词wi',随机指定一个主题topic,作为初始主题;
3)通过Gibbs sampling公式,重新采样每个单词wi'的所属主题topic,并在词集合VOC中更新直到Gibbs sampling收敛;
4)应用频率p(wi'|d),通过LDA聚类得到文档对应主题的概率矩阵A,A是一个n*k的矩阵,其中元素aij表示第i个文档d对应第j个主题topic的概率。
4.根据权利要求1所述的一种基于多种信息融合的微博信息过滤方法,其特征在于,所述的步骤六中:
所述的评价传播层次的特征提取是通过统计被转发的层次数和每层被转发的次数得到;
所述的平均每层转发次数的特征提取通过每条微博数据下方的转发数得到。
5.根据权利要求1所述的一种基于多种信息融合的微博信息过滤方法,其特征在于,所述的步骤701中,
所述的从微博内容角度通过步骤四提取的特征包括:
微博文本1-gram、微博文本2-gram、微博文档d对应每个主题topic的概率分别作为一个特征、微博文本中是否包含链接和微博文本中是否包含联系方式共计4+k个特征;
对以上特征进行离散化和归一化处理,具体如下:
a)对于特征“微博文本1-gram”:设所有微博数据的此特征值组成集合Fea1,对Fea1根据数值大小进行k-means聚类,并将特征离散化,对于任意一条微博数据,若其特征“微博文本1-gram”的值落在范围内,则将特征标记为1;否则为0;
b)对于特征“微博文本2-gram”,设所有微博数据的此特征值组成集合Fea2,对Fea2根据数值大小进行k-means聚类,并将特征离散化,对于任意一条微博数据,若其特征“微博文本2-gram”的值落在范围内,则将特征标记为1;否则为0;
c)对于特征“微博文档d对应每个主题topic的概率”,将特征离散设为k个特征,根据步骤四得到的文档对应主题的概率矩阵A,对任意一条微博数据,其第i个文档d对应k个主题topic的概率为<ai1,ai2,...,aik>,对ai1,ai2,...,aik从大到小进行排序,若元素aij落在前Top名,则将特征标记为1;否则为0;
d)对于特征“是否包含链接”,将此特征离散化,若包含链接,则将特征标记为1;否则为0;
e)对于特征“是否包含联系方式”,将此特征离散化,若包含联系方式,则将特征标记为1;否则为0;
所述的从微博用户角度通过步骤五提取的特征包括:用户关注数、粉丝数、用户平均转发数、用户平均回复次数、用户注册时间、用户平均上线间隔、用户每次上线发表文章数、用户性别、所在地、个人说明字数长度和标签个数;
对以上特征进行离散化和归一化处理的具体步骤如下:
a1)对于特征“用户关注数”,“粉丝数”,“用户平均转发数”,“用户平均回复次数”,“用户注册时间”,“用户平均上线间隔”,“用户每次上线发表文章数”,“个人说明字数长度”和“标签个数”的处理相同,将特征分别离散化,若其特征“用户关注数”,“粉丝数”,“用户平均转发数”,“用户平均回复次数”,“用户注册时间”,“用户平均上线间隔”,“用户每次上线发表文章数”,“个人说明字数长度”和“标签个数”的值均落在范围内,则将特征分别标记为1;否则为0;
b1)对于特征“用户性别”,若用户性别为男,将特征标记为1;否则为0;
c1)对于特征“所在地”,对总数为p的所有所在地进行编号,将该特征离散为p个特征后,将特征离散化,若其特征“所在地”的值落在范围内,则将特征标记为1;否则为0;
所述的从微博传播特征角度通过步骤六提取的特征包括:评价传播层次、平均每层转发次数和传播衰减指数;
对于特征“评价传播层次”,“传播衰减指数”,和“平均每层转发次数”的处理:将特征分别离散化,若其特征“评价传播层次”,“传播衰减指数”,和“平均每层转发次数”的值落在范围内,则将特征标记为1;否则为0。
CN201410487114.3A 2013-09-22 2014-09-22 一种基于多种信息融合的微博信息过滤方法 Active CN104239539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410487114.3A CN104239539B (zh) 2013-09-22 2014-09-22 一种基于多种信息融合的微博信息过滤方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201310432161.3 2013-09-22
CN2013104321613 2013-09-22
CN201310432161 2013-09-22
CN201410487114.3A CN104239539B (zh) 2013-09-22 2014-09-22 一种基于多种信息融合的微博信息过滤方法

Publications (2)

Publication Number Publication Date
CN104239539A CN104239539A (zh) 2014-12-24
CN104239539B true CN104239539B (zh) 2017-11-07

Family

ID=52227598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410487114.3A Active CN104239539B (zh) 2013-09-22 2014-09-22 一种基于多种信息融合的微博信息过滤方法

Country Status (1)

Country Link
CN (1) CN104239539B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615714B (zh) * 2015-02-05 2019-05-24 北京中搜云商网络技术有限公司 基于文本相似度和微博频道特征的博文排重方法
CN105119910A (zh) * 2015-07-23 2015-12-02 浙江大学 基于模板的在线社交网络垃圾信息实时检测方法
CN106533893B (zh) * 2015-09-09 2020-11-27 腾讯科技(深圳)有限公司 一种消息处理方法及系统
CN105183914A (zh) * 2015-10-14 2015-12-23 合一网络技术(北京)有限公司 数据特征格式化方法及装置
CN105630970A (zh) * 2015-12-24 2016-06-01 哈尔滨工业大学 社会媒体数据处理系统及方法
CN106933797B (zh) * 2015-12-29 2021-01-26 北京趣拿信息技术有限公司 目标信息的生成方法及装置
CN107133238A (zh) * 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种文本信息聚类方法和文本信息聚类系统
CN106341265B (zh) * 2016-09-09 2019-11-08 百度在线网络技术(北京)有限公司 网络数据的展示方法和装置
CN106782516B (zh) * 2016-11-17 2020-02-07 北京云知声信息技术有限公司 语料分类方法及装置
CN106940679B (zh) * 2017-02-23 2020-10-02 中科创达软件股份有限公司 数据处理方法及装置
CN106909669B (zh) * 2017-02-28 2020-02-11 北京时间股份有限公司 一种推广信息的检测方法及装置
CN107590558B (zh) * 2017-03-07 2020-12-08 北京理工大学 一种基于多层集成学习的微博转发预测方法
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107451117A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 英文文本的分词方法及装置
CN107729401A (zh) * 2017-09-21 2018-02-23 北京百度网讯科技有限公司 基于人工智能的高质量文章挖掘方法、装置及存储介质
CN110020147A (zh) * 2017-11-29 2019-07-16 北京京东尚科信息技术有限公司 模型生成、评论识别的方法、系统、设备及存储介质
CN110580490A (zh) * 2018-06-11 2019-12-17 杭州海康威视数字技术股份有限公司 一种确定人员行为概率的方法、装置及设备
CN109522928A (zh) * 2018-10-15 2019-03-26 北京邮电大学 文本的主题情感分析方法、装置、电子设备及存储介质
CN113488048A (zh) * 2019-03-12 2021-10-08 百度国际科技(深圳)有限公司 信息交互方法和装置
CN111159399A (zh) * 2019-12-13 2020-05-15 天津大学 一种汽车垂直网站水军甄别方法
CN112527960A (zh) * 2020-12-17 2021-03-19 华东师范大学 基于关键词聚类的突发事件检测方法
CN112948588B (zh) * 2021-05-11 2021-07-30 中国人民解放军国防科技大学 一种用于情报快速整编的中文文本分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609475A (zh) * 2012-01-19 2012-07-25 浙江省公众信息产业有限公司 微博内容监测方法及监测系统
CN103077240A (zh) * 2013-01-10 2013-05-01 北京工商大学 一种基于概率图模型的微博水军识别方法
CN103116605A (zh) * 2013-01-17 2013-05-22 上海交通大学 一种基于监测子网的微博热点事件实时检测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102348171B (zh) * 2010-07-29 2014-10-15 国际商业机器公司 消息处理方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609475A (zh) * 2012-01-19 2012-07-25 浙江省公众信息产业有限公司 微博内容监测方法及监测系统
CN103077240A (zh) * 2013-01-10 2013-05-01 北京工商大学 一种基于概率图模型的微博水军识别方法
CN103116605A (zh) * 2013-01-17 2013-05-22 上海交通大学 一种基于监测子网的微博热点事件实时检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
关于微博信息传播影响因素的研究-以新浪微博为例;豆丁网;《豆丁网》;20120320;1-20 *

Also Published As

Publication number Publication date
CN104239539A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104239539B (zh) 一种基于多种信息融合的微博信息过滤方法
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN103927398B (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN102207961B (zh) 一种网页自动分类方法及装置
CN109241274A (zh) 文本聚类方法及装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN102495892A (zh) 一种网页信息抽取方法
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
CN102945246B (zh) 网络信息数据的处理方法及装置
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
Davies et al. Language-independent Bayesian sentiment mining of Twitter
Kim et al. Event diffusion patterns in social media
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN106909669A (zh) 一种推广信息的检测方法及装置
Lalji et al. Twitter sentiment analysis using hybrid approach
Afzaal et al. A novel framework for aspect-based opinion classification for tourist places
Schroeder et al. WICO Graph: A Labeled Dataset of Twitter Subgraphs based on Conspiracy Theory and 5G-Corona Misinformation Tweets.
Samonte et al. Sentiment and opinion analysis on Twitter about local airlines
CN106569996A (zh) 一种面向中文微博的情感倾向分析方法
Campbell et al. Content+ context networks for user classification in twitter

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180621

Address after: 100190 Room 502, 5 Building 4 South four street, Haidian District, Beijing, Zhongguancun.

Patentee after: Zhong kjia speed (Beijing) Information Technology Co., Ltd.

Address before: 100190 South four street, Zhongguancun, Haidian District, Beijing, 4

Patentee before: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE CO., LTD.