CN103226555A - 一种改进的基于概念格的论坛人物跟踪方法 - Google Patents

一种改进的基于概念格的论坛人物跟踪方法 Download PDF

Info

Publication number
CN103226555A
CN103226555A CN2012105598510A CN201210559851A CN103226555A CN 103226555 A CN103226555 A CN 103226555A CN 2012105598510 A CN2012105598510 A CN 2012105598510A CN 201210559851 A CN201210559851 A CN 201210559851A CN 103226555 A CN103226555 A CN 103226555A
Authority
CN
China
Prior art keywords
notion
concept lattice
forum
lattice
personage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105598510A
Other languages
English (en)
Inventor
张玲
朱洪亮
李伟
谢康
李星
韩耀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2012105598510A priority Critical patent/CN103226555A/zh
Publication of CN103226555A publication Critical patent/CN103226555A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种改进的基于概念格论坛人物跟踪的方法,该方法包括:在已有数据前提下,使用粗糙集算法进行约简,然后通过概念格的批生成算法,在既定关键字的前提下生成概念格,得出形式概念,并根据形式概念区分论坛人物类别或者具体人物,以达到人物跟踪效果,并且提高跟踪的速度。

Description

一种改进的基于概念格的论坛人物跟踪方法
技术领域
本发明涉及搜索引擎技术,特别涉及一种人物跟踪的方法。 
背景技术
随着云计算和物联网时代的到来,网络交流飞快成长,网络社区文化形成,网络交流已经成为新一代网民必不可少的交流方式。各种网上交流社区层出不穷,如百度贴吧,天涯社区,各大高校论坛等,使网民的网络交流更加通畅,但是这给舆情信息管控造成很大难度。 
目前现有技术只有搜索引擎对于敏感信息的过滤,并没有深入到人物跟踪的程度。 
发明内容
本发明实施例提供的一种改进的论坛人物跟踪方法,用以解决论坛人物跟踪的问题,并且提高搜索的效率。 
对原始数据建立知识库,通过粗糙集约简算法简化庞大的数据集合。 
通过概念格的批生成算法,在既定关键字的前提下通过批处理生成算法生成概念格,得出形式概念,并根据形式概念区分论坛人物,以达到人物跟踪效果。使用概念格形式化模型,具有完整的表达数据库中知识的特点,而且知识表达形式清晰,易于求解。 
本发明实施例在得出形式概念之后,可得出人物归类,再扩加IP地址以及其他分析,跟踪论坛用户,对敏感用户实施特殊关注,达到管控效果。 
附图说明
图1是本发明实施例提供的流程示意图; 
图2是本发明实施例提供的粗糙集算法约简流程图; 
图3是本发明实施例提供的批处理算法流程图。 
具体实施方式
针对现有论坛舆情存在的用户监控,舆情管控困难的问题,本发明实施例在已有数据前提下,通过概念格的批生成算法,在既定关键字的前提下生成概念格,得出形式概念,并根据形式概念区分论坛人物类别或者具体人物,以达到人物跟踪效果。 
如图1所示,本发明实施例提供的基于概念格的论坛人物跟踪包括:网页信息采集服务器分布式爬取网络信息,经过分词等预处理将信息存入数据库等待处理。人工设定关键字集合,并对数据库中知识进行批量处理,得到概念格,重复以上步骤,实时更新概念格。在最终得到的形式概念中区分出敏感用户,进行重点关注,得到跟踪效果。 
产生的等价关系U/Ri,i=1,2,…n,如果删除该属性xi,使得POS(p\xi)(Q)=POS(p)(Q),则说明属性xi,是不必要的,从决策表中删除属性xi所在列并将重复的行进行合并;否则,说明属性xi是必要的,不能删除。 
如图2所示,本发明实施例提供的粗糙集约简算法包括下列步骤: 
步骤201、初始化知识库K=(U,S); 
步骤202、生成等价关系类U/Ri,i=1,2,…n; 
步骤203、对于每个属性xi,删除该属性xi; 
步骤204、使得POS(p\xi)(Q)=POS(p)(Q),则说明属性xi,是不必要的,否则,说明属性xi是必要的,不能删除; 
步骤205、重复(2)-(3),直到i=n; 
如图3所示,本发明实施例提供的改进的概念格批处理算法包括下列步骤: 
步骤301、初始化格L={(G),f(G)}; 
步骤302、对于队列F中的一个概念C,产生出它的每个子概念Cc; 
步骤303、如果某个子概念Cc以前没有产生过,则加入到L中; 
步骤304、增加概念C和其子概念Cc的链接关系; 
步骤305、反复(3)-(5),直至队列F为空; 
步骤306、输出概念格L,得到形式概念。 
其中G是对象集合,即论坛人物集合,M是属性集合,即自定义的关键字敏感词集合。
Figure DEST_PATH_GSB00001072991600031
是G与M之间的一个二元关系。若则对象g具有属性m。 
从上述实施例中可以看出:本发明实施例通过粗糙集约简算法,对批量的数据集合进行约简计算,然后通过概念格的批生成算法,在既定关键字的前提下通过批处理生成算法生成概念格,得出形式概念,并根据形式概念区分论坛人物,以达到人物快速跟踪的效果。使用改进的概念格形式化模型,具有精简数据库的优点,提高了搜索的速度,具有完整的表达数据库中知识的特点,而且知识表达形式清晰,易于求解。 
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。 

Claims (8)

1.一种改进的基于概念格论坛人物跟踪方法,其特征在于,该方法包括:
在采集到原始的大量数据前提下,首先对原始数据建立知识库,采用粗糙集算法对信息表进行约简,然后对通过概念格的批生成算法,在既定关键字的前提下生成概念格,得出形式概念,并根据形式概念区分论坛人物类别或者具体人物,以达到人物跟踪效果。
2.如权利要求1所述的方法,其特征在于,所述的知识库约简算法具体包括:
对于采集到的数据建立知识库K=(U,S),U={x0,x1,x2,…,xn}为论域,S={R1,R 2,…,Rn}为论域U上的等价关系族。并根据等价关系生成等价关系类U/Ri,i=1,2,…n。
3.如权利2所述的方法,其特征在于,产生的等价关系U/Ri,i=1,2,…n,如果删除该属性xi,使得POS(p\xi)(Q)=POS(p)(Q),则说明属性xi,是不必要的,从决策表中删除属性xi所在列并将重复的行进行合并;否则,说明属性xi是必要的,不能删除。
4.如权利要求3所述的方法,其特征在于,所述概念格的批生产算法的方法具体包括:
对于约简后的知识库形成背景K=(G,M,I),初始化格L={(G),f(G)}。
5.如权利要求4所述的方法,其特征在于,产生子概念的方法具体包括:
队列F={(G,f(G))},对于队列F中的一个概念C,产生出它的每个子概念Cc,如果某个子概念Cc以前没有产生过,则加入到L中。
6.如权利要求5所述的方法,其特征在于,增加链接关系的方法具体包括:
增加概念C和其子概念Cc的链接关系。
7.如权利要求5和6所述的方法,其特征在于,根据权利要求3和4,直到队列P为空。
8.如权利要求4所述的方法,最后输出概念格L,得到形式概念。
CN2012105598510A 2012-12-21 2012-12-21 一种改进的基于概念格的论坛人物跟踪方法 Pending CN103226555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105598510A CN103226555A (zh) 2012-12-21 2012-12-21 一种改进的基于概念格的论坛人物跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105598510A CN103226555A (zh) 2012-12-21 2012-12-21 一种改进的基于概念格的论坛人物跟踪方法

Publications (1)

Publication Number Publication Date
CN103226555A true CN103226555A (zh) 2013-07-31

Family

ID=48837008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105598510A Pending CN103226555A (zh) 2012-12-21 2012-12-21 一种改进的基于概念格的论坛人物跟踪方法

Country Status (1)

Country Link
CN (1) CN103226555A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853938A (zh) * 2013-11-27 2014-06-11 上海丰核信息科技有限公司 一种高通量测序数据处理及分析流程控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119281A1 (en) * 2007-11-03 2009-05-07 Andrew Chien-Chung Wang Granular knowledge based search engine
CN101699444A (zh) * 2009-10-20 2010-04-28 武汉大学 基于形式概念分析的遥感信息处理服务分类本体构建方法
CN201788510U (zh) * 2010-07-13 2011-04-06 南通大学 融合粒子群与可拓粗糙格的动态电子病历协同挖掘系统
US20110246465A1 (en) * 2010-03-31 2011-10-06 Salesforce.Com, Inc. Methods and sysems for performing real-time recommendation processing
CN102236641A (zh) * 2011-05-18 2011-11-09 安徽农业大学 一种农业领域概念相似度矩阵生成方法
CN102541933A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种基于概念格的论坛人物跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119281A1 (en) * 2007-11-03 2009-05-07 Andrew Chien-Chung Wang Granular knowledge based search engine
CN101699444A (zh) * 2009-10-20 2010-04-28 武汉大学 基于形式概念分析的遥感信息处理服务分类本体构建方法
US20110246465A1 (en) * 2010-03-31 2011-10-06 Salesforce.Com, Inc. Methods and sysems for performing real-time recommendation processing
CN201788510U (zh) * 2010-07-13 2011-04-06 南通大学 融合粒子群与可拓粗糙格的动态电子病历协同挖掘系统
CN102541933A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种基于概念格的论坛人物跟踪方法
CN102236641A (zh) * 2011-05-18 2011-11-09 安徽农业大学 一种农业领域概念相似度矩阵生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁泉: "复杂系统预测中知识约简算法及其表示的研究", 《万方数据》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853938A (zh) * 2013-11-27 2014-06-11 上海丰核信息科技有限公司 一种高通量测序数据处理及分析流程控制方法
CN103853938B (zh) * 2013-11-27 2017-09-15 上海尔云信息科技有限公司 一种高通量测序数据处理及分析流程控制方法

Similar Documents

Publication Publication Date Title
Ma et al. Personalized scientific paper recommendation based on heterogeneous graph representation
Sun et al. Ddgcn: Dual dynamic graph convolutional networks for rumor detection on social media
CN103678613B (zh) 一种计算影响力数据的方法与装置
CN103123649B (zh) 一种基于微博平台的消息搜索方法及系统
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
Hu et al. Multi-depth graph convolutional networks for fake news detection
CN103745000A (zh) 一种中文微博客的热点话题检测方法
CN105095433A (zh) 实体推荐方法及装置
CN103034726B (zh) 文本过滤系统及方法
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN103177076A (zh) 一种基于定点网站的舆情监测系统及方法
CN104462286A (zh) 一种基于改进的lda的微博话题发现方法
Yu et al. Data fusion oriented graph convolution network model for rumor detection
CN103186662A (zh) 一种动态舆情关键词抽取系统和方法
CN110362818A (zh) 基于用户关系结构特征的微博谣言检测方法和系统
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN105095419A (zh) 一种面向微博特定类型用户的信息影响力最大化方法
CN106844786A (zh) 一种基于文本相似度的舆情地域热点发现方法
CN101957968A (zh) 基于Hadoop的网上交易服务聚合方法
Yan et al. An improved single-pass algorithm for chinese microblog topic detection and tracking
CN104268130A (zh) 一种面向Twitter的社交广告可投放性分析方法
CN105117466A (zh) 一种互联网信息筛选系统及方法
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN104199947A (zh) 一种对重点人员言论监督与关联关系挖掘的方法
Zhang et al. Rumor detection with hierarchical representation on bipartite ad hoc event trees

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130731