CN106649726A - 一种社交网络中社团话题演化挖掘方法 - Google Patents

一种社交网络中社团话题演化挖掘方法 Download PDF

Info

Publication number
CN106649726A
CN106649726A CN201611205411.XA CN201611205411A CN106649726A CN 106649726 A CN106649726 A CN 106649726A CN 201611205411 A CN201611205411 A CN 201611205411A CN 106649726 A CN106649726 A CN 106649726A
Authority
CN
China
Prior art keywords
topic
time
text
evolution
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611205411.XA
Other languages
English (en)
Inventor
沈鸿
常华健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201611205411.XA priority Critical patent/CN106649726A/zh
Publication of CN106649726A publication Critical patent/CN106649726A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交网络中社团话题演化挖掘的方法,包括下述步骤:S1、采集社交网络数据,并对数据进行预处理;S2、分析话题数据,在考虑突发性、连续性、密集性的基础上建立特征值计算模型,建立话题‑时间树,抽取话题时间,并对文本进行聚类分析;S3、实现话题演化序列的输出。话题演化序列是文本聚类的结果,能够显示话题演化轨迹,具有现实意义。本发明综合考虑话题演化过程中的突发性、连续性和密集性,准确提取话题时间,通过层次聚类的方式获得聚类结果并输出演化序列。

Description

一种社交网络中社团话题演化挖掘方法
技术领域
本发明涉及社交网络数据挖掘领域,具体涉及了一种应用于社交网络社团话题的演化挖掘方法。
背景技术
随着网络信息技术的不断发展,互联网已经成为主流的传播媒介。与传统的方式相比,社交网络具有大范围、大数据和突发性强等特点,社交网络中社团话题演化也成为当下关注的热点。目前,对话题演化的分析模型主要分为两类:离散观点模型和连续观点模型。离散观点模型包括:1、先离散时间型,通过把时间分成不同时间窗口的方法进行分析,在每个窗口中处理、拆分文本,进而研究话题演化过程。Alsumait[1]提出了一种在线LDA模型,该模型运用历史数据,根据时间间隔中相应的话题数据进行LDA建模,分析演化轨迹。2、后离散时间型。该方法中时间不作为一个考虑因素,而是直接通过LDA建模,然后将话题分配到相对应的时间窗口,分别计算话题记录窗口的强度,通过话题强度变化研究整个话题演化。
连续观点模型是把时间作为一个连续的变量,在话题演化模型中添加这一变量。Wang[2]在原有的基础上引入时间变量提出了TOT模型(topic over time),产生Γ分布的时间属性值,将其赋给文本中每个单词新的时间属性。但该模型仅讨论了话题强度变化关系,并未涉及话题内容的演化。Nallapati[3]等人提出了MTTM(Multi-scale topictomography)模型,研究了多时间粒度的话题演化问题。Blei等人[4]提出了DTM(Dynamictopic model)动态话题模型,采用状态空间记录话题内容和分布强度的变化。但上述模型都是对文本集进行全局建模,无法增量处理话题演化问题。
研究话题演化过程中,话题时间判定是一个重要步骤。话题主要分为事件性和非事件性两类。事件性话题即对最新时事的关注,拥有时间性强的特点,话题和话题时间有比较单一的关联,是一种很强的位置依赖关系。非事件性话题时间呈现区域性,贯穿整个话题事件。洪宇等人[5]提出将话题映射到话题片段,再由话题片段映射到话题时间。但该方法未考虑话题演化过程中语义的动态变化。
[1]Alsumait L,Barbara D,Domeniconi C.On-line LDA:Adaptive topicmodles for mining text streams with application to topic and tracking[C].Datamining,2008.ICDM’08.2008:3-12.
[2]Wang X,McCallum A.Topic over time:A non-Markov Continuous-timeModle of Topical Trends[C].ACM SIGKDD 2006:424-433.
[3]Nallapati R M,Cohen W,Ditmore S,Lafferty J,Ung K.Multi scale topictomography.In:Proceeding of the 13th ACM International Conference on KnowledgeDiscovery and Data Mining(SIGKDD).San Joes,USA:ACM,2007:520-529.
[4]Blei D M,Lafferty J D.Dynamic topic models.In:Proceedings of the23rd International Conference on Machine Learning.Pittsburgh,USA:ACM,2006.113-120.
[5]洪宇,仓玉,姚建民等.话题追踪中静态和动态话题模型的核捕捉衰减.软件学报,2010,23(5):1100-1119.
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种社交网络中社团话题演化挖掘的方法,综合考虑突发性、连续性、密集性对话题随时间演化的影响,实现准确的话题演化挖掘方法。
为了达到上述目的,本发明采用以下技术方案:
社交网络话题演化挖掘方法,包括下述步骤:
S1、采集社交网络数据,并对数据进行预处理;
S2、分析话题数据,在考虑突发性、连续性、密集性的基础上建立特征值计算模型,建立话题-时间树,抽取话题时间,并对文本进行聚类分析;
S3、实现话题演化序列的输出。话题演化序列是文本聚类的结果,能够显示话题演化轨迹,具有现实意义。
作为优选的,步骤S1中,数据来源于社交网络,用户量大、更新速度快,经过爬虫得到的原始数据集具有“多、乱、杂”的特点,建立数据字典,对其进行数据预处理(删除特殊符号、去除链接、中文分词、去除停用词等)能够保证数据集的有效性,为之后建模分析话题演化提供保障。所述步骤S1中,预处理中,中文分词作为关键;首先,建立好一个字典,把输入的中文文本和字典进行匹配,根据唯一的匹配结果,把该词分离为一个独立的词;如果输入词不在字典中,就把该词加入字典,作为扩充字典。
作为优选的,步骤S2中,同时对突发性、连续性、密集性进行定量分析,建立特征值计算模型;包括下述步骤:
S21、定义突发性特征值。构建时间与词项的列联表,设计K2的独立性检测。根据时间与词项之间的关联度归一化词项的卡方统计值,用该值表示突发性特征值。K2的独立性检测即为卡方检验,根据次数资料判断两类因子彼此相关或者相互独立。拟合度公式为其中,n为试验次数,fi为落入第i区间的频率,pi为落入第i区间的概率。
S22、定义连续性特征值。连续性权重的计算需要用到时态表达规范化处理,通过分析社交网络的类别和网页结构,提出话题-时间关系树,通过话题和时间信息间位置、语义两种相互依存关系,反映社交网络话题和话题时间之间的映射关系。
S23、定义密集性特征值。通过特征在当前时间窗口T出现的次数和截止该时间窗口出现的次数比定义特征在时间上的密集程度。对每个时间窗口做增量更新的操作即可得到话题特征对整个演化轨迹的密集性。
S24、定义原始特征值。利用传统的增量式TF×IDF模型来表示词项在文本中的基本权重,作为基础权重。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明的模型与TOT模型对比,在考虑话题强度的基础上考虑了话题内容的变化;与DTM模型相比,能够实现增量处理话题演化挖掘。在考虑连续性权重方面。
2、话题-时间树结合了不同类型的社交网络和网页结构特点,采用叶子话题时间合并产生话题时间的方法,优于传统的采用发布时间和网页统计时间方法。
3、本发明同时考虑了话题演化过程中的突发性、连续性、密集性,结合传统的TF×IDF模型,利用层次聚类的方法获取特征演化序列。相较于划分聚类(如k-means)而言,层次聚类具有树状特点,在处理大数据时效率较高。综合考虑以上属性,能够提升话题演化轨迹提取的准确性。
4、实现话题演化轨迹提取并输出,具有现实意义和价值。
附图说明
图1是本发明社交网络中社团话题演化挖掘方法的流程图;
图2是本发明话题演化特征属性图;
图3是本发明话题-时间树图;
图4是本发明的数据预处理方式图;
图5是本发明话题演化方法实验结果。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例社交网络社团话题演化挖掘方法,该方法包括下述步骤:
S1、采集社交网络数据,并对数据进行预处理,如图4所示;
S2、分析话题数据,如图2所示,在考虑突发性、连续性、密集性的基础上建立特征值计算模型,建立话题-时间树,如图3所示,抽取话题时间,并对文本进行聚类分析;
S3、实现话题演化序列的输出,如图5所示。
下面对于本发明中的关键技术做进一步的分析:
步骤S2中,首先定义突发性特征值、连续性特征值、密集性特征值和基础特征值(TF×IDF值)并实现其计算方法,建立话题-时间树提取话题时间,利用层次聚类对词项进行聚类。
S21、突发性。构建时间和词项的列联表表示其关联性,通过归一化词项wi的卡方统计值表示词项的突发性,定义为:其中,Nwt表示t时刻话题中出现词w;N-wt表示t时刻话题中未出现词w;NwT表示t时刻之前话题中出现过词w;N-wT表示t时刻之前话题中未出现过词w。
计算方法代码描述如下:
S22、连续性。话题特征在它所载的话题演化阶段内会表现出连续性,结合话题-时间关系树,通过时态表达规范处理,定义:
其中,t(di)表示具有特征f的第i个文本的话题时间;tmax表示现有文本集合中最新文本的话题时间;tmin表示现有文本集合中最早文本的话题时间;N表示文本流中文本的总数目。
计算方法代码描述如下:
S23、密集性。特征f在当前时间窗口T出现的次数和截至该时间窗口出现的次数比说明特征f在时间上的密集程度,定义:
其中,D表示窗口T中所有的文档集合;CD(f)表示特征f在最新文档集合D上的出现总次数;CT-1(f)表示特征f在T之前出现的总次数。
计算方法代码描述如下:
通过上述对特征值的定义并计算,在话题-时间树种提取话题时间,利用层次聚类的方式获取聚类结果,得到最终的话题演化序列。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于社交网络中社团话题的演化挖掘方法,其特征在于,包括下述步骤:
S1、采集社交网络数据,并对数据进行预处理;
S2、分析话题数据,在考虑突发性、连续性、密集性的基础上建立特征值计算模型,建立话题-时间树,抽取话题时间,并对文本进行聚类分析;
S3、实现话题演化序列的输出。
2.根据权利要求1所述的社交网络中社团话题的演化挖掘方法,其特征在于:所述步骤S1中,预处理中,中文分词作为关键;首先,建立好一个字典,把输入的中文文本和字典进行匹配,根据唯一的匹配结果,把该词分离为一个独立的词;如果输入词不在字典中,就把该词加入字典,作为扩充字典。
3.根据权利要求1所述的社交网络中社团话题的演化挖掘方法,其特征在于:所述步骤S2中,首先对特征值影响权重进行建模,量化各影响因素对于话题演化过程的影响程度,建立话题-时间树,提取话题时间。
4.根据权利要求3所述社交网络中社团话题的演化挖掘方法,其特征在于,所述特征值建模:
S21、定义突发性特征值,构建时间与词项的列联表,设计K2的独立性检测,根据时间与词项之间的关联度归一化词项的卡方统计值,用该值表示突发性特征值;
S22、定义连续性特征值,连续性权重的计算需要用到时态表达规范化处理,通过分析社交网络的类别和网页结构,提出话题-时间树,通过话题和时间信息间位置、语义两种相互依存关系,反映社交网络话题和话题时间之间的映射关系;
S23、定义密集性特征值,通过特征在当前时间窗口T出现的次数和截止该时间窗口出现的次数比定义特征在时间上的密集程度,对每个时间窗口做增量更新的操作即可得到话题特征对整个演化轨迹的密集性;
S24、定义原始特征值;利用传统的增量式TF×IDF模型来表示词项在文本中的基本权重,作为基础权重。
5.根据权利要求4所述的社交网络中社团话题的演化挖掘方法,其特征在于,
步骤S21的计算方法如下:
其中,Nwt表示t时刻话题中出现词w;N-wt表示t时刻话题中未出现词w;NwT表示t时刻之前话题中出现过词w;N-wT表示t时刻之前话题中未出现过词w。
步骤S22的计算方法如下:
W c ( f ) = ( t max - t min ) / 2 1 + Σ i = 1 | S | log ( t ( d i + 1 ) - t ( d i ) + 1 ) · 1 N
其中,t(di)表示具有特征f的第i个文本的话题时间;tmax表示现有文本集合中最新文本的话题时间;tmin表示现有文本集合中最早文本的话题时间;N表示文本流中文本的总数目。
步骤S23的计算方法如下:
W i ( f ) = Σ d ∈ D C T ( f , d ) / ( C T - 1 ( f ) + C D ( f ) ) Σ d ∈ D Σ f ∈ d C T ( f , d ) / ( C T - 1 ( f ) + C D ( f ) )
其中,D表示窗口T中所有的文档集合;CD(f)表示特征f在最新文档集合D上的出现总次数;CT-1(f)表示特征f在T之前出现的总次数。
CN201611205411.XA 2016-12-23 2016-12-23 一种社交网络中社团话题演化挖掘方法 Pending CN106649726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611205411.XA CN106649726A (zh) 2016-12-23 2016-12-23 一种社交网络中社团话题演化挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611205411.XA CN106649726A (zh) 2016-12-23 2016-12-23 一种社交网络中社团话题演化挖掘方法

Publications (1)

Publication Number Publication Date
CN106649726A true CN106649726A (zh) 2017-05-10

Family

ID=58827972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611205411.XA Pending CN106649726A (zh) 2016-12-23 2016-12-23 一种社交网络中社团话题演化挖掘方法

Country Status (1)

Country Link
CN (1) CN106649726A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515854A (zh) * 2017-07-27 2017-12-26 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN108170838A (zh) * 2018-01-12 2018-06-15 平安科技(深圳)有限公司 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN109829112A (zh) * 2019-01-31 2019-05-31 平安科技(深圳)有限公司 基于大数据的裂变话题跟踪方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104298765A (zh) * 2014-10-24 2015-01-21 福州大学 一种互联网舆情话题的动态识别和追踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104298765A (zh) * 2014-10-24 2015-01-21 福州大学 一种互联网舆情话题的动态识别和追踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵旭剑: "中文新闻话题动态演化及其关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515854A (zh) * 2017-07-27 2017-12-26 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN107515854B (zh) * 2017-07-27 2021-06-04 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108197163B (zh) * 2017-12-14 2021-08-10 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108170838A (zh) * 2018-01-12 2018-06-15 平安科技(深圳)有限公司 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN108170838B (zh) * 2018-01-12 2022-07-08 平安科技(深圳)有限公司 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN109829112A (zh) * 2019-01-31 2019-05-31 平安科技(深圳)有限公司 基于大数据的裂变话题跟踪方法、装置和计算机设备
CN109829112B (zh) * 2019-01-31 2023-11-14 平安科技(深圳)有限公司 基于大数据的裂变话题跟踪方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
JP6704930B2 (ja) 大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理
Li et al. DCT-GAN: dilated convolutional transformer-based GAN for time series anomaly detection
CN102591988B (zh) 基于语义图的短文本分类方法
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及系统
CN104318340A (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN104915448A (zh) 一种基于层次卷积网络的实体与段落链接方法
CN106649726A (zh) 一种社交网络中社团话题演化挖掘方法
CN109558492A (zh) 一种适于事件归因的上市公司知识图谱构建方法及装置
CN103778215A (zh) 一种基于情感分析和隐马尔科夫模型融合的股市预测方法
CN103744928A (zh) 一种基于历史访问记录的网络视频分类方法
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN111079430A (zh) 一种组合深度学习和概念图谱的电力故障事件抽取方法
CN104112026A (zh) 一种短信文本分类方法及系统
CN104679738A (zh) 互联网热词挖掘方法及装置
CN104899229A (zh) 基于群体智能的行为聚类系统
CN110348601A (zh) 一种基于双向长短期记忆网络的地铁短期客流量预测方法
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN109345272A (zh) 一种基于改进马尔科夫链的店铺信用风险预测方法
CN104199938A (zh) 基于rss的农用土地信息发送方法和系统
CN111191099A (zh) 一种基于社交媒体的用户活动类型识别方法
Gupta et al. Impact of encoding of high cardinality categorical data to solve prediction problems
Liang Optimization of quantitative financial data analysis system based on deep learning
CN106919997A (zh) 一种基于lda的电子商务的用户消费预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication