CN106294405A - 一种微博子话题演化分析方法及装置 - Google Patents

一种微博子话题演化分析方法及装置 Download PDF

Info

Publication number
CN106294405A
CN106294405A CN201510264354.1A CN201510264354A CN106294405A CN 106294405 A CN106294405 A CN 106294405A CN 201510264354 A CN201510264354 A CN 201510264354A CN 106294405 A CN106294405 A CN 106294405A
Authority
CN
China
Prior art keywords
topic
sub
similarity
time window
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510264354.1A
Other languages
English (en)
Inventor
贺敏
云晓春
周勇林
王丽宏
包秀国
徐杰
程学旗
刘悦
杜攀
赵立永
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510264354.1A priority Critical patent/CN106294405A/zh
Publication of CN106294405A publication Critical patent/CN106294405A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种微博子话题演化分析方法及装置,能够准确快速地识别微博子话题,并分析出微博子话题的演化关系。所述方法包括:通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。

Description

一种微博子话题演化分析方法及装置
技术领域
本发明涉及网络信息挖掘技术领域,特别是涉及一种微博子话题演化分析方法及装置。
背景技术
微博客等互联网应用的出现,降低了互联网的进入门槛,使得广大网民更容易的使用网络,发出内心的声音。互联网络在传达民情民意方面的优势逐步显现出来,继传统的报纸、广播、电视之后,成为第四媒体,并在表达民众心声、反应社会舆论方面发挥极其重要的作用。
热点话题作为广大网民关注的热点、讨论的焦点,反应一定时间周期内网络舆论的中心,是广大网民对现实社会生活中存在问题的集中反应。另外,热点话题会随着新的事件、新的焦点的出现,并且在广大网民、特别是意见领袖的参与或别有用心的人推波助澜下,会迅速传播并不断发生演化,话题的中心会发生变化,形成不同的子话题。子话题既可以指话题讨论过程中的不同侧面、不同中心,又可以指随着话题发展产生的新事件。
子话题发现属于话题检测与跟踪技术,目前的技术主要是针对新闻等传统媒体,基于文本相似度来发现子话题,但是因为微博文本内容短小,一条微博信息包含的有效特征较少,而且每个特征仅出现一次或几次,仅仅通过文本相似度来衡量效果较差,传统的子话题发现技术对于微博文本不适用。
发明内容
本发明要解决的技术问题是提供一种微博子话题演化分析方法及装置,能够准确快速地识别微博子话题并分析出微博子话题的演化关系。
一方面,本发明提供一种微博子话题演化分析方法,包括:通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。
可选的,所述通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类包括:针对每个微博话题,从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本;利用所述初始聚类样本聚类产生一个簇后,如果新特征样本与所述簇的互信息大于所述预设阈值D,且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息,将所述新特征样本聚入所述簇;其中,所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。
进一步的,所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前,所述方法还包括:计算当前窗口的话题与上一窗口的话题之间的话题相似性;根据所述话题相似性筛选出当前窗口的话题中的持续性话题;所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括:根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,在所述持续性话题中确定子话题的演化关系。
可选的,所述计算当前窗口的话题与上一窗口的话题之间的话题相似性包括:根据特征相似性和作者相似性,计算当前窗口的话题与上一窗口的话题之间的话题相似性。
可选的,所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括:根据特征相似性,计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性;当两个子话题SubTi和SubTj的相似性大于第一阈值时,确定子话题SubTj是对子话题SubTi的继承;当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时,确定子话题SubTj是子话题SubTi的转移;当两个子话题SubTi和SubTj的相似性小于所述第二阈值时,确定子话题SubTi与SubTj无关;其中,所述第一阈值大于所述第二阈值。
另一方面,本发明还提供一种微博子话题演化分析装置,包括:聚类单元,用于通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;确定单元,用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,以确定子话题的演化关系。
可选的,所述聚类单元具体用于:针对每个微博话题,从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本;利用所述初始聚类样本聚类产生一个簇后,如果新特征样本与所述簇的互信息大于所述预设阈值D,且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息,将所述新特征样本聚入所述簇;其中,所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。
可选的,所述装置还包括:计算单元,用于在所述检测单元检测当前时间窗口中子话题与上一时间窗口中子话题的相似性之前,计算当前窗口的话题与上一窗口的话题之间的话题相似性;筛选单元,用于根据所述计算单元计算的话题相似性筛选出当前窗口的话题中的持续性话题;所述确定单元,具体用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,在所述持续性话题中确定子话题的演化关系。
可选的,所述计算单元,具体用于根据特征相似性和作者相似性,计算当前窗口的话题与上一窗口的话题之间的话题相似性。
可选的,所述确定单元,具体用于:根据特征相似性,计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性;当两个子话题SubTi和SubTj的相似性大于第一阈值时,确定子话题SubTj是对子话题SubTi的继承;当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时,确定子话题SubTj是子话题SubTi的转移;当两个子话题SubTi和SubTj的相似性小于所述第二阈值时,确定子话题SubTi与SubTj无关;其中,所述第一阈值大于所述第二阈值。
本发明实施例提供的微博子话题演化分析方法及装置,能够通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,根据聚类结果生成相应的子话题,然后根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,确定子话题的演化关系,这样,由于改进的最邻近方法能够对微博话题的特征进行更精准的聚类,子话题检测效果更好,从而能够对不同时间窗口的子话题进行更有效的演化分析。
附图说明
图1是本发明实施例提供的微博子话题演化分析方法的一种流程图;
图2是本发明实施例中微博子话题产生的一种流程图;
图3是本发明实施例中微博子话题演化分析方法的另一种流程图;
图4是本发明实施例提供的微博子话题演化分析装置的一种结构示意图。
具体实施方式
以下结合附图对本发明进行详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
如图1所示,本发明实施例提供一种微博子话题演化分析方法,包括:
S11,通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;
S12,根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。
本发明实施例提供的微博子话题演化分析方法,能够通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,根据聚类结果生成相应的子话题,然后根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,确定子话题的演化关系,这样,由于改进的最邻近方法能够对微博话题的特征进行更精准的聚类,子话题检测效果更好,从而能够对不同时间窗口的子话题进行更有效的演化分析。
其中,改进的最近邻方法是根据微博微博文本内容短小、有效特征较少等特点,对传统的最邻近算法进行的改进,该改进可以包括对最近邻聚类方法的初始聚类样本选取、距离计算以及聚类过程的改进。其中,可以采用互信息作为特征之间的距离度量,特征之间的互信息指特征在相同微博信息中的共现情况,体现了两个特征的依赖程度,互信息越高,两个特征之间的距离就越小,描述同一话题的可能性越大。
具体的,在步骤S11中,需要将话题的各个特征进行重新聚类,生成相应的子话题。由于各个话题特征与话题的相关程度不同,如果选取与话题相关程度较低的特征做为聚类初始样本点,则会干扰聚类结果,产生噪音类。为了避免这种情况,可以针对每个微博话题,从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本,这样,因为一般距离很近的两个特征应该属于同一话题,都是话题强相关特征,从而能够避免选到噪音特征。
利用所述初始聚类样本聚类产生一个簇后,如果新特征样本与所述簇的互信息大于所述预设阈值D,且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息,将所述新特征样本聚入所述簇;接着考察下一个特征样本是否满足聚入该簇的条件,直到该话题的特征中不存在可以聚入该簇的特征样本为止,聚类结束,产生一个子话题。其中,所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。
如图2所示,子话题从话题中产生过程包括如下步骤:
101.提取话题特征;
102.计算两两特征之间的互信息;
103.选择互信息最大且大于预设阈值的一对特征之一作为新簇;
104.计算每个样本点与簇之间的互信息;
105.选择与簇互信息最大,且与簇中每个样本互信息大于预设阈值的新样本聚入该簇;
106.当没有满足条件的样本聚入时,该簇的聚类结束,产生了一个子话题;
107.当所有话题特征都已经归入相应的簇时,所有的子话题都已经产生,聚类过程结束。
在步骤S12中,进一步的,为了提高步骤S12中子话题演化关系的分析效率,可以先找出当前时间窗口和上一时间窗口的话题中哪些是持续性话题,从而仅需在持续性话题之间进一步确定子话题的相似性和演化关系,而对于非持续性话题无需确定其子话题的演化关系。在这种情况下,本发明实施例提供的子话题演化分析方法可如图3所示。
具体的,在本发明的一个实施例中,在根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前,还包括:
计算当前窗口的话题与上一窗口的话题之间的话题相似性;
根据所述话题相似性筛选出当前窗口的话题中的持续性话题;
基于此,根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系可具体包括:根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,在所述持续性话题中确定子话题的演化关系。
可选的,计算当前窗口的话题与上一窗口的话题之间的话题相似性可包括:根据特征相似性和作者相似性,计算当前窗口的话题与上一窗口的话题之间的话题相似性。
举例说明,在本发明的一个实施例中,将两个话题的特征相似性和文档相似性结合,来计算话题的相似性。本实施例中,假设话题Ti和Tj共有n个不重复的特征,话题Ti和Tj的特征向量示意如下,如果特征在Fi话题中出现,表示为1,不出现,表示为0。
表1
F1 F2 F3 …… Fn
Ti 0 1 1 …… 0
Tj 1 1 0 …… 0
对上述特征向量归一化处理,得到话题Ti和话题Tj的特征概率向量,如表2所示。
表2
F1 F2 F3 …… Fn
Ti 0 1/SUMi 1/SUMi …… 0
Tj 1/SUMj 1/SUMj 0 …… 0
其中,SUMi和SUMj分别表示话题Ti和Tj的特征个数。
根据话题Ti对应的微博信息集合映射到作者集合A,即发表话题Ti相关文档的作者的集合。话题Ti和Tj共对应m个不重复的作者,话题Ti和Tj的作者向量示意如下,如果作者Ai在话题中出现,表示为1,不出现,表示为0。
表3
A1 A2 A3 …… Am
Ti 0 1 1 …… 0
Tj 1 1 0 …… 0
对上述作者向量归一化处理,得到话题Ti和Tj题的作者概率向量,如表4所示。
表4
A1 A2 A3 …… Am
Ti 0 1/AUTHi 1/AUTHi …… 0
Tj 1/AUTHj 1/AUTHj 0 …… 0
其中,AUTHi和AUTHj分别表示话题Ti和Tj对应的作者数量。
话题Ti和Tj的相似性计算如下:
sim ( T i , T j ) = a * F i 1 * F j 1 + F i 2 * F j 2 + . . . . . . + F in * F jn F i 1 2 + F i 2 2 . . . . . . + F in 2 * F j 1 2 + F j 2 2 . . . . . . + F jn 2 + b * A i 1 * A j 1 + A i 2 * A j 2 + . . . . . . + A in * A jn A i 1 2 + A i 2 2 . . . . . . + A in 2 * A j 1 2 + A j 2 2 . . . . . . A jn 2
其中,Fi1中表示第1个特征在话题Ti中的概率权重,Ai1中表示的第1个作者在话题Ti中的概率权重。a和b是调节参数,可以根据实际需要进行调整,本实例取值都为1,在本发明的其他实施例中还可以取其他值。
可以根据经验设定阈值S,当话题相似性sim(Ti,Tj)大于S时,表示两个话题是相关话题,当前时间窗口的话题是上一时间窗口话题的延续,否则可以确定两个话题是无关话题。
具体而言,在步骤S12中,根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系可包括:
根据特征相似性,计算当前窗口的子话题SubTj与上一窗口的子话题SubTi之间的相似性;
由于此处考察的是子话题之间的相似性,子话题之间作者的变动性不大,因此,本实施例中,可以仅根据特征相似性计算子话题之间的相似性,即:
sim ( SubT i , SubT j ) = F i 1 * F j 1 + F i 2 * F j 2 + . . . . . . + F in * F jn F i 1 2 + F i 2 2 . . . . . . + F in 2 * F j 1 2 + F j 2 2 . . . . . . + F jn 2
当两个子话题SubTi和SubTj的相似性大于第一阈值时,确定子话题SubTj是对子话题SubTi的继承;当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时,确定子话题SubTj是子话题SubTi的转移;当两个子话题SubTi和SubTj的相似性小于所述第二阈值时,确定子话题SubTj与SubTi无关,即子话题SubTj是一个新子话题;其中,所述第一阈值大于所述第二阈值。
相应的,如图4所示,本发明的实施例还提供一种微博子话题演化分析装置,包括:
聚类单元41,用于通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;
确定单元42,用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。
本发明实施例提供的微博子话题演化分析装置,聚类单元41能够通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,根据聚类结果生成相应的子话题,确定单元42能够根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系,这样,由于改进的最邻近方法能够对微博话题的特征进行更精准的聚类,子话题检测效果更好,从而能够对不同时间窗口的子话题进行更有效的演化分析。
可选的,聚类单元41可具体用于:
针对每个微博话题,从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本;
利用所述初始聚类样本聚类产生一个簇后,如果新特征样本与所述簇的互信息大于所述预设阈值D,且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息,将所述新特征样本聚入所述簇;其中,所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。
进一步的,该微博子话题演化分析装置还包括:
计算单元,用于在所述确定单元根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前,计算当前窗口的话题与上一窗口的话题之间的话题相似性;
筛选单元,用于根据所述计算单元计算的话题相似性筛选出当前窗口的话题中的持续性话题;
相应的,确定单元42,可具体用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,在所述持续性话题中确定子话题的演化关系。
可选的,计算单元,具体可用于根据特征相似性和作者相似性,计算当前窗口的话题与上一窗口的话题之间的话题相似性。
可选的,确定单元,具体可用于:根据特征相似性,计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性;当两个子话题SubTi和SubTj的相似性大于第一阈值时,确定子话题SubTj是对子话题SubTi的继承;当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时,确定子话题SubTj是子话题SubTi的转移;当两个子话题SubTi和SubTj的相似性小于所述第二阈值时,确定子话题SubTi与SubTj无关;其中,所述第一阈值大于所述第二阈值。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (10)

1.一种微博子话题演化分析方法,其特征在于,包括:
通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;
根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。
2.根据权利要求1所述的方法,其特征在于,所述通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类包括:
针对每个微博话题,从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本;
利用所述初始聚类样本聚类产生一个簇后,如果新特征样本与所述簇的互信息大于所述预设阈值D,且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息,将所述新特征样本聚入所述簇;其中,所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。
3.根据权利要求1所述的方法,其特征在于,所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前,所述方法还包括:
计算当前窗口的话题与上一窗口的话题之间的话题相似性;
根据所述话题相似性筛选出当前窗口的话题中的持续性话题;
所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括:
根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,在所述持续性话题中确定子话题的演化关系。
4.根据权利要求3所述的方法,其特征在于,所述计算当前窗口的话题与上一窗口的话题之间的话题相似性包括:
根据特征相似性和作者相似性,计算当前窗口的话题与上一窗口的话题之间的话题相似性。
5.根据权利要求1所述的方法,其特征在于,所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括:
根据特征相似性,计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性;
当两个子话题SubTi和SubTj的相似性大于第一阈值时,确定子话题SubTj是对子话题SubTi的继承;当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时,确定子话题SubTj是子话题SubTi的转移;当两个子话题SubTi和SubTj的相似性小于所述第二阈值时,确定子话题SubTi与SubTj无关;其中,所述第一阈值大于所述第二阈值。
6.一种微博子话题演化分析装置,其特征在于,包括:
聚类单元,用于通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;
确定单元,用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,以确定子话题的演化关系。
7.根据权利要求6所述的装置,其特征在于,所述聚类单元具体用于:
针对每个微博话题,从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本;
利用所述初始聚类样本聚类产生一个簇后,如果新特征样本与所述簇的互信息大于所述预设阈值D,且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息,将所述新特征样本聚入所述簇;其中,所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。
8.根据权利要求6所述的装置,其特征在于,还包括:
计算单元,用于在所述确定单元根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前,计算当前窗口的话题与上一窗口的话题之间的话题相似性;
筛选单元,用于根据所述计算单元计算的话题相似性筛选出当前窗口的话题中的持续性话题;
所述确定单元,具体用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,在所述持续性话题中确定子话题的演化关系。
9.根据权利要求8所述的装置,其特征在于,所述计算单元,具体用于根据特征相似性和作者相似性,计算当前窗口的话题与上一窗口的话题之间的话题相似性。
10.根据权利要求6所述的装置,其特征在于,所述确定单元,具体用于:
根据特征相似性,计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性;
当两个子话题SubTi和SubTj的相似性大于第一阈值时,确定子话题SubTj是对子话题SubTi的继承;当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时,确定子话题SubTj是子话题SubTi的转移;当两个子话题SubTi和SubTj的相似性小于所述第二阈值时,确定子话题SubTi与SubTj无关;其中,所述第一阈值大于所述第二阈值。
CN201510264354.1A 2015-05-22 2015-05-22 一种微博子话题演化分析方法及装置 Pending CN106294405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510264354.1A CN106294405A (zh) 2015-05-22 2015-05-22 一种微博子话题演化分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510264354.1A CN106294405A (zh) 2015-05-22 2015-05-22 一种微博子话题演化分析方法及装置

Publications (1)

Publication Number Publication Date
CN106294405A true CN106294405A (zh) 2017-01-04

Family

ID=57633726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510264354.1A Pending CN106294405A (zh) 2015-05-22 2015-05-22 一种微博子话题演化分析方法及装置

Country Status (1)

Country Link
CN (1) CN106294405A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415910A (zh) * 2017-02-09 2018-08-17 中国传媒大学 基于时间序列的话题发展聚类分析系统和方法
CN109829112A (zh) * 2019-01-31 2019-05-31 平安科技(深圳)有限公司 基于大数据的裂变话题跟踪方法、装置和计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法
US8086440B2 (en) * 2007-10-16 2011-12-27 Lockheed Martin Corporation System and method of prioritizing automated translation of communications from a first human language to a second human language
CN102662986A (zh) * 2012-01-13 2012-09-12 中国科学院计算技术研究所 微博消息检索系统与方法
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN103870474A (zh) * 2012-12-11 2014-06-18 北京百度网讯科技有限公司 一种新闻话题组织方法及装置
CN103984731A (zh) * 2014-05-19 2014-08-13 北京大学 微博环境下自适应话题追踪方法和装置
CN105095419A (zh) * 2015-07-15 2015-11-25 哈尔滨工程大学 一种面向微博特定类型用户的信息影响力最大化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086440B2 (en) * 2007-10-16 2011-12-27 Lockheed Martin Corporation System and method of prioritizing automated translation of communications from a first human language to a second human language
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法
CN102662986A (zh) * 2012-01-13 2012-09-12 中国科学院计算技术研究所 微博消息检索系统与方法
CN103870474A (zh) * 2012-12-11 2014-06-18 北京百度网讯科技有限公司 一种新闻话题组织方法及装置
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN103984731A (zh) * 2014-05-19 2014-08-13 北京大学 微博环境下自适应话题追踪方法和装置
CN105095419A (zh) * 2015-07-15 2015-11-25 哈尔滨工程大学 一种面向微博特定类型用户的信息影响力最大化方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HANCHUAN PENG等: "《Feature Selection Based on Mutual Information:Criteria of Max-Dependency, Max-Relevance,and Min-Redundancy》", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
刘军等: "《基因芯片制备及数据分析技术》", 30 April 2015, 西安电子科技大学出版社 *
姚旭等: "《基于正则化互信息和差异度的集成特征选择》", 《计算机科学》 *
杜慧平等: "《自然语言叙词表自动构建研究》", 31 December 2009, 东南大学出版社 *
洪宇等: "《话题检测与跟踪的评测及研究综述》", 《中文信息学报》 *
王卫姣等: "《LDA和KNN相结合的帖子热度预测算法》", 《四川大学学报(自然科学版)》 *
王然: "《舆情分析系统的设计与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415910A (zh) * 2017-02-09 2018-08-17 中国传媒大学 基于时间序列的话题发展聚类分析系统和方法
CN108415910B (zh) * 2017-02-09 2021-03-05 中国传媒大学 基于时间序列的话题发展聚类分析系统和方法
CN109829112A (zh) * 2019-01-31 2019-05-31 平安科技(深圳)有限公司 基于大数据的裂变话题跟踪方法、装置和计算机设备
CN109829112B (zh) * 2019-01-31 2023-11-14 平安科技(深圳)有限公司 基于大数据的裂变话题跟踪方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN104899267B (zh) 一种社交网站账号相似度的综合数据挖掘方法
Emon et al. A deep learning approach to detect abusive bengali text
Parekh et al. Studying jihadists on social media: A critique of data collection methodologies
US8463795B2 (en) Relevance-based aggregated social feeds
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN106980692A (zh) 一种基于微博特定事件的影响力计算方法
US20140052753A1 (en) Method, device and system for processing public opinion topics
CN108920456A (zh) 一种关键词自动抽取方法
Dayani et al. Rumor detection in twitter: An analysis in retrospect
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
US11036818B2 (en) Method and system for detecting graph based event in social networks
CN107679069A (zh) 基于新闻数据及相关评论信息的一种特定群体发现方法
WO2017101413A1 (zh) 一种信息推送方法及信息推送装置
CN105893388A (zh) 一种基于类间区分度及类内高表征度的文本特征提取方法
WO2016009419A1 (en) System and method for ranking news feeds
CN104166726A (zh) 一种面向微博文本流的突发关键词检测方法
Vall et al. The Importance of Song Context in Music Playlists.
CN103744918A (zh) 基于垂直领域的微博搜索排序方法及系统
Alsaedi et al. Feature extraction and analysis for identifying disruptive events from social media
Daouadi et al. Organization vs. Individual: Twitter User Classification.
CN106294405A (zh) 一种微博子话题演化分析方法及装置
CN106202200A (zh) 一种基于固定主题的文本情感倾向性分类方法
CN103838739B (zh) 一种搜索引擎中纠错词的检测方法及系统
Zhao et al. Sportsense: Real-time detection of NFL game events from Twitter
Haider et al. Detecting social media manipulation in low-resource languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication