CN103984729A - 微博信息追踪方法和微博信息追踪装置 - Google Patents
微博信息追踪方法和微博信息追踪装置 Download PDFInfo
- Publication number
- CN103984729A CN103984729A CN201410211030.7A CN201410211030A CN103984729A CN 103984729 A CN103984729 A CN 103984729A CN 201410211030 A CN201410211030 A CN 201410211030A CN 103984729 A CN103984729 A CN 103984729A
- Authority
- CN
- China
- Prior art keywords
- microblog
- information
- topic
- corpus
- microblog information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 101100377706 Escherichia phage T5 A2.2 gene Proteins 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种微博信息追踪方法和一种微博信息追踪装置,其中微博信息追踪方法包括预设训练集合,其中,训练集合包括至少一个话题、前景语料和背景语料,前景语料为在话题发生的时间戳之后发布的信息,背景语料为在话题发生的时间戳之前发布的微博信息;获取话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于训练集合的特征集合;根据特征集合训练生成话题追踪模型;使用话题追踪模型对需进行追踪的微博信息进行追踪。本发明能够从海量的实时微博信息流中过滤出与话题相关的微博信息,提高话题追踪的准确率。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及微博信息追踪方法和微博信息追踪装置。
背景技术
近年来,随着移动互联网在世界范围内的迅速普及和蓬勃发展,实时的互联网络在人们的日常生活中越来越普遍。作为一种新兴的社交网络媒体,微博客(简称微博),正逐渐取代博客,成为人们分享、传播和获取信息的新平台,典型的代表有美国注明微博客Twitter和国内的新浪微博。
微博客是一种广播形式的博客,用户可以随时随地用140个字符以内的内容发表自己的状态,分享自己感兴趣的新闻。其实时性、易用性以及社会化的特性使得微博在互联网上得到用户的青睐。据数据统计,美国著名微博客Twitter,其每日更新的微博数超过了5亿条。而在中国国内,据CNNIC《第32次中国互联网发展状况调查报告》显示,截至2013年6月底,中国微博用户数量达到3.31亿。作为一种互动性和传播性极强的社交网络,当一个事件发生的时候,微博会在极短的时间里产生海量的数据信息。在这种实时快速更新的宏大信息流中,用户想了解自己所感兴趣的事件的进展,希望系统能够对于话题的动态进行实时跟踪。而微博的实时性、社会化以及碎片化特征给微博环境下的话题追踪带来了巨大的挑战。
与传统新闻媒体以及博客环境下话题追踪一样,微博环境下与话题相关的微博追踪也面临着初始语料不足以及话题偏移的挑战。因此传统的话题追踪的技术,比如Rocchio算法、逻辑斯蒂回归算法都可以应用到微博环境下的话题追踪中。但是,与传统新闻媒体和博客环境下的话题追踪相比,微博环境下的话题追踪是不相同的。首先微博的内容更加短小精悍,更加碎片化,通常只允许用户发表140个字符以内的内容。相比传统新闻媒体和博客,我们更难准确地获取微博的主题信息。其次,用户在所编辑的微博内容中不仅可以包含文本的内容,而且可以包含图片及视频的链接或其他网页形式的链接来补充说明所要发表的内容。与此同时,用户还可以在微博中使用#符号来表明微博所属的主题,使得相似的信息能更快、更好地聚集在一起,从而方便信息的有效获取。除此之外,用户还可以通过符号、RT符号和其他用户进行互动,使得信息在用户之间能更快地传递。这些社交特性是传统新闻媒体和博客中不存在的。再次,相对于传统的博客,用户在微博中所发布的主题也更为宽泛和随意,可以是用户当前的状态,对特定话题的关注,甚至可以是简单的别人微博的转发。微博的用户人群也比传统的博客更加多元化,因此每一条微博并不是像博客那样有比较高的质量,其质量是参差不齐的。由于微博的特殊性,因此传统的话题追踪的技术不适用于微博环境。
因此,如何解决微博环境下与话题相关的微博追踪称为亟待解决的技术问题。
发明内容
基于上述背景技术出现的技术问题,本发明提供了一种信息追踪技术,可应用于微博环境中,提高追踪与话题相关的微博信息的准确率。
根据本发明的一个方面,提供了一种微博信息追踪方法,包括:预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博信息,所述背景语料为在所述话题发生的时间戳之前发布的微博信息;获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于所述训练集合的特征集合;根据所述特征集合训练生成话题追踪模型;使用所述话题追踪模型对需进行追踪的微博信息进行追踪。
本发明典型的应用场景是微博环境,对预先设置的训练集合进行特征提取,得到特征集合,在该特征集合中,微博信息的文本特征反应了微博信息的语义信息和质量信息,而微博信息的相关反馈特征反应了与当前时间点最邻近且与话题相关的微博信息的相关性,因此基于该特征集合生成的话题追踪模型能够解决微博环境下话题偏移的问题,变相地进行了查询扩展,并且从海量的实时微博信息流中过滤出与话题相关的微博信息,可以提高微博环境下话题追踪的准确率,对网络用户有着重要的现实意义。
根据本发明的另一方面,还提供了一种微博信息追踪装置,包括:设置单元,预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博信息,所述背景语料为在所述话题发生的时间戳之前发布的微博信息;特征集合获取单元,获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于所述训练集合的特征集合;微博话题追踪模型生成单元,根据所述特征集合训练生成微博话题追踪模型;追踪单元,使用所述微博话题追踪模型对需进行追踪的微博信息进行追踪。
本发明典型的应用场景是微博环境,对预先设置的训练集合进行特征提取,得到特征集合,在该特征集合中,微博信息的文本特征反应了微博信息的语义信息和质量信息,而微博信息的相关反馈特征反应了与当前时间点最邻近且与话题相关的微博信息的相关性,因此基于该特征集合生成的话题追踪模型能够解决微博环境下话题偏移的问题,变相地进行了查询扩展,并且从海量的实时微博信息流中过滤出与话题相关的微博信息,可以提高微博环境下话题追踪的准确率,对网络用户有着重要的现实意义。
附图说明
图1示出了根据本发明的实施例的微博信息追踪方法的示意流程图;
图2示出了根据本发明的实施例的生成特征集合方法的流程图;
图3示出了根据本发明的实施例的微博信息追踪过程的示意图;
图4示出了根据本发明的实施例的提取扩展主题信息的流程图;
图5示出了根据本发明的实施例的微博信息追踪装置的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
在具体阐述根据本发明的话题追踪方法之前,首先定义以下名词:
话题:每个事件都是一个话题,用若干个关键词表示,每个话题都有其发生时的时间戳。
触发微博:时间最早讨论该话题的微博被称为触发微博。
背景语料:在话题发生的时间戳之前发布的微博集合被称为背景语料。
前景语料:在话题发生的时间戳之后发布的微博集合被称为前景语料。
训练集合:该集合包含了一个话题集合,同时对于每个话题,该训练集合还包含了标注了是否与该话题相关的微博集合。
图1示出了根据本发明的实施例的微博信息追踪方法的示意流程图。
如图1所示,根据本发明的实施例的微博信息追踪方法,可以包括以下步骤:
步骤102,预设训练集合,其中,训练集合包括至少一个话题、前景语料和背景语料,前景语料为在话题发生的时间戳之后发布的微博信息,背景语料为在话题发生的时间戳之前发布的微博信息;步骤104,获取话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于训练集合的特征集合;步骤106,根据特征集合训练生成话题追踪模型;步骤108,使用话题追踪模型对需进行追踪的微博信息进行追踪。
本发明典型的应用场景是微博环境,对预先设置的训练集合进行特征提取,得到特征集合,在该特征集合中,微博信息的文本特征反应了微博信息的语义信息和质量信息,而微博信息的相关反馈特征反应了与当前时间点最邻近且与话题相关的微博信息的相关性,因此基于该特征集合生成的话题追踪模型能够解决微博环境下话题偏移的问题,变相地进行了查询扩展,并且从海量的实时微博信息流中过滤出与话题相关的微博信息,可以提高微博环境下话题追踪的准确率,对网络用户有着重要的现实意义。
其中,所述获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,具体包括:
根据所述背景语料中每一条微博信息中的词建立倒排索引;获取所述前景语料中每一条微博信息的内容信息,将所述内容信息添加至所述索引中;使用狄利克雷平滑算法和所述索引获取微博信息中词的分布,利用预先建立的语言模型确定所述前景语料中的每一条微博信息的语义特征,其中,所述语言模型中的词的分布是使用所述狄利克雷平滑算法和索引获取的;根据所述前景语料中的微博信息包含的特征名确定所述微博信息的质量特征,所述语义特征和所述质量特征为所述前景语料中的微博信息的文本特征;计算所述前景语料中的微博信息与已确定的且与所述话题相关的微博信息之间的相关度,所述相关度是所述前景预料中的微博信息的相关反馈特征;将所述训练集合中预先标注的微博信息与所述话题的相关性作为所述相关性特征。
背景语料中每一条微博信息中词的分布数据的获取过程包括:
提取背景语料中的微博信息的原始文本的短链接,根据短链接获取微博信息的扩展主题信息,将扩展主题信息特征至背景语料中,以及对背景语料中的内容和表示话题关键词集合进行预处理,得到词的分布数据。
获取前景语料中每一条微博信息的内容信息的过程具体包括:
提取前景语料中的微博信息的原始文本的短链接,根据短链接获取微博信息的扩展主题信息,以及根据微博信息的原始文本信息和扩展主题信息生成内容信息。
需说明的是,获取微博信息的扩展主题信息的方法包括:
将微博信息的短链接还原成原始的长链接,从长链接中解析出网站关键字集合;将网站的网页代码中解析出标签的内容,将标签的内容分割成多个子字符串;将不包含网站关键字集合中任一关键字的子字符串作为微博信息的扩展主题信息。
微博信息追踪方法还包括将触发信息添加进滑动窗口,其中,所述触发信息为与所述话题相关的且时间最早的微博信息;根据判断结果将与所述话题相关的微博信息添加进所述滑动窗口,将所述滑动窗口中的微博信息作为判断所述前景语料中的下一条微博信息是否与所述话题相关的依据。
采用梯度下降算法对所述特征集合进行训练,得到所述话题追踪模型,其中,使用所述话题追踪模型对需进行追踪的微博信息进行追踪包括:计算得到实时微博信息的文本特征和相关反馈特征;使用所述话题追踪模型计算出实时微博信息与所述话题的相关性分数;将所述相关性分数大于等于阈值的实时微博信息添加进所述滑动窗口中。
根据本发明的另一实施例的微博信息追踪的方法主要包括以下几个步骤:
A、基于训练集合使用文本模型和反馈模型生成训练得到话题追踪系统的特征集合,其中,文本模型和反馈模型将在下文中被解释。
B、使用梯度下降算法训练得到话题追踪系统M。
C、对需要进行话题追踪的话题以及其对应的实时微博流建立文本模型以及反馈模型,使用话题追踪系统过滤相关微博。
B中所描述的话题追踪系统M可以用公式1来表示
其中, 公式2
为本发明的文本模型,用公式2表示;wc为文本模型的权重,bc为模型的偏置,xc为各维特征的值。
为本发明的反馈模型,用公式3表示;wf为反馈模型的权重,bf为模型的偏置,xf为各维特征的值。
α为预设的0-1之间的实数。
本发明另外设置了一个阈值β,在进行话题追踪时,当P(Y|xc,xf)≥β时,微博才会被判定跟当前话题相关。
根据公式1、2、3,在进行话题追踪前,首先要先估算出模型的参数wc、bc、wf、bf。本发明定义了一个如公式4所示的损失函数来估算模型的参数,采用常用的梯度下降算法来计算参数,其梯度用公式5和公式6所示。
公式4、5、6中所需要的xc (i),xf (i),y(i)是从训练集合中获取的特征集合,xc (i)表示微博的语义特征和质量特征,xf (i)表示当前微博与滑动窗口中的微博的相关度,y(i)表示从标注结果中得到该微博与话题Q的相关性。针对训练集合中的每一个话题Q,获取特征集合的计算方法包括以下步骤,如图2所示:
A1)对训练集合中背景语料中的微博集合中的每一条微博,提取微博原始文本中的短链接,通过短链接获取该微博的扩展主题信息,将扩展主题信息添加到背景语料中。
A2)对训练集合中背景语料中的内容进行预处理,主要包括以下步骤:
A2.1)剔除停用词。
A2.2)词干提取。
A2.3)计算每个单词的TF值(Term Frequency词在微博中出现的频率)和IDF值(Inverse Document Frequency,逆向文件频率,代表词的常见度)。
A3)对表示话题的关键词集合进行预处理,主要包括以下步骤:
A3.1)剔除停用词。
A3.2)词干提取。
A4)对该话题的背景语料集合建立倒排索引。
A5)设置参数α和β的值,设置滑动窗口的宽度为n。
A6)初始状态下包含话题Q的相关微博的滑动窗口C设为空,并将该话题的触发微博添加滑动窗口C中。
A7)对于该话题前景语料集合中的每一条微博D,建立文本内容模型和相关反馈模型,主要包括以下步骤:
A7.1)提取微博原始文本中的短链接,通过短链接获取该微博的扩展主题信息D′。
A7.2)将微博的原始文本信息和扩展主题信息合并生成D″。
A7.3)对D″进行预处理后,添加到A4中所建立的倒排索引中,倒排索引表示词的分布数据。
A7.4)对D″进行建模,计算该微博与话题的相关度SDE,其计算方法如公式7所示。其中,和是使用狄利克雷平滑(Dirichlet Smoothing)算法根据倒排索引计算得到的对话题Q和微博D″的估计。
A7.5)根据下表1计算该条微博的质量特征。
特征名 | 解释 |
n_# | 取值为0或者1,表示该条微博是否包含#符号。 |
n_link | 取值为0或者1,表示该条微博是否包含短连接。 |
n_RT | 取值为0或者1,表示该条微博是否包含RT符号。 |
n_ | 取值为0或者1,表示该条微博是否包含符号。 |
至此,该微博文本内容所需要的特征(S_DE、n_#、n_link、n_RT、n_)都计算完毕了。
A7.6)根据公式1计算微博D和滑动窗口里每条微博的相关度,设为Sw=<s1,s2,…,sn>,即形成反馈模型所需要的特征。
A7.7)从训练集合中的标注结果中得到该微博与话题Q的相关性。
A7.8)如果该微博与话题Q不相关,则继续处理下一条微博,否将该微博加到滑动窗口中。如果滑动窗口里微博的个数大于n,则舍弃时间戳最早的微博。
针对A1和A7.1中所提到的通过微博短链接获取微博的扩展主题信息,主要有以下步骤:
1)将文档中包含的短链接还原成原始的长链接。
2)从长链接中解析出网站关键字集合。
3)从网页HTML代码中解析出<TITLE>标签的内容,作为网页主题信息的候选文本。
4)将候选文本的内容用常见的分隔符(例如“|”,“-”,“_”)分割成若干个子字符串。
5)保留不包含网站关键字集合中任一关键字的字符串作为微博的扩展主题信息。
使用A1-A7所描述的方法得到训练所需要的特征集合,并使用梯度下降方法训练得到公式1中所描述话题追踪系统M后,就可以进行微博上的话题追踪了。
话题追踪的过程和训练的过程基本是一致的,不同的地方在于A7.7中微博与话题Q相关性的获取。话题追踪的过程中,利用A1-A7.6中所描述的方法获取文本内容模型和反馈模型所需要的特征后,用公式1所描述的话题追踪系统M,计算出该微博和话题Q的相关性得分,如果该得分比预设的β值高,则该微博和话题是相关的,否则是不相关的。
在实际应用中,获取特征集合的过程主要包括以下步骤:
1)训练集合中背景语料中的微博集合中的每一条微博,提取微博原始文本中的短链接,通过短链接获取该微博的扩展主题信息,并添加到背景语料中。
2)对训练集合中的微博集合进行预处理,主要包括以下步骤:
a)剔除停用词。停用词可以由用户事先进行设置,可以为“in”、“the”和标点符号等无具体意义的词,中文可以为“的”、“着”、“吧”和标点符号等无具体意义的词。需要说明的是,当文档中出现中文句子时,需要利用现有技术对中文句子进行特殊的分词处理,再将停用词从文档中剔除。
b)词干提取。当目标文档集合中的内容为英文字符时,将所有单词进行还原。
c)计算每个单词的TF值和IDF值。
3)对表示话题的关键词集合进行预处理,主要包括以下步骤:
d)剔除停用词。
e)词干提取。
4)对该话题的背景语料集合建立倒排索引。
5)设置参数α和β的值,设置滑动窗口的宽度为n。
6)初始状态下包含话题Q的相关微博的滑动窗口C设为空,并将该话题的触发微博添加滑动窗口C中。
7)对于该话题前景语料集合中的每一条微博D,建立文本内容模型和相关反馈模型,主要包括以下步骤:
a)提取微博原始文本中的短链接,通过短链接获取该微博的扩展主题信息D′。
b)将微博的原始文本信息和扩展主题信息合并生成D″。
c)对D″进行预处理,添加到倒排索引中。
d)对D″进行建模,使用公式7计算其与话题的相关度SDE。
e)计算该条微博的质量特征n_#、n_link、n_RT、n_。
f)根据公式7计算微博D和滑动窗口里每条微博的相关度,设为Sw=<s1,s2,…,sn>,即为反馈模型所需要的特征。
g)从训练语料中的标注结果中得到该微博与话题Q的相关性。
h)如果该微博与话题Q不相关,则继续处理下一条微博,否将该微博加到滑动窗口中。如果滑动窗口里微博的个数大于n,则舍弃时间戳最早的微博。
参见图3,根据本发明的又一实施例的微博追踪的过程,主要有以下步骤:
步骤302,对背景语料中的微博集合中的每一条微博,提取微博原始文本中的短链接,通过短链接获取该微博的扩展主题信息,并添加到背景语料中。
步骤304,对该话题的背景语料集合中的微博进行预处理,方法与训练分类器中的过程一样,在此不再赘述。
步骤306,对该话题的背景语料集合建立倒排索引。对表示话题的关键词集合进行预处理。设置参数α和β的值,设置滑动窗口的宽度为n。
初始状态下包含话题Q的相关微博的滑动窗口C设为空,并将该话题的触发微博添加滑动窗口C中。
步骤308,对于该话题前景语料集合中的每一条微博D,建立文本内容模型和相关反馈模型,主要包括以下步骤:
提取微博原始文本中的短链接,通过短链接获取该微博的扩展主题信息D′。
将微博的原始文本信息和扩展主题信息合并生成D″。
对D″进行预处理,添加到倒排索引中。
对D″进行建模,使用公式7计算该微博与话题的相关度SDE。
计算该条微博的质量特征n_#、n_link、n_RT、n_。
根据公式7计算微博D和滑动窗口里每条微博的相关度,设为Sw=<s1,s2,…,sn>,即为反馈模型所需要的特征。
用公式1所描述的话题追踪系统M,计算出该微博和话题Q的相关性得分,如果该得分比预设的β值高,则该微博和话题是相关的,将该微博加到滑动窗口中,否则是不相关的,继续处理下一条微博。
步骤310,如果滑动窗口里微博的个数大于n,则舍弃时间戳最早的微博。
图4示出了根据本发明的实施例的提取扩展主题信息的流程图。
在本实施例中,通过微博短链接获取微博的扩展主题信息的过程,主要有以下步骤:
步骤402,提取微博的短链接。
步骤404,将文档中包含的短链接还原成原始的长链接。
步骤406,从长链接中解析出网站关键字集合。
步骤408,从网页HTML代码中解析出<TITLE>标签的内容,作为网页主题信息的候选文本。
步骤410,将候选文本的内容用常见的分隔符(例如“|”,“-”,“_”)分割成若干个子字符串。
步骤412,保留不包含网站关键字集合中任一关键字的字符串作为微博的扩展主题信息。
图5示出了根据本发明的实施例的微博信息追踪装置的框图。
如图5所示,根据本发明的实施例的微博信息追踪装置500包括:设置单元502,预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博信息,所述背景语料为在所述话题发生的时间戳之前发布的微博信息;特征集合获取单元504,获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于所述训练集合的特征集合;微博话题追踪模型生成单元506,根据所述特征集合训练生成微博话题追踪模型;追踪单元508,使用所述微博话题追踪模型对需进行追踪的微博信息进行追踪。
所述特征集合获取单元504包括:索引建立单元5042,根据所述背景语料中每一条微博信息中的词建立倒排索引,以及获取所述前景语料中每一条微博信息的内容信息,将所述内容信息添加至所述索引中;文本特征获取单元5044,使用狄利克雷平滑算法和所述索引获取微博信息中词的分布,利用预先建立的语言模型确定所述前景语料中的微博信息的语义特征,以及根据所述前景语料中的微博信息包含的特征名确定所述微博信息的质量特征,所述语义特征和所述质量特征为所述前景语料中的信息的文本特征;相关性特征获取单元5046,计算所述前景语料中的信息与已确定的且与所述话题相关的信息之间的相关度,作为相关反馈特征,将所述训练集合中预先标注的微博信息与所述话题的相关性作为所述相关性特征;相关反馈特征获取单元5048,计算所述前景语料中的微博信息与已确定的且与所述话题相关的微博信息之间的相关度,所述相关度是所述前景预料中的微博信息的相关反馈特征;。
所述索引建立单元5042包括:分布数据获取单元504A,提取所述背景语料中的微博信息的原始文本的短链接,根据所述短链接获取所述微博信息的扩展主题信息,将所述扩展主题信息特征至所述背景语料中,以及对所述背景语料中的内容和表示所述话题关键词集合进行预处理,得到所述词的分布数据;内容信息获取单元504B,提取所述前景语料中的微博信息的原始文本的短链接,根据所述短链接获取所述微博信息的扩展主题信息,以及根据所述微博信息的原始文本信息和扩展主题信息生成所述内容信息。
在上述技术方案中,优选的,所述内容信息获取单元504B还用于将所述微博信息的短链接还原成原始的长链接,从所述长链接中解析出网站关键字集合,将所述网站的网页代码中解析出标签的内容,将所述标签的内容分割成多个子字符串,将不包含所述网站关键字集合中任一关键字的子字符串作为所述微博信息的扩展主题信息。
在上述技术方案中,优选的,所述特征集合获取单元504还可以包括:滑动窗口建立单元5048,将触发信息添加进滑动窗口,其中,所述触发信息为与所述话题相关的且时间最早的微博信息,以及根据判断结果将与所述话题相关的微博信息添加进所述滑动窗口,将所述滑动窗口中的微博信息作为判断所述前景语料中的下一条微博信息是否与所述话题相关的依据。
所述微博话题追踪模型生成单元506采用梯度下降算法对所述特征集合进行训练,得到所述微博话题追踪模型;所述追踪单元508还用于计算得到实时微博信息的文本特征和相关反馈特征,使用所述话题追踪模型计算出实时微博信息与所述话题的相关性分数,将所述相关性分数大于等于阈值的实时微博信息添加进所述滑动窗口中。
以上结合附图详细说明了根据本发明的技术方案,本发明提供了一种微博环境下话题追踪的方法及装置,考虑了微博文本的语义信息和质量信息,以及利用伪相关反馈技术建立了一个滑动的时间窗口来保存和当前时间点最邻近且与话题相关的微博,使得系统能够适应微博环境下话题偏移的问题,并且变相地进行了查询扩展,可以提高微博环境下话题追踪的准确率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种微博信息追踪方法,其特征在于,包括:
预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博信息,所述背景语料为在所述话题发生的时间戳之前发布的微博信息;
获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于所述训练集合的特征集合;
根据所述特征集合训练生成话题追踪模型;
使用所述话题追踪模型对需进行追踪的微博信息进行追踪。
2.根据权利要求1所述的微博信息追踪方法,其特征在于,所述获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,具体包括:
根据所述背景语料中每一条微博信息中的词建立倒排索引;
获取所述前景语料中每一条微博信息的内容信息,将所述内容信息添加至所述索引中;
使用狄利克雷平滑算法和所述索引获取微博信息中词的分布,利用预先建立的语言模型确定所述前景语料中的每一条微博信息的语义特征,其中,所述语言模型中的词的分布是使用所述狄利克雷平滑算法和索引获取的;
根据所述前景语料中的微博信息包含的特征名确定所述微博信息的质量特征,所述语义特征和所述质量特征为所述前景语料中的微博信息的文本特征;
计算所述前景语料中的微博信息与已确定的且与所述话题相关的微博信息之间的相关度,所述相关度是所述前景预料中的微博信息的相关反馈特征;
将所述训练集合中预先标注的微博信息与所述话题的相关性作为所述相关性特征。
3.根据权利要求2所述的微博信息追踪方法,其特征在于,所述背景语料中每一条微博信息中词的分布数据的获取过程包括:
提取所述背景语料中的微博信息的原始文本的短链接,根据所述短链接获取所述微博信息的扩展主题信息,将所述扩展主题信息特征至所述背景语料中,以及对所述背景语料中的内容和表示所述话题关键词集合进行预处理,得到所述词的分布数据;
获取所述前景语料中每一条微博信息的内容信息,具体包括:
提取所述前景语料中的微博信息的原始文本的短链接,根据所述短链接获取所述微博信息的扩展主题信息,以及根据所述微博信息的原始文本信息和扩展主题信息生成所述内容信息。
4.根据权利要求3所述的微博信息追踪方法,其特征在于,获取所述微博信息的扩展主题信息的方法包括:
将所述微博信息的短链接还原成原始的长链接,从所述长链接中解析出网站关键字集合;
将所述网站的网页代码中解析出标签的内容,将所述标签的内容分割成多个子字符串;
将不包含所述网站关键字集合中任一关键字的子字符串作为所述微博信息的扩展主题信息。
5.根据权利要求2至4中任一项所述的微博信息追踪方法,其特征在于,还包括:
将触发信息添加进滑动窗口,其中,所述触发信息为与所述话题相关的且时间最早的微博信息;
根据判断结果将与所述话题相关的微博信息添加进所述滑动窗口,将所述滑动窗口中的微博信息作为判断所述前景语料中的下一条微博信息是否与所述话题相关的依据。
6.根据权利要求5所述的微博信息追踪方法,其特征在于,采用梯度下降算法对所述特征集合进行训练,得到所述话题追踪模型,其中,使用所述话题追踪模型对需进行追踪的微博信息进行追踪包括:
计算得到实时微博信息的文本特征和相关反馈特征;
使用所述文本特征和相关反馈特征以及所述话题追踪模型计算出实时微博信息与所述话题的相关性分数;
将所述相关性分数大于等于阈值的实时微博信息添加进所述滑动窗口中。
7.一种微博信息追踪装置,其特征在于,包括:
设置单元,预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博信息,所述背景语料为在所述话题发生的时间戳之前发布的微博信息;
特征集合获取单元,获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于所述训练集合的特征集合;
微博话题追踪模型生成单元,根据所述特征集合训练生成微博话题追踪模型;
追踪单元,使用所述微博话题追踪模型对需进行追踪的微博信息进行追踪。
8.根据权利要求7所述的微博信息追踪装置,其特征在于,所述特征集合获取单元包括:
索引建立单元,根据所述背景语料中每一条微博信息中的词建立倒排索引,以及获取所述前景语料中每一条微博信息的内容信息,将所述内容信息添加至所述索引中;
文本特征获取单元,使用狄利克雷平滑算法和所述索引获取微博信息中词的分布,利用预先建立的语言模型确定所述前景语料中的每一条微博信息的语义特征,以及根据所述前景语料中的微博信息包含的特征名确定所述微博信息的质量特征,所述语义特征和所述质量特征为所述前景语料中的微博信息的文本特征;
相关反馈特征获取单元,计算所述前景语料中的微博信息与已确定的且与所述话题相关的微博信息之间的相关度,所述相关度是所述前景预料中的微博信息的相关反馈特征;
相关性获取单元,将所述训练集合中预先标注的微博信息与所述话题的相关性作为所述相关性特征。
9.根据权利要求8所述的微博信息追踪装置,其特征在于,所述索引建立单元包括:
分布数据获取单元,提取所述背景语料中的微博信息的原始文本的短链接,根据所述短链接获取所述微博信息的扩展主题信息,将所述扩展主题信息特征至所述背景语料中,以及对所述背景语料中的内容和表示所述话题关键词集合进行预处理,得到所述词的分布数据;
内容信息获取单元,提取所述前景语料中的微博信息的原始文本的短链接,根据所述短链接获取所述微博信息的扩展主题信息,以及根据所述微博信息的原始文本信息和扩展主题信息生成所述内容信息。
10.根据权利要求9所述的微博信息追踪装置,其特征在于,所述内容信息获取单元还用于将所述微博信息的短链接还原成原始的长链接,从所述长链接中解析出网站关键字集合,将所述网站的网页代码中解析出标签的内容,将所述标签的内容分割成多个子字符串,将不包含所述网站关键字集合中任一关键字的子字符串作为所述微博信息的扩展主题信息。
11.根据权利要求8至10中任一项所述的微博信息追踪装置,所述特征在于,所述特征集合获取单元还包括:
滑动窗口建立单元,将触发信息添加进滑动窗口,其中,所述触发信息为与所述话题相关的且时间最早的微博信息,以及根据判断结果将与所述话题相关的微博信息添加进所述滑动窗口,将所述滑动窗口中的微博信息作为判断所述前景语料中的下一条微博信息是否与所述话题相关的依据。
12.根据权利要求11所述的微博信息追踪装置,所述特征在于,所述话题追踪模型生成单元采用梯度下降算法对所述特征集合进行训练,得到所述话题追踪模型;
所述追踪单元还用于计算得到实时微博信息的文本特征和相关反馈特征,使用所述话题追踪模型计算出实时微博信息与所述话题的相关性分数,将所述相关性分数大于等于阈值的实时微博信息添加进所述滑动窗口中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410211030.7A CN103984729A (zh) | 2014-05-19 | 2014-05-19 | 微博信息追踪方法和微博信息追踪装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410211030.7A CN103984729A (zh) | 2014-05-19 | 2014-05-19 | 微博信息追踪方法和微博信息追踪装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103984729A true CN103984729A (zh) | 2014-08-13 |
Family
ID=51276702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410211030.7A Pending CN103984729A (zh) | 2014-05-19 | 2014-05-19 | 微博信息追踪方法和微博信息追踪装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103984729A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069103A (zh) * | 2015-05-07 | 2015-11-18 | Tcl集团股份有限公司 | App搜索引擎利用用户评论的方法及系统 |
CN105975499A (zh) * | 2016-04-27 | 2016-09-28 | 深圳大学 | 一种文本主题检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120095976A1 (en) * | 2010-10-13 | 2012-04-19 | Microsoft Corporation | Following online social behavior to enhance search experience |
CN102831220A (zh) * | 2012-08-23 | 2012-12-19 | 江苏物联网研究发展中心 | 一种面向主题定制的新闻情报提取系统 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103177024A (zh) * | 2011-12-23 | 2013-06-26 | 微梦创科网络科技(中国)有限公司 | 一种话题信息展现方法和装置 |
CN103324666A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博数据的话题跟踪方法及装置 |
CN103390051A (zh) * | 2013-07-25 | 2013-11-13 | 南京邮电大学 | 一种基于微博数据的话题发现与追踪方法 |
CN103729420A (zh) * | 2013-12-20 | 2014-04-16 | 潘大庆 | 微博热点追踪系统及追踪方法 |
-
2014
- 2014-05-19 CN CN201410211030.7A patent/CN103984729A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120095976A1 (en) * | 2010-10-13 | 2012-04-19 | Microsoft Corporation | Following online social behavior to enhance search experience |
CN103177024A (zh) * | 2011-12-23 | 2013-06-26 | 微梦创科网络科技(中国)有限公司 | 一种话题信息展现方法和装置 |
CN102831220A (zh) * | 2012-08-23 | 2012-12-19 | 江苏物联网研究发展中心 | 一种面向主题定制的新闻情报提取系统 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103324666A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博数据的话题跟踪方法及装置 |
CN103390051A (zh) * | 2013-07-25 | 2013-11-13 | 南京邮电大学 | 一种基于微博数据的话题发现与追踪方法 |
CN103729420A (zh) * | 2013-12-20 | 2014-04-16 | 潘大庆 | 微博热点追踪系统及追踪方法 |
Non-Patent Citations (5)
Title |
---|
YIHONG HONG ET AL: "Exploiting Topic Tracking in Real-Time Tweet Streams", 《UNSTRUCTURENLP’ 13》 * |
刘彦伟: "微博话题追踪系统的研究与实现", 《中国优秀硕士学位论文全文数据库·信息科技辑》 * |
史存会等: "追踪事件微博报道:一种流的动态话题模型", 《山东大学学报(理学版)》 * |
基于相关性反馈的自适应热点话题追踪模型: "翟东海等", 《山东大学学报(工学版)》 * |
王婵等: "面向话题追踪的Dirichlet过程混合模型", 《北京邮电大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069103A (zh) * | 2015-05-07 | 2015-11-18 | Tcl集团股份有限公司 | App搜索引擎利用用户评论的方法及系统 |
CN105069103B (zh) * | 2015-05-07 | 2021-04-13 | Tcl科技集团股份有限公司 | App搜索引擎利用用户评论的方法及系统 |
CN105975499A (zh) * | 2016-04-27 | 2016-09-28 | 深圳大学 | 一种文本主题检测方法及系统 |
CN105975499B (zh) * | 2016-04-27 | 2019-06-25 | 深圳大学 | 一种文本主题检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
El-Fishawy et al. | Arabic summarization in twitter social network | |
CN102682120B (zh) | 一种网络评论精华文本的获取方法和装置 | |
CN101894102A (zh) | 一种主观性文本情感倾向性分析方法和装置 | |
CN103955453B (zh) | 一种从文档集中自动发现新词的方法及装置 | |
CN103136359A (zh) | 单文档摘要生成方法 | |
CN106294333B (zh) | 一种微博突发话题检测方法及装置 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN103064845B (zh) | 网页信息处理装置和网页信息处理方法 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
Cao et al. | Machine learning based detection of clickbait posts in social media | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN104199845A (zh) | 基于主体模型的网上评论情感分类方法 | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
CN104915443A (zh) | 一种中文微博评价对象的抽取方法 | |
CN104346382B (zh) | 使用语言查询的文本分析系统和方法 | |
CN105447144A (zh) | 基于大数据分析技术的微博转发可视化分析方法及系统 | |
CN103984731B (zh) | 微博环境下自适应话题追踪方法和装置 | |
Arif et al. | A machine learning based approach for opinion mining on social network data | |
Zhao et al. | Towards events detection from microblog messages | |
CN103984729A (zh) | 微博信息追踪方法和微博信息追踪装置 | |
Rawashdeh et al. | Measures of semantic similarity of nodes in a social network | |
Lin et al. | Combining a segmentation-like approach and a density-based approach in content extraction | |
Yang et al. | A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree | |
JP2011070252A (ja) | 文書解析システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140813 |