CN102890698B - 微博话题标签自动化描述方法 - Google Patents

微博话题标签自动化描述方法 Download PDF

Info

Publication number
CN102890698B
CN102890698B CN201210209327.0A CN201210209327A CN102890698B CN 102890698 B CN102890698 B CN 102890698B CN 201210209327 A CN201210209327 A CN 201210209327A CN 102890698 B CN102890698 B CN 102890698B
Authority
CN
China
Prior art keywords
topic
topic label
similarity
label
micro
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210209327.0A
Other languages
English (en)
Other versions
CN102890698A (zh
Inventor
杜小勇
刘红岩
何军
江璇
祝锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210209327.0A priority Critical patent/CN102890698B/zh
Publication of CN102890698A publication Critical patent/CN102890698A/zh
Application granted granted Critical
Publication of CN102890698B publication Critical patent/CN102890698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种微博话题标签自动化描述方法,该方法包括:从多个微博信息中提取话题标签,保存所述话题标签与提取所述话题标签的微博信息的对应关系;获取任意两个话题标签的相似度,并根据所述相似度对全部话题标签进行聚类;根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;根据所述同一聚类的话题标签的关注点对所述同一聚类的各话题标签进行自动化描述。本发明的微博话题标签自动化描述方法,通过微博话题标签的相似度获取话题标签的关注点,进而快速、准确的对话题标签进行自动化描述。

Description

微博话题标签自动化描述方法
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种微博话题标签自动化描述方法。
背景技术
微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台。微博用户可以通过WEB、WAP(Wireless Application Protocol,无线应用协议)以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享,拥有海量用户和数据。微博的话题标签是微博信息中添加于两个“#”之间的内容,用于概括描述该微博信息的话题内容。为了让更多的微博用户了解各话题标签所对应的微博信息所讨论的内容,各微博平台的运营方会对各话题标签进行自动化描述。
目前由于话题标签的同义性、话题标签的时序性、微博信息短小并且多噪以及海量数据的处理等原因,话题标签生成自动化的描述准确性差并且效率低。
发明内容
本发明提供了一种微博话题标签自动化描述方法,以提高微博话题标签生成自动化的描述的准确性及效率。
为实现本发明的目的,本发明提供了一种微博话题标签自动化描述方法,包括:
从多个微博信息中提取话题标签,保存该话题标签与提取该话题标签的微博信息的对应关系;
获取任意两个话题标签的相似度,并根据该相似度对所有话题标签进行聚类;
根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;
根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述。
本发明的微博话题标签自动化描述方法,通过微博话题标签的相似度获取话题标签的关注点,进而快速、准确的对话题标签进行自动化描述。
附图说明
图1为本发明的微博话题标签自动化描述方法的实施例的流程图;
图2为本发明的微博话题标签自动化描述方法的又一实施例的流程图;
图3为本发明的微博话题标签自动化描述方法的又一实施例的流程图;
图4为本发明的微博话题标签自动化描述方法的又一实施例的流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步的描述。
图1为本发明的微博话题标签自动化描述方法的实施例的流程图,本实施例具体可适用于对微博话题的自动化描述,以软件和/或硬件的形式来实现,本实施例的微博话题标签自动化描述方法的具体步骤如下:
S10:从多个微博信息中提取话题标签,保存该话题标签与提取该话题标签的微博信息的对应关系。
微博信息中的话题标签通常为两个“#”之间的文字,如以下这条微博信息:“#儿童节回忆#那些年我们一起上的学(1)语文考完了,我哭了。数学考完了,我发现我哭早了。2)医生,我最近睡不着心情坏,吃不下饭,我肿么了?医生问:你今年多大了?我:15岁。医生说:你作业没做完吧……”其中的“儿童节回忆”即为该条微博信息的话题标签。通常,一条微博信息对应一个话题标签,当然也可能没有话题标签,还可能一条微博信息对应多个话题标签。本实施例中,可通过识别微博信息中字符,获取微博信息的话题标签,再保存该话题标签与该条微博信息的对应关系。
S20:获取任意两个话题标签的相似度,并根据该相似度对所有话题标签进行聚类。
通过获取话题标签之间的相似度,相似度高的话题标签可能关注的是相同的内容,再根据该相似度利用层次聚类的方法对话题标签进行聚类。整个聚类过程通过话题标签的相似度矩阵来将它们按照自底向上方法聚成一个二叉树的层次结构。首先,每一个话题标签作为一个单点类。然后,在每一次迭代中,两个相似度最高的话题标签合并成一个新类,最相似的两个类之间的相似度无法满足预设阈值的时候,停止聚类。相似度衡量使用平均相似度,即两个类中结点两两之间相似度的平均值。
S30:根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;
根据聚类的话题标签,获得每一类话题标签对应的微博信息集合,通过对该微博信息集合中微博信息数量在时间上的分布进行变换获得归一化的分布,当该分布高于预设的分布阈值时,其所对应的话题标签即为一个关注点。
S40:根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述。
判断该关注点对应微博信息中的句子和词语的重要度,该重要度高于预设重要度阈值的句子和/或词语具有摘要性质,即可作为对其所在话题标签的描述。
较佳的,步骤S20之前,还包括:
步骤A:从提取的话题标签中滤去无意义话题标签。
对获取的微博话题标签进行过滤,将没有意义的话题标签滤去,以提高对微博话题标签自动化描述的效率。
优选地,作为一种可实施方式,步骤A从提取的话题标签中滤去无意义话题标签具体包括:
步骤B:滤去对应的微博信息数量低于预设阈值的话题标签。
滤去无意义的话题标签,即滤去对应的微博信息数量低于预设阈值的话题标签。例如某个话题标签,可能相应的微博信息仅有2条,说明该话题标签的关注度极低,对这类话题标签进行自动描述的意义不大,则直接过滤掉此类话题标签。
本实施例中,通过微博话题标签的相似度对话题标签进行聚类,根据聚类的话题标签获取每一类话题标签的关注点,进而根据关注点快速、准确的对话题标签进行自动化描述。
图2为本发明的微博话题标签自动化描述方法的又一实施例的流程图,如图2所示,在前述实施例的基础上,步骤S20中获取任意两个话题标签的相似度的操作具体包括以下步骤:
S201:获取任意两个话题标签的字符串相似度、文本特征相似度、时间分布相似度。
各个话题标签之间的字符串具有相似性,而描述同一话题的话题标签本身的字符串倾向于相似。以“#MurdochPhoneHacking#”和“#MurdochScandal#”为例,两者都包含“Murdoch”这个单词。两个字符串之间的相似度可以用编辑距离来描述。给定两个话题标签hi和hj,它们的编辑距离EDij的定义为:将hi转化为hj(或者hj转化为hi)的最小次数的编辑操作,包括替换、增加、删除一个字符。则可根据
sim s ( i , j ) = 1 - ED ij - min ED max ED - min ED 获得hi和hj之间的字符串相似度。
其中,minED表示所有的话题标签之间最小的编辑距离,而maxED表示所有的话题标签之间最大的编辑距离。
话题标签对应的微博信息组成该话题标签对应的微博信息集合,以话题标签对应的微博信息集合作为其文本特征,如果文本相似度高,表明相应的两个话题标签很可能在描述同一个话题。本实施例用余弦相似度来获得话题标签之间文本特征的相似度。对于话题标签hi和hj,分别用它们的词集合Wi和Wj作为它们的文本向量。对于Wi中的某个词wik,用count(wik)表示wik在hi的微博信息集合E中出现的次数,则wik的词频wfw可根据获得;词频wfw表示词wik在话题标签hi的微博信息集合E中出现的次数与所有词在hi的微博信息集合E中出现次数总和的比值。如果一个词的wfw比较大,则说明它多次在这个话题标签对应的微博里出现,对这个话题标签的重要性就可能越大。
用contain(e,wik)表示包含wik的微博,则wik的逆微博频率itfw可根据 itf w = log Σ i | E i | Σ i | { e ∈ E i | contain ( e , w ik ) } | 获得;逆微博频率itfw表示一类词(类似“的”,“是”等),如果在每个话题标签的微博信息集合里都出现多次,则说明它对区分话题标签可能是没有作用的。逆微博频率itfw用来衡量这类词对话题标签的区分程度。
则可用wfw×itfw来表示Wi中每个wik的权重。一个词如果在摸个话题标签对应的微博信息集合中出现多次,且在其他话题标签对应的微博信息集合里出现次数少,则说明它对这个话题标签的重要程度高。
相应地,通过前述方法可得到Wj的文本向量中每个值的权重。
则可根据获得话题标签hi和hj之间的文本相似度,其中除数Wi·Wj表示Wi和Wj的权重向量的点积,被除数||Wi||||Wj||表示Wi和Wj的权重的模。
话题标签对应的微博信息数量的在一段时间上的分布代表了用户对其关注度的特征。两个话题标签对应的微博信息数量时间上的分布的相似度越高,两者也越有可能在描述同一个话题。本实施例用香农(Jensen-Shannon)相似度来描述两个话题标签时间分布的相似性。给定话题标签hi和hj,分别用Ti和Tj来表示它们对应的时间分布,其中Ti和Tj的每一维度代表相应的时间点,以天为单位。那么可根据
JS ( i , j ) = 1 - 1 2 ( Σ i T i ( i ) ln T i ( i ) M + Σ j T j ( j ) ln T j ( j ) M ) 获得话题标签hi和hj之间的时间分布相似度,其中, M = T i ( i ) + T j ( j ) 2 .
S202:根据每两个话题标签的所述字符串相似度、文本特征相似度和时间分布相似度获取该两个话题标签的相似度。
跟每两个话题标签之间的字符串相似度、文本特征相似度和时间分布相似度,则可根据
sim ( i , j ) = sim s ( i , j ) × sim t ( i , j ) × JS ( i , j ) 3 , 获得话题标签hi和hj的相似度。
本实施例中,通过话题标签的字符串相似度、文本特征相似度和时间分布相似度获取话题标签的相似度,以据此对话题标签进行聚类。通过话题标签的字符串、对应的微博信息集合以及时间分布上的相似性,可准确确定相同或者相近话题标签,以快速、准确的对话题标签进行自动化描述。
图3为本发明的微博话题标签自动化描述方法的又一实施例的流程图,如图3所示,在前述实施例的基础上,S30根据每一聚类的话题标签,获取同一聚类的话题标签的关注点具体包括以下步骤:
S301:获取同一聚类中的各话题标签对应的微博信息数量随微博发布时间变化的微博时间分布集合。
本实施例中,以S来表示同一聚类的话题标签对应的微博信息数量随微博发布时间变化的微博时间分布集合,S中的各元素分别为在预设周期内的各统计时间段发布的微博信息的数量。例如,以4天为统计周期,以4个小时为一个离散点。
S可表示为S={Si|1≤i≤T},其中T为选取的时间离散点的总数。
S302:获取微博时间分布集合的香农小波能量的归一化值。
对于一类话题标签的时间分布S来说,每一级缩放因子j(j≤N,N为要进行缩放的总次数,为预设常数)的小波能量可以表示为:
E j = Σ k | C j ( k ) | 2
而对于N+1级来说,小波能量为:
E N + 1 = Σ k | A N ( k ) | 2
其中Cj(k)和AN(k)分别为细节系数和估计系数。那么时间分布S的全部能量为:
E total = Σ j = 1 N + 1 E j
对于每一级的缩放因子j来说,可根据获得相对小波能量,其中 Σ j = 1 N + 1 ρ j = 1 .
则,{ρj}表示了在不同级的缩放因子下的小波能量分布。则可根据获取时间分布S的香农小波能量。
可根据获取时间分布S的香农小波能量的归一化值。
其中SWEmax由不同缩放因子下的能量的均匀分布计算得到的,即当 { ρ j } = { 1 N + 1 , 1 N + 1 , . . . 1 N + 1 } 时计算得到的。
S303:根据的香农小波能量的归一化值获取微博时间分布集合的归一化分布。
以天为单位,将S平均切分成(T/6)个单位。如果相邻几天的香农小波能量的归一化值有明显的变化,则说明相应的话题标签在该段时间受到了明显的用户关注。我们将S转换为其中的定义如下:
s ~ i = H * ( i - 1 , i ) - H s ( i - 1 ) H s ( i ) , H * ( i - 1 , i ) > H s ( i - 1 ) 0 , H * ( i - 1 , i ) < H s ( i - 1 )
其中H*(i-1,i)为i-1和i合并在一起的香农小波能量的归一化值,而Hs(i-1)和Hs(i)分别表示在i-1和i单位内的香农小波能量的归一化值。如果该话题标签在第i个单位受到了明显的用户关注,它的会比较高。利用上述方法进行的话题标签的描述可以解决话题标签的歧义性。
S304:根据微博时间分布集合的归一化分布获取同一聚类的话题标签的关注点。
得到的分布后,计算分布的均值μ和标准差σ,预设μ+σ为阈值。如果的值高于该阈值,则就是一个关注点。如表1,即本实施例获取的部分关注点以及相应的背景事件:
表1
本实施例中,根据聚类的话题标签,获得每一类话题标签对应的微博信息集合,通过对该微博信息集合中微博数量在时间上的分布进行变换获得归一化的分布,由于在同一时间段内一个或几个关注点可引起微博数量的剧烈变化,从而可准确获取关注点。
图4为本发明的微博话题标签自动化描述方法的又一实施例的流程图,如图4所示,在前述实施例的基础上,S40根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述包括:
S401:根据同一聚类的话题标签的关注点,获取同一聚类中的各话题标签对应微博信息中的句子集合与词语集合。
根据话题标签的关注点,获取该关注点对应微博信息中句子集合,表示为S={si|1≤i≤M};获取该关注点对应微博信息中词语集合,表示为W={wi|1≤i≤m}。
S402:获取句子集合与词语集合中任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度。
句子集合S中任一两个句子之间在语义上越相近,则它们所描述的内容越相近,则语义相近的句子所在的微博信息便极有可能讨论相同的内容。
词语集合W中的任意两个词语之间在语义上越相近,则它们所描述的内容越相近,则语义相近的词语所在的微博信息便极有可能讨论相同的内容。
句子集合S中任意句子与词语集合W中的任意词语之间在语义上越相近,则它们所描述的内容越相近,则语义相近的句子所在的微博信息便极有可能讨论相同的内容。
将S={si|1≤i≤M}中的每一个句子看成一个结点,那么句子之间的语义相似度可以用一个无向图表示。在无向图中,如果两个句子的相似度不为0,那么它们对应的结点之间有一条边,而边上的权重就是语义相似度。用U=[Uij]m×m表示句子结点之间的邻接矩阵,其中 U ij = S &RightArrow; i &CenterDot; S &RightArrow; j | | S &RightArrow; i | | &times; | | S &RightArrow; j | | , i &NotEqual; j 0 , i = j , 其中的分别表示句子Si和Sj的词向量,即以构成句子Si和Sj的每个词为分量组成的向量。
可根据 U ~ = U ij &Sigma; j = 1 m U ij , &Sigma; j = 1 m U ij &NotEqual; 0 0 , &Sigma; j = 1 m U ij = 0 获得Uij的归一化值。
将W={wj|1≤j≤m}中的每一个词语看成一个节点,那么词语之间的语义相似度可以用一个无向图表示。在无向图中,如果两个词语的语义相似度不为0,那么他们对应的节点之间有一条边,而边上的权重即是语义相似度。
根据获得词语集合W中的词语wi和wj之间的互信息(Mutual Information),互信息是一种有用的信息度量,它表明两个事件集合之间的相关性。
其中N表示词语所在的微博信息集合中的微博数量,p(wi)和p(wj)分别表示包含wi和wj的微博在微博信息集合中的比率,而p(wi,wj)指代的是同时包含wi和wj的微博在微博信息集合中的比率。
如果两个词语被用户使用的时间分布越相近,那么它们之间语义上越相似。Ti和Tj为wi和wj的时间分布,则根据 sim t ( w i , w j ) = 1 - 1 2 ( &Sigma; i T i ( i ) ln T i ( i ) M + &Sigma; j T j ( j ) ln T j ( j ) M ) 获得词语集合W中的词语wi和wj之间对应的微博信息在时间上的分布相似度,其中,
如果两个词语经常被同一群体的用户发表,那么它们之间语义上越相似。Ui和Uj为wi和wj的用户分布,根据 sim u ( w i , w j ) = 1 - 1 2 ( &Sigma; i U i ( i ) ln U i ( i ) M + &Sigma; j U j ( j ) ln U j ( j ) M ) 获得词语集合W中的词语wi和wj之间对应的微博信息的用户分布相似度,其中, M = U i + U j 2 .
对时间分布相似度simt(wi,wj),用户分布相似度simu(wi,wj)和互信息MI(wi,wj)进行加权平均获取分布相似度sim(wi,wj)。
根据 V ~ = V ij &Sigma; j = 1 n V ij , &Sigma; j = 1 n V ij &NotEqual; 0 0 , &Sigma; j = 1 n V ij = 0 获取词语集合W中的词语wi与词语wj之间的语义相似度,其中,Vij为词语节点的邻接矩阵V=[Vij]n×n中的元素, V ij = sim ( w i , w j ) , i &NotEqual; j 0 , i = j .
一个话题标签的关注点,其对应的微博为本中句子集合S={si|1≤i≤M}和词语集合W={wj|1≤j≤m},其中的句子和词语之间的语义相似度可用一个二部图来表示。
对于W中的词语wj,用count(wj)表示wj在其对应的微博信息集合E中出现的次数,则wj的词频可根据获得;词频表示词wj在其对应的微博信息集合E中出现的次数与所有词在该微博信息集合E中出现次数总和的比值。如果一个词的比较大,则说明它多次在这个话题标签对应的微博里出现,对这个话题标签的重要性就可能越大。
用contain(e,wj)表示包含wj的微博信息,则wj的逆微博频率可根据 itf w j = log &Sigma; j | E j | &Sigma; j | { e &Element; E | contain ( e , w j ) } | 获得;逆微博频率表示一类词(类似“的”,“是”等),如果在每个话题标签的微博信息集合里都出现多次,则说明它对区分话题标签可能是没有作用的。逆微博频率用来衡量这类词对话题标签的区分程度。
根据获取W中词语wj的权重。一个词如果在某个话题标签对应的微博信息集合中出现多次,且在其他话题标签对应的微博信息集合里出现次数少,则说明它对这个话题标签的重要程度高。
对于S中的第i个句子中的第k个词语wik,用count(wik)表示wik在其对应的微博信息集合E中出现的次数,则wik的词频可根据获得;词频表示词wik在其对应的微博信息集合E中出现的次数与所有词在该微博信息集合E中出现次数总和的比值。如果一个词的比较大,则说明它多次在这个话题标签对应的微博里出现,对这个话题标签的重要性就可能越大。
用contain(e,wik)表示包含wik的微博信息,则wik的逆微博频率可根据 itf w ik = log &Sigma; j | E j | &Sigma; j | { e &Element; E | contain ( e , w ik ) } | 获得;逆微博频率表示一类词(类似“的”,“是”等),如果在每个话题标签的微博信息集合里都出现多次,则说明它对区分话题标签可能是没有作用的。逆微博频率用来衡量这类词对话题标签的区分程度。
根据获取W中词语wik的权重。一个词如果在某个话题标签对应的微博信息集合中出现多次,且在其他话题标签对应的微博信息集合里出现次数少,则说明它对这个话题标签的重要程度高。
根据获得句子集合S中的句子si和词语集合W中的词语wj之间的语义相似度的权重。
则可根据 B ~ = B ij &Sigma; j = 1 n B ij , &Sigma; j = 1 n B ij &NotEqual; 0 0 , &Sigma; j = 1 n B ij = 0 B ^ = B ij &Sigma; i = 1 m B ij , &Sigma; i = 1 m B ij &NotEqual; 0 0 , &Sigma; i = 1 m B ij = 0 获取句子集合与词语集合中句子与词语之间的语义相似度,其中,Bij为句子节点与词语节点的邻接矩阵B=[Bij]m×n中的元素,Bij=imp(si,wj),为B的按行归一化值,为B的按列归一化值。
S403:根据任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度的语义相似度获取句子集合与词语集合中各句子、各词语的重要度。
将句子集合S={si|1≤i≤M}和词语集合W={wj|1≤j≤m}中的每一个句子和每一个词语看做一个节点,那么它们可以用一个连通图表示。如果一个句子可以作为微博信息集合的描述或一个词语可以作为微博信息集合的摘要,那么这个句子或词语在句子与句子之间、句子与词语之间以及词语与词语之间的两层图中应该具有较高的重要度。这个重要度体现在句子和词语在连通图的结构中具有较高的连通性。句子和词语的重要性会随着句子和词语的连通图传播,即一个句子或一个词语的重要度是由与之相连接的句子和词语的重要度以及二者相连的边的权重决定的。
分别用两个列向量u=[u(si)]m×1和v=[v(wj)]n×1来表示句子和词语的重要度。那么,句子和词语的重要度可根据 u ( s i ) &Proportional; &Sigma; j U ~ ji u ( s j ) v ( w i ) &Proportional; &Sigma; j V ~ ji v ( w j ) u ( s i ) &Proportional; &Sigma; i B ~ ij v ( w j ) v ( w i ) &Proportional; &Sigma; j B ^ ji u ( s j ) 进行迭代,则可获得迭代的矩阵为:
u ( n ) = &alpha; U ~ T u ( n - 1 ) + &beta; B ~ T v ( n - 1 ) v ( n ) = &alpha; V ~ T v ( n - 1 ) + &beta; B ~ T u ( n )
其中,u(si)为句子重要度矩阵u=[u(si)m×1中的元素,v(wj)为词语的重要度矩阵v=[v(wj)]n×1中的元素,u(n)和v(n)分别表示第n次迭代的句子的重要度向量u和词语的重要度向量v的值,α和β为预设值,且α+β=1。
比较u(n)与u(n-1)以及v(n)与v(n-1)之间的差异,如果差异小于预先设定的重要度差异阈值,表明重要度分布已经达到收敛,则获取该次迭代的句子的重要度向量u和词语的重要度向量v的值;否则,继续迭代。本实施例中每个句子与词语初始的重要度为1。
S404:确定重要度高于预设重要度阈值的句子和/或词语为话题标签的自动化描述。
当整个重要度分布收敛后,每个句子和词语的重要性趋于稳定,如果重要度高于预设的重要度阈值,表明这个句子或者词语在一定程度可以反映整个图的全貌,即具有摘要性质,可以作为话题标签基于时间点的自动化描述。如表2,列出了本实施例的部分话题标签的自动化描述。
表2
本实施例中,判断关注点对应微博信息中的句子和词语的重要度,该重要度高于预设重要度阈值的句子和/或词语具有摘要性质,从而获得对该关注点所在话题标签的准确描述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种微博话题标签自动化描述方法,其特征在于,包括:
从多个微博信息中提取话题标签,保存所述话题标签与提取所述话题标签的微博信息的对应关系;
获取任意两个话题标签的相似度,并根据所述相似度对所有话题标签进行聚类;
根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;
根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述;
所述根据每一聚类的话题标签,获取同一聚类的话题标签的关注点包括:
获取同一聚类中的各话题标签对应的微博信息数量随微博发布时间变化的微博时间分布集合,所述微博时间分布集合中的各元素分别为在预设周期内的各统计时间段发布的所述各话题标签对应的微博信息的数量;
获取所述微博时间分布集合的香农小波能量的归一化值;
根据所述的香农小波能量的归一化值获取所述微博时间分布集合的归一化分布;
根据所述微博时间分布集合的归一化分布获取所述同一聚类的话题标签的关注点。
2.根据权利要求1所述的方法,其特征在于,所述获取任意两个话题标签的相似度之前,还包括:
从所述提取的话题标签中滤去无意义话题标签。
3.根据权利要求2所述的方法,其特征在于,所述从所述提取的话题标签中滤去无意义话题标签具体包括:
滤去对应的微博信息数量低于预设阈值的话题标签。
4.根据权利要求1所述的方法,其特征在于,所述获取任意两个话题标签的相似度包括:
获取任意两个话题标签的字符串相似度、文本特征相似度、时间分布相似度;
根据每两个话题标签的所述字符串相似度、文本特征相似度和时间分布相似度获取所述两个话题标签的相似度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述包括:
根据所述同一聚类的话题标签的关注点,获取所述同一聚类中的各话题标签对应微博信息中的句子集合与词语集合;
获取所述句子集合与所述词语集合中任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度;
根据任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度的语义相似度获取所述句子集合与词语集合中各句子、各词语的重要度;
确定所述重要度高于预设重要度阈值的句子和/或词语为所述话题标签的自动化描述。
CN201210209327.0A 2012-06-20 2012-06-20 微博话题标签自动化描述方法 Active CN102890698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210209327.0A CN102890698B (zh) 2012-06-20 2012-06-20 微博话题标签自动化描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210209327.0A CN102890698B (zh) 2012-06-20 2012-06-20 微博话题标签自动化描述方法

Publications (2)

Publication Number Publication Date
CN102890698A CN102890698A (zh) 2013-01-23
CN102890698B true CN102890698B (zh) 2015-06-24

Family

ID=47534202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210209327.0A Active CN102890698B (zh) 2012-06-20 2012-06-20 微博话题标签自动化描述方法

Country Status (1)

Country Link
CN (1) CN102890698B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618216B (zh) * 2013-11-05 2019-05-17 腾讯科技(北京)有限公司 消息管理方法、设备和系统
CN104376041B (zh) * 2014-10-11 2018-05-18 北京中搜网络技术股份有限公司 一种基于微博分类的信息抽取方法
CN104506615A (zh) * 2014-12-19 2015-04-08 天脉聚源(北京)科技有限公司 一种用于无线网络应用平台的标识讨论群组的方法及装置
US10325221B2 (en) * 2015-06-02 2019-06-18 Microsoft Technology Licensing, Llc Metadata tag description generation
CN105224807B (zh) * 2015-10-14 2018-09-14 东软集团股份有限公司 病例审核规则提取方法及装置,病例审核方法及系统
CN107015983A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 一种用于智能问答中提供知识信息的方法与设备
CN106250910B (zh) * 2016-01-28 2021-01-05 西北工业大学 基于标签序列和nGrams的半结构化数据分类方法
CN107451187B (zh) * 2017-06-23 2020-05-19 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法
CN110009113B (zh) * 2018-01-02 2021-05-11 中国移动通信有限公司研究院 物联网设备自主学习方法、装置、设备、存储介质
CN108920458A (zh) * 2018-06-21 2018-11-30 武汉斗鱼网络科技有限公司 一种标签归一化方法、装置、服务器和存储介质
CN109614482B (zh) * 2018-10-23 2022-06-03 北京达佳互联信息技术有限公司 标签的处理方法、装置、电子设备及存储介质
CN109446528A (zh) * 2018-10-30 2019-03-08 南京中孚信息技术有限公司 新型诈骗手法识别方法及装置
CN110309360B (zh) * 2019-06-13 2021-09-28 山东大学 短视频标签标注方法及系统
CN113407792B (zh) * 2021-07-06 2024-03-26 亿览在线网络技术(北京)有限公司 一种基于话题的文本输入方法
CN115204318B (zh) * 2022-09-15 2022-12-02 天津汇智星源信息技术有限公司 事件自动层级分类方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN101576903A (zh) * 2009-03-03 2009-11-11 杜小勇 一种文档相似度衡量方法
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN101887459A (zh) * 2010-06-28 2010-11-17 中国科学院计算技术研究所 网络视频话题检测的方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN101576903A (zh) * 2009-03-03 2009-11-11 杜小勇 一种文档相似度衡量方法
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN101887459A (zh) * 2010-06-28 2010-11-17 中国科学院计算技术研究所 网络视频话题检测的方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
检索结果聚类中的类别标签抽取技术研究;韩中华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120515(第5期);I138-1657页 *

Also Published As

Publication number Publication date
CN102890698A (zh) 2013-01-23

Similar Documents

Publication Publication Date Title
CN102890698B (zh) 微博话题标签自动化描述方法
Choi et al. Emerging topic detection in twitter stream based on high utility pattern mining
Liang et al. Dynamic clustering of streaming short documents
CN103886067B (zh) 使用标签隐含主题进行图书推荐的方法
US10169331B2 (en) Text mining for automatically determining semantic relatedness
CN108733816B (zh) 一种微博突发事件检测方法
CN108073568A (zh) 关键词提取方法和装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN104216954A (zh) 突发事件话题状态的预测装置及预测方法
CN105069122B (zh) 一种基于用户行为的个性化推荐方法及其推荐装置
CN108280051B (zh) 一种文本数据中错误字符的检测方法、装置和设备
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
Gupta et al. PAN-LDA: A latent Dirichlet allocation based novel feature extraction model for COVID-19 data using machine learning
CN110245355B (zh) 文本话题检测方法、装置、服务器及存储介质
CN111930895A (zh) 基于mrc的文档数据检索方法、装置、设备及存储介质
CN105512300B (zh) 信息过滤方法及系统
CN112925901A (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
CN108228566A (zh) 多文档关键词自动抽取方法及系统、计算机程序
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
CN110019556A (zh) 一种话题新闻获取方法、装置及其设备
Hackenberg Demographic responses to development: sources of declining fertility in the Philippines
CN107315807B (zh) 人才推荐方法和装置
CN107273346B (zh) 从文本中对热门见解的可扩展挖掘
CN107239438B (zh) 一种文档分析方法及装置
US11822609B2 (en) Prediction of future prominence attributes in data set

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant