CN102890698B

CN102890698B - 微博话题标签自动化描述方法

Info

Publication number: CN102890698B
Application number: CN201210209327.0A
Authority: CN
Inventors: 杜小勇; 刘红岩; 何军; 江璇; 祝锐
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-06-20
Filing date: 2012-06-20
Publication date: 2015-06-24
Anticipated expiration: 2032-06-20
Also published as: CN102890698A

Abstract

本发明提供一种微博话题标签自动化描述方法，该方法包括：从多个微博信息中提取话题标签，保存所述话题标签与提取所述话题标签的微博信息的对应关系；获取任意两个话题标签的相似度，并根据所述相似度对全部话题标签进行聚类；根据每一聚类的话题标签，获取同一聚类的话题标签的关注点；根据所述同一聚类的话题标签的关注点对所述同一聚类的各话题标签进行自动化描述。本发明的微博话题标签自动化描述方法，通过微博话题标签的相似度获取话题标签的关注点，进而快速、准确的对话题标签进行自动化描述。

Description

微博话题标签自动化描述方法

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种微博话题标签自动化描述方法。

背景技术

微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台。微博用户可以通过WEB、WAP（Wireless Application Protocol，无线应用协议）以及各种客户端组建个人社区，以140字左右的文字更新信息，并实现即时分享，拥有海量用户和数据。微博的话题标签是微博信息中添加于两个“#”之间的内容，用于概括描述该微博信息的话题内容。为了让更多的微博用户了解各话题标签所对应的微博信息所讨论的内容，各微博平台的运营方会对各话题标签进行自动化描述。

目前由于话题标签的同义性、话题标签的时序性、微博信息短小并且多噪以及海量数据的处理等原因，话题标签生成自动化的描述准确性差并且效率低。

发明内容

本发明提供了一种微博话题标签自动化描述方法，以提高微博话题标签生成自动化的描述的准确性及效率。

为实现本发明的目的，本发明提供了一种微博话题标签自动化描述方法，包括：

从多个微博信息中提取话题标签，保存该话题标签与提取该话题标签的微博信息的对应关系；

获取任意两个话题标签的相似度，并根据该相似度对所有话题标签进行聚类；

根据每一聚类的话题标签，获取同一聚类的话题标签的关注点；

根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述。

本发明的微博话题标签自动化描述方法，通过微博话题标签的相似度获取话题标签的关注点，进而快速、准确的对话题标签进行自动化描述。

附图说明

图1为本发明的微博话题标签自动化描述方法的实施例的流程图；

图2为本发明的微博话题标签自动化描述方法的又一实施例的流程图；

图3为本发明的微博话题标签自动化描述方法的又一实施例的流程图；

图4为本发明的微博话题标签自动化描述方法的又一实施例的流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步的描述。

图1为本发明的微博话题标签自动化描述方法的实施例的流程图，本实施例具体可适用于对微博话题的自动化描述，以软件和/或硬件的形式来实现，本实施例的微博话题标签自动化描述方法的具体步骤如下：

S10：从多个微博信息中提取话题标签，保存该话题标签与提取该话题标签的微博信息的对应关系。

微博信息中的话题标签通常为两个“#”之间的文字，如以下这条微博信息：“#儿童节回忆#那些年我们一起上的学（1）语文考完了，我哭了。数学考完了，我发现我哭早了。2）医生，我最近睡不着心情坏，吃不下饭，我肿么了?医生问：你今年多大了?我：15岁。医生说：你作业没做完吧……”其中的“儿童节回忆”即为该条微博信息的话题标签。通常，一条微博信息对应一个话题标签，当然也可能没有话题标签，还可能一条微博信息对应多个话题标签。本实施例中，可通过识别微博信息中字符，获取微博信息的话题标签，再保存该话题标签与该条微博信息的对应关系。

S20：获取任意两个话题标签的相似度，并根据该相似度对所有话题标签进行聚类。

通过获取话题标签之间的相似度，相似度高的话题标签可能关注的是相同的内容，再根据该相似度利用层次聚类的方法对话题标签进行聚类。整个聚类过程通过话题标签的相似度矩阵来将它们按照自底向上方法聚成一个二叉树的层次结构。首先，每一个话题标签作为一个单点类。然后，在每一次迭代中，两个相似度最高的话题标签合并成一个新类，最相似的两个类之间的相似度无法满足预设阈值的时候，停止聚类。相似度衡量使用平均相似度，即两个类中结点两两之间相似度的平均值。

S30：根据每一聚类的话题标签，获取同一聚类的话题标签的关注点；

根据聚类的话题标签，获得每一类话题标签对应的微博信息集合，通过对该微博信息集合中微博信息数量在时间上的分布进行变换获得归一化的分布，当该分布高于预设的分布阈值时，其所对应的话题标签即为一个关注点。

S40：根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述。

判断该关注点对应微博信息中的句子和词语的重要度，该重要度高于预设重要度阈值的句子和/或词语具有摘要性质，即可作为对其所在话题标签的描述。

较佳的，步骤S20之前，还包括：

步骤A：从提取的话题标签中滤去无意义话题标签。

对获取的微博话题标签进行过滤，将没有意义的话题标签滤去，以提高对微博话题标签自动化描述的效率。

优选地，作为一种可实施方式，步骤A从提取的话题标签中滤去无意义话题标签具体包括：

步骤B：滤去对应的微博信息数量低于预设阈值的话题标签。

滤去无意义的话题标签，即滤去对应的微博信息数量低于预设阈值的话题标签。例如某个话题标签，可能相应的微博信息仅有2条，说明该话题标签的关注度极低，对这类话题标签进行自动描述的意义不大，则直接过滤掉此类话题标签。

本实施例中，通过微博话题标签的相似度对话题标签进行聚类，根据聚类的话题标签获取每一类话题标签的关注点，进而根据关注点快速、准确的对话题标签进行自动化描述。

图2为本发明的微博话题标签自动化描述方法的又一实施例的流程图，如图2所示，在前述实施例的基础上，步骤S20中获取任意两个话题标签的相似度的操作具体包括以下步骤：

S201：获取任意两个话题标签的字符串相似度、文本特征相似度、时间分布相似度。

各个话题标签之间的字符串具有相似性，而描述同一话题的话题标签本身的字符串倾向于相似。以“#MurdochPhoneHacking#”和“#MurdochScandal#”为例，两者都包含“Murdoch”这个单词。两个字符串之间的相似度可以用编辑距离来描述。给定两个话题标签h_i和h_j，它们的编辑距离ED_ij的定义为：将h_i转化为h_j（或者h_j转化为h_i）的最小次数的编辑操作，包括替换、增加、删除一个字符。则可根据

{sim}_{s} (i, j) = 1 - \frac{{ED}_{ij} - \min_{ED}}{\max_{ED} - \min_{ED}}

获得h_i和h_j之间的字符串相似度。

其中，min_ED表示所有的话题标签之间最小的编辑距离，而max_ED表示所有的话题标签之间最大的编辑距离。

话题标签对应的微博信息组成该话题标签对应的微博信息集合，以话题标签对应的微博信息集合作为其文本特征，如果文本相似度高，表明相应的两个话题标签很可能在描述同一个话题。本实施例用余弦相似度来获得话题标签之间文本特征的相似度。对于话题标签h_i和h_j，分别用它们的词集合W_i和W_j作为它们的文本向量。对于W_i中的某个词w_ik，用count(w_ik)表示w_ik在h_i的微博信息集合E中出现的次数，则w_ik的词频w_fw可根据获得；词频wf_w表示词w_ik在话题标签h_i的微博信息集合E中出现的次数与所有词在h_i的微博信息集合E中出现次数总和的比值。如果一个词的wf_w比较大，则说明它多次在这个话题标签对应的微博里出现，对这个话题标签的重要性就可能越大。

用contain(e,w_ik)表示包含w_ik的微博，则w_ik的逆微博频率itf_w可根据

{itf}_{w} = \log \frac{Σ_{i} | E_{i} |}{Σ_{i} | {e &Element; E_{i} | contain (e, w_{ik})} |}

获得；逆微博频率itf_w表示一类词（类似“的”，“是”等），如果在每个话题标签的微博信息集合里都出现多次，则说明它对区分话题标签可能是没有作用的。逆微博频率itf_w用来衡量这类词对话题标签的区分程度。

则可用wf_w×itf_w来表示W_i中每个w_ik的权重。一个词如果在摸个话题标签对应的微博信息集合中出现多次，且在其他话题标签对应的微博信息集合里出现次数少，则说明它对这个话题标签的重要程度高。

相应地，通过前述方法可得到W_j的文本向量中每个值的权重。

则可根据获得话题标签h_i和h_j之间的文本相似度，其中除数W_i·W_j表示W_i和W_j的权重向量的点积，被除数||W_i||||W_j||表示W_i和W_j的权重的模。

话题标签对应的微博信息数量的在一段时间上的分布代表了用户对其关注度的特征。两个话题标签对应的微博信息数量时间上的分布的相似度越高，两者也越有可能在描述同一个话题。本实施例用香农（Jensen-Shannon）相似度来描述两个话题标签时间分布的相似性。给定话题标签h_i和h_j，分别用T_i和T_j来表示它们对应的时间分布，其中T_i和T_j的每一维度代表相应的时间点，以天为单位。那么可根据

JS (i, j) = 1 - \frac{1}{2} (\underset{i}{Σ} T_{i} (i) \ln \frac{T_{i} (i)}{M} + \underset{j}{Σ} T_{j} (j) \ln \frac{T_{j} (j)}{M})

获得话题标签h_i和h_j之间的时间分布相似度，其中，

M = \frac{T_{i} (i) + T_{j} (j)}{2} .

S202：根据每两个话题标签的所述字符串相似度、文本特征相似度和时间分布相似度获取该两个话题标签的相似度。

跟每两个话题标签之间的字符串相似度、文本特征相似度和时间分布相似度，则可根据

sim (i, j) = \sqrt[3]{{sim}_{s} (i, j) \times {sim}_{t} (i, j) \times JS (i, j)},

获得话题标签h_i和h_j的相似度。

本实施例中，通过话题标签的字符串相似度、文本特征相似度和时间分布相似度获取话题标签的相似度，以据此对话题标签进行聚类。通过话题标签的字符串、对应的微博信息集合以及时间分布上的相似性，可准确确定相同或者相近话题标签，以快速、准确的对话题标签进行自动化描述。

图3为本发明的微博话题标签自动化描述方法的又一实施例的流程图，如图3所示，在前述实施例的基础上，S30根据每一聚类的话题标签，获取同一聚类的话题标签的关注点具体包括以下步骤：

S301：获取同一聚类中的各话题标签对应的微博信息数量随微博发布时间变化的微博时间分布集合。

本实施例中，以S来表示同一聚类的话题标签对应的微博信息数量随微博发布时间变化的微博时间分布集合，S中的各元素分别为在预设周期内的各统计时间段发布的微博信息的数量。例如，以4天为统计周期，以4个小时为一个离散点。

S可表示为S={S_i|1≤i≤T}，其中T为选取的时间离散点的总数。

S302：获取微博时间分布集合的香农小波能量的归一化值。

对于一类话题标签的时间分布S来说，每一级缩放因子j（j≤N，N为要进行缩放的总次数，为预设常数）的小波能量可以表示为：

E_{j} = \underset{k}{Σ} {| C_{j} (k) |}^{2}

而对于N+1级来说，小波能量为：

E_{N + 1} = \underset{k}{Σ} {| A_{N} (k) |}^{2}

其中C_j(k)和A_N(k)分别为细节系数和估计系数。那么时间分布S的全部能量为：

E_{total} = Σ_{j = 1}^{N + 1} E_{j}

对于每一级的缩放因子j来说，可根据获得相对小波能量，其中

Σ_{j = 1}^{N + 1} ρ_{j} = 1 .

则，{ρ_j}表示了在不同级的缩放因子下的小波能量分布。则可根据获取时间分布S的香农小波能量。

可根据获取时间分布S的香农小波能量的归一化值。

其中SWE_max由不同缩放因子下的能量的均匀分布计算得到的，即当

{ρ_{j}} = {\frac{1}{N + 1}, \frac{1}{N + 1}, . . . \frac{1}{N + 1}}

时计算得到的。

S303：根据的香农小波能量的归一化值获取微博时间分布集合的归一化分布。

以天为单位，将S平均切分成（T/6）个单位。如果相邻几天的香农小波能量的归一化值有明显的变化，则说明相应的话题标签在该段时间受到了明显的用户关注。我们将S转换为其中的定义如下：

{\tilde{s}}_{i} = \{\begin{matrix} \frac{H^{*} (i - 1, i) - H_{s} (i - 1)}{H_{s} (i)}, H^{*} (i - 1, i) > H_{s} (i - 1) \\ 0, H^{*} (i - 1, i) < H_{s} (i - 1) \end{matrix}

其中H^*(i-1,i)为i-1和i合并在一起的香农小波能量的归一化值，而H_s(i-1)和H_s(i)分别表示在i-1和i单位内的香农小波能量的归一化值。如果该话题标签在第i个单位受到了明显的用户关注，它的会比较高。利用上述方法进行的话题标签的描述可以解决话题标签的歧义性。

S304：根据微博时间分布集合的归一化分布获取同一聚类的话题标签的关注点。

得到的分布后，计算分布的均值μ和标准差σ，预设μ+σ为阈值。如果的值高于该阈值，则就是一个关注点。如表1，即本实施例获取的部分关注点以及相应的背景事件：

表1

本实施例中，根据聚类的话题标签，获得每一类话题标签对应的微博信息集合，通过对该微博信息集合中微博数量在时间上的分布进行变换获得归一化的分布，由于在同一时间段内一个或几个关注点可引起微博数量的剧烈变化，从而可准确获取关注点。

图4为本发明的微博话题标签自动化描述方法的又一实施例的流程图，如图4所示，在前述实施例的基础上，S40根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述包括：

S401：根据同一聚类的话题标签的关注点，获取同一聚类中的各话题标签对应微博信息中的句子集合与词语集合。

根据话题标签的关注点，获取该关注点对应微博信息中句子集合，表示为S={s_i|1≤i≤M}；获取该关注点对应微博信息中词语集合，表示为W={w_i|1≤i≤m}。

S402：获取句子集合与词语集合中任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度。

句子集合S中任一两个句子之间在语义上越相近，则它们所描述的内容越相近，则语义相近的句子所在的微博信息便极有可能讨论相同的内容。

词语集合W中的任意两个词语之间在语义上越相近，则它们所描述的内容越相近，则语义相近的词语所在的微博信息便极有可能讨论相同的内容。

句子集合S中任意句子与词语集合W中的任意词语之间在语义上越相近，则它们所描述的内容越相近，则语义相近的句子所在的微博信息便极有可能讨论相同的内容。

将S={s_i|1≤i≤M}中的每一个句子看成一个结点，那么句子之间的语义相似度可以用一个无向图表示。在无向图中，如果两个句子的相似度不为0，那么它们对应的结点之间有一条边，而边上的权重就是语义相似度。用U=[U_ij]_m×m表示句子结点之间的邻接矩阵，其中

U_{ij} = \{\begin{matrix} \frac{{\overset{&RightArrow;}{S}}_{i} \cdot {\overset{&RightArrow;}{S}}_{j}}{| | {\overset{&RightArrow;}{S}}_{i} | | \times | | {\overset{&RightArrow;}{S}}_{j} | |}, i &NotEqual; j \\ 0, i = j \end{matrix},

其中的和分别表示句子S_i和S_j的词向量，即以构成句子S_i和S_j的每个词为分量组成的向量。

可根据

\tilde{U} = \{\begin{matrix} \frac{U_{ij}}{Σ_{j = 1}^{m} U_{ij}}, Σ_{j = 1}^{m} U_{ij} &NotEqual; 0 \\ 0, Σ_{j = 1}^{m} U_{ij} = 0 \end{matrix}

获得U_ij的归一化值。

将W={w_j|1≤j≤m}中的每一个词语看成一个节点，那么词语之间的语义相似度可以用一个无向图表示。在无向图中，如果两个词语的语义相似度不为0，那么他们对应的节点之间有一条边，而边上的权重即是语义相似度。

根据获得词语集合W中的词语w_i和w_j之间的互信息（Mutual Information），互信息是一种有用的信息度量，它表明两个事件集合之间的相关性。

其中N表示词语所在的微博信息集合中的微博数量，p(w_i)和p(w_j)分别表示包含w_i和w_j的微博在微博信息集合中的比率，而p(w_i,w_j)指代的是同时包含w_i和w_j的微博在微博信息集合中的比率。

如果两个词语被用户使用的时间分布越相近，那么它们之间语义上越相似。T_i和T_j为w_i和w_j的时间分布，则根据

{sim}_{t} (w_{i}, w_{j}) = 1 - \frac{1}{2} (\underset{i}{Σ} T_{i} (i) \ln \frac{T_{i} (i)}{M} + \underset{j}{Σ} T_{j} (j) \ln \frac{T_{j} (j)}{M})

获得词语集合W中的词语w_i和w_j之间对应的微博信息在时间上的分布相似度，其中，

如果两个词语经常被同一群体的用户发表，那么它们之间语义上越相似。U_i和U_j为w_i和w_j的用户分布，根据

{sim}_{u} (w_{i}, w_{j}) = 1 - \frac{1}{2} (\underset{i}{Σ} U_{i} (i) \ln \frac{U_{i} (i)}{M} + \underset{j}{Σ} U_{j} (j) \ln \frac{U_{j} (j)}{M})

获得词语集合W中的词语w_i和w_j之间对应的微博信息的用户分布相似度，其中，

M = \frac{U_{i} + U_{j}}{2} .

对时间分布相似度sim_t(w_i,w_j)，用户分布相似度sim_u(w_i,w_j)和互信息MI(w_i,w_j)进行加权平均获取分布相似度sim(w_i,w_j)。

根据

\tilde{V} = \{\begin{matrix} \frac{V_{ij}}{Σ_{j = 1}^{n} V_{ij}}, Σ_{j = 1}^{n} V_{ij} &NotEqual; 0 \\ 0, Σ_{j = 1}^{n} V_{ij} = 0 \end{matrix}

获取词语集合W中的词语w_i与词语w_j之间的语义相似度，其中，V_ij为词语节点的邻接矩阵V=[V_ij]_n×n中的元素，

V_{ij} = \{\begin{matrix} sim (w_{i}, w_{j}), i &NotEqual; j \\ 0, i = j \end{matrix} .

一个话题标签的关注点，其对应的微博为本中句子集合S={s_i|1≤i≤M}和词语集合W={w_j|1≤j≤m}，其中的句子和词语之间的语义相似度可用一个二部图来表示。

对于W中的词语w_j，用count(w_j)表示w_j在其对应的微博信息集合E中出现的次数，则w_j的词频可根据获得；词频表示词w_j在其对应的微博信息集合E中出现的次数与所有词在该微博信息集合E中出现次数总和的比值。如果一个词的比较大，则说明它多次在这个话题标签对应的微博里出现，对这个话题标签的重要性就可能越大。

用contain(e,w_j)表示包含w_j的微博信息，则w_j的逆微博频率可根据

{itf}_{w_{j}} = \log \frac{Σ_{j} | E_{j} |}{Σ_{j} | {e &Element; E | contain (e, w_{j})} |}

获得；逆微博频率表示一类词（类似“的”，“是”等），如果在每个话题标签的微博信息集合里都出现多次，则说明它对区分话题标签可能是没有作用的。逆微博频率用来衡量这类词对话题标签的区分程度。

根据获取W中词语w_j的权重。一个词如果在某个话题标签对应的微博信息集合中出现多次，且在其他话题标签对应的微博信息集合里出现次数少，则说明它对这个话题标签的重要程度高。

对于S中的第i个句子中的第k个词语w_ik，用count(w_ik)表示w_ik在其对应的微博信息集合E中出现的次数，则w_ik的词频可根据获得；词频表示词w_ik在其对应的微博信息集合E中出现的次数与所有词在该微博信息集合E中出现次数总和的比值。如果一个词的比较大，则说明它多次在这个话题标签对应的微博里出现，对这个话题标签的重要性就可能越大。

用contain(e,w_ik)表示包含w_ik的微博信息，则w_ik的逆微博频率可根据

{itf}_{w_{ik}} = \log \frac{Σ_{j} | E_{j} |}{Σ_{j} | {e &Element; E | contain (e, w_{ik})} |}

根据获取W中词语w_ik的权重。一个词如果在某个话题标签对应的微博信息集合中出现多次，且在其他话题标签对应的微博信息集合里出现次数少，则说明它对这个话题标签的重要程度高。

根据获得句子集合S中的句子s_i和词语集合W中的词语w_j之间的语义相似度的权重。

则可根据

\tilde{B} = \{\begin{matrix} \frac{B_{ij}}{Σ_{j = 1}^{n} B_{ij}}, Σ_{j = 1}^{n} B_{ij} &NotEqual; 0 \\ 0, Σ_{j = 1}^{n} B_{ij} = 0 \end{matrix}

和

\hat{B} = \{\begin{matrix} \frac{B_{ij}}{Σ_{i = 1}^{m} B_{ij}}, Σ_{i = 1}^{m} B_{ij} &NotEqual; 0 \\ 0, Σ_{i = 1}^{m} B_{ij} = 0 \end{matrix}

获取句子集合与词语集合中句子与词语之间的语义相似度，其中，B_ij为句子节点与词语节点的邻接矩阵B=[B_ij]_m×n中的元素，B_ij=imp(s_i,w_j)，为B的按行归一化值，为B的按列归一化值。

S403：根据任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度的语义相似度获取句子集合与词语集合中各句子、各词语的重要度。

将句子集合S={s_i|1≤i≤M}和词语集合W={w_j|1≤j≤m}中的每一个句子和每一个词语看做一个节点，那么它们可以用一个连通图表示。如果一个句子可以作为微博信息集合的描述或一个词语可以作为微博信息集合的摘要，那么这个句子或词语在句子与句子之间、句子与词语之间以及词语与词语之间的两层图中应该具有较高的重要度。这个重要度体现在句子和词语在连通图的结构中具有较高的连通性。句子和词语的重要性会随着句子和词语的连通图传播，即一个句子或一个词语的重要度是由与之相连接的句子和词语的重要度以及二者相连的边的权重决定的。

分别用两个列向量u=[u(s_i)]_m×1和v=[v(w_j)]_n×1来表示句子和词语的重要度。那么，句子和词语的重要度可根据

\{\begin{matrix} u (s_{i}) &Proportional; \underset{j}{Σ} {\tilde{U}}_{ji} u (s_{j}) \\ v (w_{i}) &Proportional; \underset{j}{Σ} {\tilde{V}}_{ji} v (w_{j}) \\ u (s_{i}) &Proportional; Σ_{i} {\tilde{B}}_{ij} v (w_{j}) \\ v (w_{i}) &Proportional; Σ_{j} {\hat{B}}_{ji} u (s_{j}) \end{matrix}

进行迭代，则可获得迭代的矩阵为：

\{\begin{matrix} u^{(n)} = α {\tilde{U}}^{T} u^{(n - 1)} + β {\tilde{B}}^{T} v^{(n - 1)} \\ v^{(n)} = α {\tilde{V}}^{T} v^{(n - 1)} + β {\tilde{B}}^{T} u^{(n)} \end{matrix}

其中，u(s_i)为句子重要度矩阵u=[u(s_i)_m×1中的元素，v(w_j)为词语的重要度矩阵v=[v(w_j)]_n×1中的元素，u⁽ⁿ⁾和v⁽ⁿ⁾分别表示第n次迭代的句子的重要度向量u和词语的重要度向量v的值，α和β为预设值，且α+β=1。

比较u⁽ⁿ⁾与u^(n-1)以及v⁽ⁿ⁾与v^(n-1)之间的差异，如果差异小于预先设定的重要度差异阈值，表明重要度分布已经达到收敛，则获取该次迭代的句子的重要度向量u和词语的重要度向量v的值；否则，继续迭代。本实施例中每个句子与词语初始的重要度为1。

S404：确定重要度高于预设重要度阈值的句子和/或词语为话题标签的自动化描述。

当整个重要度分布收敛后，每个句子和词语的重要性趋于稳定，如果重要度高于预设的重要度阈值，表明这个句子或者词语在一定程度可以反映整个图的全貌，即具有摘要性质，可以作为话题标签基于时间点的自动化描述。如表2，列出了本实施例的部分话题标签的自动化描述。

表2

本实施例中，判断关注点对应微博信息中的句子和词语的重要度，该重要度高于预设重要度阈值的句子和/或词语具有摘要性质，从而获得对该关注点所在话题标签的准确描述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种微博话题标签自动化描述方法，其特征在于，包括：

从多个微博信息中提取话题标签，保存所述话题标签与提取所述话题标签的微博信息的对应关系；

获取任意两个话题标签的相似度，并根据所述相似度对所有话题标签进行聚类；

根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述；

所述根据每一聚类的话题标签，获取同一聚类的话题标签的关注点包括：

获取同一聚类中的各话题标签对应的微博信息数量随微博发布时间变化的微博时间分布集合，所述微博时间分布集合中的各元素分别为在预设周期内的各统计时间段发布的所述各话题标签对应的微博信息的数量；

获取所述微博时间分布集合的香农小波能量的归一化值；

根据所述的香农小波能量的归一化值获取所述微博时间分布集合的归一化分布；

根据所述微博时间分布集合的归一化分布获取所述同一聚类的话题标签的关注点。

2.根据权利要求1所述的方法，其特征在于，所述获取任意两个话题标签的相似度之前，还包括：

从所述提取的话题标签中滤去无意义话题标签。

3.根据权利要求2所述的方法，其特征在于，所述从所述提取的话题标签中滤去无意义话题标签具体包括：

滤去对应的微博信息数量低于预设阈值的话题标签。

4.根据权利要求1所述的方法，其特征在于，所述获取任意两个话题标签的相似度包括：

获取任意两个话题标签的字符串相似度、文本特征相似度、时间分布相似度；

根据每两个话题标签的所述字符串相似度、文本特征相似度和时间分布相似度获取所述两个话题标签的相似度。

5.根据权利要求1所述的方法，其特征在于，所述根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述包括：

根据所述同一聚类的话题标签的关注点，获取所述同一聚类中的各话题标签对应微博信息中的句子集合与词语集合；

获取所述句子集合与所述词语集合中任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度；

根据任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度的语义相似度获取所述句子集合与词语集合中各句子、各词语的重要度；

确定所述重要度高于预设重要度阈值的句子和/或词语为所述话题标签的自动化描述。