CN105740448B

CN105740448B - 面向话题的多微博时序文摘方法

Info

Publication number: CN105740448B
Application number: CN201610075130.0A
Authority: CN
Inventors: 贺瑞芳; 于广川; 党建武; 胡清华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2019-06-25
Anticipated expiration: 2036-02-03
Also published as: CN105740448A

Abstract

本发明公开一种面向话题的多微博时序文摘方法，包括如下步骤：1)以时间点为横轴、相应时间点对应的微博更新速度为纵轴，进行面向话题的微博文本流热度信号建模；2)采用小波降噪对步骤1)的初始信号降噪，按一定时间粒度，选取其中的信号极大值点，依据对应更新速度进行排序，以检测重要时间点；3)融合微博流热度信号瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST；4)采用最大边缘相关技术选择摘要句，建立MMR微博摘要句选择模型。该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点，并在此基础上，利用一类改进的基于图的随机游走算法对多微博进行摘要，输出结果准确度高。

Description

面向话题的多微博时序文摘方法

技术领域

本发明涉及网络微博中的数据挖掘技术领域，特别是涉及一种面向话题的多微博时序文摘方法。

背景技术

随着互联网技术的飞速发展，特别是微博的出现，人们获取信息的方式发生了一定的改变。然而，由于微博庞大的用户量和开放的信息发布方式，其上的信息存在着大量的冗余，为了帮助用户精准快速的从微博上获取自己所需的信息，对微博摘要算法的研究设计具有重要的现实意义。

摘要是简明确切地记述文献重要内容的短文，其长度一般在原始文献长度的15％以下，通过这种方式来获取信息，可以在不曲解原始文献含义的前提下大大缩短获取信息所需要的时间和精力。面对互联网上海量的信息，人工完成摘要显然是不可能的，而自动摘要就显得格外重要。

然而，互联网应用方式的变化对自动摘要的方法提出了新的要求，微博网站，如Twitter的出现使得互联网上内容的形式大大改变。微博是近年出现的一种互联网平台，它允许用户在其上发布和浏览信息，并具有一些很强的社交属性功能，如转发和回复功能。

由于微博内容的简短性、高实时性、高社交性的特点，使得面向微博的自动摘要技术需要采用与传统自动摘要所不同的方法。

发明内容

为了解决上述技术问题，本发明提供一种面向话题的多微博时序文摘方法，该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点，并在此基础上，利用一类改进的基于图的随机游走算法对多微博进行摘要，输出结果准确度高。

为此，本发明的技术方案如下：

一种面向话题的多微博时序文摘方法，包括如下步骤：

1)面向话题的微博文本流热度信号建模

记某一时间点为t_i，在t_i时间点包含关键词K的微博的更新速度为

其中，表示时间段[t_i，t_i+Δt]中发布的包含关键词K的微博条数，表示[t_i，t_i+Δt]中发布的所有微博条数；

给定关键词K和时间段[t_start,t_end]，以此为基础抽取出此时间段内包含K的微博实验数据集，选定单位时长Δt，沿时间轴计算各点的微博更新速度得到一个一维向量作为初始热度信号；

2)重要时间点检测建模

采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪；按一定的时间粒度选取其中的信号极大值点，优选此处观察粒度以天为单位，依据对应更新速度的大小进行排序，并依次以其对应的时间点为重要时间点，记为imp＝{imp₁,imp₂,…,imp_l}；

3)融合微博流瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST；

该方法阐述如何在时序-社交上下文情景下建立随机游走图模型，将包含关键词K的每条微博作为图的节点，根据余弦相似度sim(d_i，d_j)计算节点d_i和d_j之间边的权值以及转移概率矩阵M，M中的每个元素m_i,j表示为：

其中，

式中，节点d_i和d_j分别表示第i，j条微博，j’表示所有和i邻接的节点；H(d_j)为微博d_j的热度，p(d_j)为微博d_j被发布的时间，p(d_j)的时间粒度要小于步骤2)中的时间粒度，即小于确定重要时间点时的时间粒度，此处，不同的粒度意味着不同的观察窗口；重要时间点检测以天为观察单位，最终选出的是某一天；这里，微博流瞬时时序特性以小时为观察单位，从更具体的微观趋势上挖掘有用的信息；a(d_j)为用户权威度；fol(d_j)表示微博d_j发布用户的粉丝数，fri(d_j)表示微博d_j发布用户的关注数；H(d_j)和A(d_j)应用Logistic函数分别将热度信号值和用户权威度分别映射到[0,1]区间内；

接着，采用图模型的迭代方式进行求解，进而得出每条微博的重要性；

4)MMR微博摘要句选择模型

采用最大边缘相关技术选择摘要句，以D＝{d₁,d₂,...,d_n}表示所有候选微博的集合，S＝{s₁,s₂,…,s_n}表示最终得出微博摘要的集合；开始选择摘要句时s为空集，将步骤3)得到的重要性最高的微博d_top从D中选出，加入S，并从D中删除；然后重复从D中选出其中重要性最高的微博d_top，比对其与S中各微博的相似度，若都小于设定的阈值，则将d_top放入S中，否则从D中重新选择d_top，如此循环得到S。

其中，步骤2)采用小波分析和小波降噪的原理去除噪声的方法为：使用HeurSure阈值的方法进行去噪，HeurSure阈值方法结合了通用阈值方法和Stein无偏风险阈值，如果用σ表示噪声信号的标准差，用N表示原始信号的长度，则用阈值计算公式可以写成：

而Stein无偏风险阈值，又称SureShrink，是一种基于对均方差进行Stein无偏似然估计的阈值选择方法；其将某一分辨率下的小波系数的平方值按非递减的顺序进行排列，得到X＝[x₁,x₂,…，x_n]，再计算其对应的风险向量R＝[r₁,r₂,…,r_n]，找出其中最小的风险元素r_b和其对应的x_b，则SureShrink的计算公式表示为：

由于在原始信号的信噪比较小时，使用Stein无偏风险阈值方法无法有效去除噪声，在这种情况下通用阈值会有较好的效果。而在信噪比较大时，通过选择ξ_v和ξ_s中较小的值作为阈值，可以取得最好的去噪效果。综合以上情况：

其中，s为某一分辨率下小波系数的平方和，即

在选定了阈值之后，选用软阈值的方法，令原始信号在某一分辨率下的小波系数为ω，利用门限阈值处理后的小波为Γ(k)，选定的阈值为ξ，软阈值函数为：

针对一维小波，小波基选取db3小波进行去噪过程。

其中，步骤3)中融合微博流瞬时时序特性建立的随机步图模型为TST，其转移概率矩阵M中的每个元素m_i,j表示为：

H(d_j)为微博d_j的热度，其应用Logistic函数将热度信号值映射到[0,1]区间内，得到归一化的瞬时时序特性值；融合社会网络用户社交权威性建立的随机步图模型为TSS，其转移概率矩阵M中的每个元素m_i,j表示为：

A(d_j)是将用户权威度a(d_j))应用Logistic函数映射到[0,1]区间内，得到归一化的用户权威度。

设计的基础微博文摘算法TS求解过程采用文本排序图模型LexRank中的迭代方式进行。如上多微博文摘算法T2ST、TST以及TSS在建立新情景下的随机步图模型转移概率矩阵后，均采用与TS相同的求解方式，进而得到新的微博排序模型。

①与经典的PageRank算法思想相似，LexRank算法是基于图的排序算法在自动摘要领域的应用，特别是在微博摘要方面展现出了良好的性能。我们将每一条微博看作一个文档，并将其转换为图中的节点。基于LexRank设计的基础微博文摘算法TS步骤描述如下：根据空间向量模型和TF-IDF方法，计算出每条微博d的特征向量d＝{w₁,w₂,...,w_n}。

②计算出每两条微博i，j之间的相似度sim(d_i,d_j)。

③将每条微博作为图的节点，根据相似度计算边的权值和转移概率矩阵M，M中每个元素m_i,j表示为：

这里，j′表示所有和i邻接的节点。

④将基于图的排序算法的计算公式应用在基于微博构造的图上：

其中，d_jump为跳转因子参数。

⑤初始化每个节点的显著度值(置为1)，迭代使用以上公式计算每个节点的重要度s_i，直到两次迭代之间重要度的变化小于设定的阈值为止。

本发明提供的方法主要针对诸如Twitter的社交媒体微博文本信息，对以人物、产品或公司等为线索的的多微博文本实现时序摘要，又称多微博时间轴摘要。重点以关键时间点的选择和时间点上的多微博摘要为研究对象，设计出了针对社交媒体微博文本行之有效的摘要算法和系统。有益效果有：

1)将小波分析、小波去噪和信号处理领域的相关知识引入到社交媒体微博事件重要时间点检测的领域中去，并通过多个真实Twitter数据集和MAP评价指标说明了其可行性。

2)在对多条微博进行摘要的过程中，改进了传统的基于图的算法——LexRank，通过微博流时序特性以及社交媒体中用户权威性信息的挖掘，将以上两个特征建模到基于图的随机游走文摘模型LexRank中，得到新的微博摘要算法模型T2ST。鉴于处理媒介的不同，从多角度考虑，改进了传统单纯依赖文本内容的文摘算法，进而改善了微博摘要的质量。

3)通过应用最大边缘相关技术，在具体微博摘要句子的选取过程中，有效地降低了微博摘要中的信息冗余度，保证摘要内容的重要性，信息丰富度和概括程度，摘要结果的ROUGE1评价指标显示了本方法的有效性。

附图说明

图1为本发明提供的面向话题的多微博时序文摘方法算法流程图；

图2为具体实施方式中关键词为人名A的微博构建的微博热度信号；

图3为图2中小波降噪后的微博热度信号；

图4为具体实施方式中四种摘要算法的ROUGE-1指标评价结果。

具体实施方式

以下结合具体实施方式对本发明的技术方案进行详细描述。

以基于人名A和ipad等四个真实Twitter数据集为例来给出本发明面向话题的多微博时序文摘方法的实施方式。整个系统算法流程如图1所示，包括微博数据集输入、热度信号建模、重要时间点选择、微博瞬时时序特性及用户权威性建模及T2ST微博排序模型的设计、基于MMR的微博摘要选取，以及摘要结果输出这6个步骤。

具体步骤如下：

1)微博数据集输入

如表1所示，系统的最初输入为分别包含人名A、ipad和microsoft话题关键词检索出的三个Twitter真实语料数据集，数据集大小分别为20.7MB、13.6MB、15.3MB，微博条数分别为221364条、143887条、172664条。

表1时间点实验数据集信息

2)热度信号建模

首先划定时间单位粒度，在这里我们结合具体时间跨度设定为以小时为单位，分别对三个数据集构建热度信号，如图2所示，以人名A数据集为例构建的微博更新速度热度信号。

3)重要时间点选择

在获得各个关键词的微博更新速度热度信号之后，以天为时间单位粒度抽取时间信号的峰值点作为重要时间点。现在已经获得一个一维热度信号向量，通过一维小波去噪方法，获得去噪后的信号，并进行峰值点的选择作为最终的重要时间点集合。如图3所示，为人名A数据集小波去噪后的热度信号图，整个热度信号曲线更加平滑，从而更利于重要时间点的选择。在评价中，由人工制作了专家时间点。我们将时间点检测看作是一类信息检索的问题，因此可以使用平均准确率MAP对算法的结果进行评价：

其中R表示系统选出的时间点和人工选出的时间点相符合的数目，Rank(i)表示时间点i在系统给出的结果中的排名值。通过平均准确率的计算可以大致判断出一个信息检索系统在检索过程中的准确程度。MAP的值越大，则表示我们系统选择重要时间点的准确率越高。

小波去噪之后的时间点MAP评价指标与去噪之前的对比结果如表2所示，MAP性能指标平均提升了19个百分点，显示了基于小波去噪重要时间点检测方法的有效性。

表2重要时间点检测的MAP实验结果

如表3所示，以人名A数据集为例，小波去噪前后的重要时间点选择结果所对应的热点事件内容对比，加入去噪算法的时间点所对应的事件显然和关键词更有主题相关性，同时过滤掉了去噪算法之前误识别的重要时间点。

表3在人名A数据集上小波去噪前后时间点和相关事件对比

4)微博瞬时时序特性、用户权威性建模及T2ST微博排序模型设计

根据上一步中的重要时间点检测结果集合，对应从原始输入数据集中提取部分时间点的微博数据进行摘要算法的验证，数据详细信息如表4所示。

表4多微博摘要实验数据集信息

微博瞬时热度信号构建：对应这4个数据集，以小时为时间粒度分别构建各个数据集的瞬时时序热度信号，并以微博的时间戳为依据赋予每个微博相应的热度信息。

用户社交权威性构建：对应这4个数据集，检索其所有微博对应的用户集，对于每个用户依据其关注、粉丝等属性信息计算用户权威度信息。

把以上两个特征分别以及同时加入TS模型中，得到微博的排序结果。

5)基于MMR的微博摘要选取

获得每个数据集对应的微博排序结果之后，在给定文摘长度的约束下，使用MMR模型对最终的微博摘要句子进行选取以消除冗余和保持句子丰富度及可读性。

对于系统输出，首先由人工制作专家摘要，采用内部评价方法进行评测。这种方法将抽取的系统摘要与专家摘要(理想摘要)进行比较，根据两者之间的相似程度评价系统摘要的质量。与理想摘要相似度越高，就表明机器摘要的质量越高。本实验中，理想摘要是由阅读过大量相关内容的人手动做出的摘要。

具体的评价方法采用国际评测中通用的ROUGE-N进行实验性能的评价，公式如下：

其中，MS表示人工摘要，match(u)表示同时在自动摘要和人工摘要中出现的单词的数目，count(u)表示人工摘要中出现的单词的数目。m和u表示的都是n-gram词汇。ROUGE-N中的N表示的是n-gram的长度。ROUGE-N实际上表示的是基于召回率的评价，也就是在两种摘要中共同出现的n-gram的比率。介于ROUGE-1指标具有很强的代表性，实验采用ROUGE-1进行评价。

分别地，针对融合微博流时序特性、融合用户权威性信息以及二者同时作用的模型输出的结果，在ROUGE-1评价指标上的实验结果与可视化对比分别如表5以及图4所示。

其中，TS、TST、TSS以及T2ST分表代表如下系统。

TS：采用传统随机游走图模型LexRank的微博文摘算法；

TST：在TS基础上，融合微博流瞬时时序特性的微博文摘算法；

TSS：在TS基础上，融合用户权威性信息的微博文摘算法；

T2ST：在TS基础上，融合TST与TSS的微博文摘算法。

从表5的实验结果可看出，通过挖掘微博流时序特性以及用户权威性，TST、TSS以及T2ST的性能均有较大的提升。为了进一步观察，图4展示了四种微博摘要算法性能的可视化对比，说明本发明提出的融合时序-社交上下文情景的微博摘要算法T2ST的有效性。

表5四种摘要算法在ROUGE-1上的实验结果

6)摘要结果输出

本发明最终微博摘要结果集，以ipad数据集TS模型与融合微博瞬时时序特性和社交信息的T2ST模型的对比结果如表6所示。与基准方法相比，我们的系统输出摘要的可读性以及信息的丰富度均有明显优势。

表6ipad为关键词的情景下T2ST和TS算法的摘要结果

特别地，在2011年3月11日以ipad为关键词的情景下，我们的算法T2ST在ROUGE-1指标上取得了较大提升，通过直观比较由两种摘要算法T2ST和TS选出的前5条微博，可以得出如下观察：

1.实际上2011年3月11日是iPad2正式发布日子，T2ST算法的结果可以很好的反映这一事件，而TS算法的结果则较为个人化，无法反映当天的热门事件；

2.TS算法会选择较短且内容较少的句子，而加入时间和社交信息之后，T2ST算法选出的微博句子包含的信息更为丰富，这也解释了前者ROUGE-1值较低的原因；

3.虽然采用了最大边缘相关技术，但TS算法给出的结果仍然存在冗余，如“Whatno ipad2？”和“No preorders for iPad2？？”内容基本一致，相比之下T2ST算法给出的每条微博的信息相对独立。

Claims

1.一种面向话题的多微博时序文摘方法，其特征在于包括如下步骤：

1)面向话题的微博文本流热度信号建模

给定关键词K和时间段[t_start，t_end]，以此为基础抽取出此时间段内包含K的微博实验数据集，选定单位时长Δt，沿时间轴计算各点的微博更新速度得到一个一维向量作为初始热度信号；

2)重要时间点检测建模

采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪；按一定的时间粒度选取其中的信号极大值点，依据对应更新速度的大小进行排序，并依次以其对应的时间点为重要时间点，记为imp＝{imp₁，imp₂，…，imp_l}；

TS：采用传统随机游走图模型LexRank的微博文摘算法；

TSS：在TS基础上，融合用户权威性信息的微博文摘算法；

T2ST：在TS基础上，融合TST与TSS的微博文摘算法；

T2ST模型将包含关键词K的每条微博作为图的节点，根据余弦相似度sim(d_i，d_j)计算代表第i，j条微博的节点d_i和d_j之间边的权值以及转移概率矩阵M，M中的每个元素m_i，j表示为：

其中，

式中：j’表示所有和i邻接的节点；H(d_j)为微博d_j的热度，P(d_j)为微博d_j被发布的时间，p(d_j)的时间粒度要小于步骤2)中的时间粒度；a(d_j)为用户权威度；fol(d_j)表示微博d_j发布用户的粉丝数，fri(d_j)表示微博d_j发布用户的关注数；H(d_j)和A(d_j)应用Logistic函数分别将热度信号值和用户权威度分别映射到[0，1]区间内；

4)MMR微博摘要句选择模型

采用最大边缘相关技术选择摘要句，以D＝{d₁，d₂，…，d_n}表示所有候选微博的集合，S＝{s₁，s₂，…，s_n，，}表示最终得出微博摘要的集合；开始选择摘要句时S为空集，将步骤3)得到的重要性最高的微博d_top从D中选出，加入S，并从D中删除；然后重复从D中选出其中重要性最高的微博d_top，比对其与S中各微博的相似度，若都小于设定的阈值，则将d_top放入s中，否则从D中重新选择d_top，如此循环得到S。

2.如权利要求1所述面向话题的多微博时序文摘方法，其特征在于：步骤3)中融合微博流瞬时时序特性建立的TST，其转移概率矩阵M中的每个元素m_i，j表示为：

H(d_j)为微博d_j的热度，其应用Logistic函数将热度信号值映射到[0，1]区间内，得到归一化的瞬时时序特性值。

3.如权利要求1所述面向话题的多微博时序文摘方法，其特征在于：步骤3)中融合社会网络用户社交权威性建立的TSS，其转移概率矩阵M中的每个元素m_i，j表示为：

A(d_j)是将用户权威度a(d_j))应用Logistic函数映射到[0，1]区间内，得到归一化的用户权威度。

4.如权利要求1中所述面向话题的多微博时序文摘方法，其特征在于：所述T2ST模型的基础为微博文摘算法TS，其求解过程采用文本排序图模型LexRank中的迭代方式进行。

5.如权利要求2中所述面向话题的多微博时序文摘方法，其特征在于：所述TST模型的基础为微博文摘算法TS，其求解过程采用文本排序图模型LexRank中的迭代方式进行。

6.如权利要求3中所述面向话题的多微博时序文摘方法，其特征在于：所述TSS模型的基础为微博文摘算法TS，其求解过程采用文本排序图模型LexRank中的迭代方式进行。

7.如权利要求5或6中所述面向话题的多微博时序文摘方法，其特征在于：所述TS的求解方法包括如下步骤：

①根据空间向量模型和TF-IDF方法，计算出每条微博d的特征向量d＝{w₁，w₂，…，w_q}；

②计算出每两条微博i，j之间的相似度sim(d_i，d_j)；

③将每条微博作为图的节点，根据相似度计算边的权值和转移概率矩阵M，M中每个元素m_ij表示为：

式中，j′表示所有和i邻接的节点；

其中，d_jump为跳转因子参数；

⑤初始化每个节点的显著度值，置为1，迭代使用以上公式计算每个节点的重要度s_i，直到两次迭代之间重要度的变化小于设定的阈值为止。

8.如权利要求1中所述面向话题的多微博时序文摘方法，其特征在于：步骤2)采用小波分析和小波降噪的原理去除噪声的方法为：使用HeurSure阈值的方法进行去噪，HeurSure阈值方法结合了通用阈值方法和Stein无偏风险阈值，用σ表示噪声信号的标准差，用N表示原始信号的长度，则用阈值计算公式写成：

而Stein无偏风险阈值将某一分辨率下的小波系数的平方值按非递减的顺序进行排列，得到X＝[x₁，x₂，…，x_n]，再计算其对应的风险向量R＝[r₁，r₂，…，r_n]，找出其中最小的风险元素r_b和其对应的x_b，则SureShrink的计算公式表示为：

在原始信号的信噪比较小时，使用通用阈值；而在信噪比较大时，通过选择ξ_v和ξ_s中较小的值作为阈值；综合以上情况：

其中，s为某一分辨率下小波系数的平方和，即

针对一维小波，小波基选取db3小波进行去噪过程。