CN104216875A

CN104216875A - 基于非监督关键二元词串提取的微博文本自动摘要方法

Info

Publication number: CN104216875A
Application number: CN201410502810.7A
Authority: CN
Inventors: 徐博; 吴玉芳; 张恒; 郝红卫; 刘成林
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-09-26
Filing date: 2014-09-26
Publication date: 2014-12-17
Anticipated expiration: 2034-09-26
Also published as: CN104216875B

Abstract

一种基于非监督关键二元词串提取的微博文本自动摘要方法，包括：微博预处理；二元词串标准化；基于混合TF-IDF、TextRank和LDA的关键二元词串提取；基于交集相似度和互信息策略的句子排序；基于相似度阈值的摘要句抽取；以及合理组合摘要句以生成摘要。本发明以二元词串作为最小词汇单元，而二元词串比词语具备更丰富的上下文信息，因此基于关键二元词串比基于关键词抽取的句子抗噪性更强，准确率更高。同时，提取摘要句时引入相似度阈值控制冗余，因此摘要具备更高的召回率。本方法生成的摘要准确、简洁、全面，显著提高了用户获取知识的效率和质量，节省了用户大量时间。

Description

基于非监督关键二元词串提取的微博文本自动摘要方法

技术领域

本发明涉及一种对微博等社交媒体短文本进行自动摘要的方法，尤其是一种基于非监督关键二元词串(bigram)提取的微博文本自动摘要方法。

背景技术

目前，对社交媒体平台如Twitter和新浪微博等生成的大量微博文本进行自动摘要的方法并不多。现有基于微博文本特征的摘要方法大多数都直接基于词袋模型对句子打分或排序，然后提取排名靠前的句子组合成摘要输出(例如参考文章Inouye，D.，Kalita，J.K.“Comparing twittersummarization algorithms for multiple post summaries”，Social Computing，2011，298-306)。但是，对于微博这种极不规范的类对话风格的短文本，容易引入大量噪声，从而导致摘要准确率偏低。同样，传统文档自动摘要方法(例如参考文章Mihalcea，R.and Tarau，P.，“TextRank：Bringing orderinto texts”，EMNLP，2004，404-411)没有考虑到微博面临着的严重稀疏性、不规范性和噪声，因此直接将其应用于微博自动摘要往往也不能准确概括微博内容。少数研究者以二元词串作为文本单元，将多文档自动摘要问题转化为以最大化二元词串权重为目标的整型线性规划问题(例如参考文章Li，C.，Qian，X.，Liu，Y.，“Using Supervised Bigram-based ILP forExtractive Summarization”，ACL，2013，1004-1013)。但是类似工作并没有在噪声严重的微博上展开，二元词串的效果有待进一步研究和验证。微博已成为人们及时获取信息的重要来源之一，但是，人们同时也面临着严重的信息过载问题。而微博自动摘要技术可以通过内容分析自动把多条微博浓缩成简短的摘要，从而节省用户大量时间，方便用户浏览。因此，微博自动摘要技术的研究无疑具有非常重大的现实意义。

发明内容

为了克服现有微博文本自动摘要方法对噪声不鲁棒从而导致提取的摘要准确率偏低的不足，本发明提供了一种基于非监督关键二元词串提取的微博文本自动摘要方法，以实现自动为同一个热门话题下成千上万的微博文本自动生成简洁、准确、全面的摘要，从而改善用户的浏览体验。

本发明实现上述技术目的所采用的技术方案是：

一种基于非监督关键二元词串提取的微博文本自动摘要方法，包括以下步骤：

步骤1：采用正则表达式，去除微博文本中的噪声信息，以及去掉冗余的标点和过分连续重复的词组；将每条微博切分成句子，然后分词、去停用词；

步骤2：将每个句子中相邻的两个词语组合成一个二元词串，由此每个句子由一串二元词串序列表示；

步骤3：利用基于混合TF-IDF、TextRank和/或LDA的三种非监督关键二元词串抽取技术，提取若干个能准确反映话题微博集合某个子主题的二元词串作为关键二元词串，得到一个关键二元词串集合；

步骤4：基于上述关键二元词串集合，利用交集相似度和/或互信息策略，对由一串二元词串序列表示的所述句子打分排序；

步骤5：在引进相似度阈值以防止冗余的基础上，从排名靠前的所述句子中提取M个满足相似度条件的句子作为摘要句，其中M为正整数；

步骤6：将所述提取的摘要句组合成摘要，并输出。

其中，步骤1中去除的所述噪声信息包括标签、网址、符号表情、用户名、标题、无意义后缀。

其中，所述步骤1进一步包括下列步骤：

去除微博文本中所有标签、内嵌网址、转发符号、用户名、表情符号，以及对话题理解没有意义的后缀；

去除“【】”内长度短语10个字的标题；

去掉冗余的标点和过分重复的词语和短语，标点、词语、短语构成最小的重复单元时，除语气词保留两个重复单元外，其余仅保留一个重复单元；

将长度大于30个字的微博切分成句子，然后去除长度小于4个字的句子；

对句子进行分词，得到一元词串；

去停用词。

其中，当基于混合TF-IDF进行关键二元词串提取时，所述步骤3进一步包括下列步骤：

每个二元词串的混合TF-IDF权重可由以下公式计算得出：Hybrid_TF_IDF(b_i)＝tf(b_i)*log₂(idf(b_i))，其中，tf(b_i)为二元词串b_i的TF值，其值等于b_i在整个句子集合中出现的频率，其公式化定义如下：

idf(b_i)为b_i的IDF值，其值等于句子总数比上出现了b_i的句子数目，其公式化定义如下：

将所有二元词串按照其混合TF-IDF值降序排列，然后取前N个作为关键二元词串，得到二元词串集合，其中N为预先定义的正整数。

其中，当基于TextRank进行关键二元词串提取时，所述步骤3进一步包括下列步骤：

以二元词串作为顶点，以设定为10个词的固定文本窗内两个有先后顺序的二元词串共现的次数作为边的权重，构造了一个有向带权图G(V，E)，其中V为顶点集合，E为边集合；令In(v_i)为指向顶点v_i的顶点构成的集合，Out(v_j)为顶点v_j所指向的顶点构成的集合，w_ji为顶点v_j到v_i的边的权重，则每个顶点的TextRank分值可由下式计算得出：

S (v_{i}) = (1 - d) + d * \underset{v_{j} &Element; In (v_{i})}{Σ} \frac{w_{ji}}{Σ_{v_{k} &Element; Out (v_{j})} w_{jk}} S (v_{j})

其中，d为阻尼因子，取值为0.8；按上式迭代至收敛，得到每个二元词串的TextRank值，然后按该值降序排列二元词串，取前N个最具影响力的二元词串作为关键二元词串，其中N为预先定义的正整数。

其中，当基于LDA进行关键二元词串提取时，所述步骤3进一步包括下列步骤：

通过LDA对语料建模并推理可得到主题二元词串分布矩阵对该矩阵按列求和，将得到的值作为每个二元词串在主题集合上的全局得分，具体可公式化定义如下：基于此全局得分对二元词串降序排序，取前N个二元词串构成关键二元词串集合，其中N为预先定义的正整数。

其中，当采用交集相似度策略时，所述步骤4进一步包括下列步骤：

交集相似度通过计算候选句子与关键二元词串集合中重叠的二元词串个数在整个关键二元词串集合中的占比，并乘以归一化因子得到，具体定义如下：

其中，S表示候选句，KBS表示关键二元词串集合，b_i即为共现的关键二元词串，|S|和|KBS|分别表示候选句长度和关键二元词串集合的大小，AveLen表示句子集合中所有句子的平均长度。

其中，当采用互信息策略时，所述步骤4进一步包括下列步骤：

互信息具体定义如下：

MIS (S) = \frac{1}{\max (AveLen, | S |)} \cdot Σ_{i = 1}^{| KBS |} \log \frac{p (b_{i}, S)}{p (b_{i}) p (S)}

其中，p(b_i，S)为b_i在句子S中出现的频率，p(b_i)为b_i在整个句子集合中出现的频率，p(S)为句子的长度比上句子集合的所有句子的长度，同样，该分值以交集相似度中用到的归一化因子对长度进行归一化。

其中，所述步骤5中所述基于相似度阈值的摘要句抽取的步骤具体是指：从排名最靠前的句子开始提取，当且仅当候选句与已提取的摘要句的相似度均小于某个阈值时，该候选句被选为摘要句，否则丢弃该候选句，考虑排名次之的下一个候选句，直到提取了M个摘要句为止，其中，M为抽取的句子的个数，相似度阈值sim(S_c，S_s)的计算公式如下所示：

其中，相似度采用的是候选句S_c与摘要句S_s的共现相似度，maxSim为事先设定的所允许的最大相似度阈值，设为0.5。

其中，步骤6中所述的组合成摘要句的原则按优先级如下：(1)如果摘要句包含时间信息，则按时序组合；(2)如果多条摘要句属于语料中的同一条微博，则按照原始微博中的句子顺序组合；(3)让相似度大的句子毗邻，以增强句子之间的连贯性。

通过上述技术方案可知，本发明的基于关键二元词串提取的微博文本自动摘要方法，不同于现有直接基于词袋模型对句子打分排序的方法，而是通过两步实现摘要句抽取：第一步，提取关键二元词串集合以挖掘子主题；第二步，基于关键二元词串集合提取摘要句。这种递阶式的摘要方法以二元词串作为最小词汇单元，而二元词串比词语具备更丰富的上下文信息，因此基于关键二元词串比基于关键词抽取的句子对噪声更鲁棒，准确率更高，覆盖率更全和冗余更少，从而显著提高了用户从海量信息中获取知识的质量和效率；同时，提取摘要句时引入相似度阈值控制冗余，因此摘要具备更高的召回率。本发明方法生成的摘要准确、简洁、全面，显著提高了用户获取知识的效率和质量，节省了用户大量时间。

附图说明

图1是本发明的基于非监督关键二元词串提取的微博文本自动摘要方法的总的方法流程图；

图2是本发明的基于非监督关键二元词串提取的微博文本自动摘要方法的预处理步骤的流程图；

图3是本发明的基于非监督关键二元词串提取的微博文本自动摘要方法中基于相似度阈值的摘要句抽取的方法流程图；

图4是本发明方法与其他方法在新浪微博数据集上的实验结果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合为新浪微博热门话题#北京暴雨#自动生成摘要的例子，详细描述本发明的具体实施方式。

如图1所示，本发明的基于关键二元词串提取的微博自动摘要方法主要包括以下步骤：

一、微博预处理

微博的特点是：语义稀疏、表达不规范、噪声严重等。这些特点加剧了微博摘要的难度，因此，预处理环节至关重要。本发明中采用正则表达式，去除微博文本中的标签、网址、符号表情、用户名、标题、无意义后缀等噪声信息，以及去掉冗余的标点和过分连续重复的词组。将每条微博切分成句子，然后分词、去停用词等。具体的预处理流程如图2所示：

(1)去除微博文本中所有标签(如#.*#)、内嵌网址(如http：//t.cn/[a-zA-Z]+)、转发符号(如//)和用户名(如[\\-\\w\\u4e00-\\u9fa5]+)、表情符号(如O(∩_∩)O)，以及对话题理解没有意义的后缀(如“通过xxx发布”)；

(2)去除“【】”内长度短语10个字的标题，因为过短的句子不适合用作摘要句。

(3)去掉冗余的标点(如。。。)和过分重复的词语和短语(如“哈哈哈哈哈哈哈”)。标点、词语、短语构成最小的重复单元时，除语气词外保留两个重复单元外(如“哈哈”)，其余仅保留一个重复单元。

(4)将长度大于30个字的微博切分成句子，然后去除长度小于4个字的句子。

(5)对句子进行分词，得到一元词串(unigram)，即单个词语。

(6)去停用词。

以下是热门话题#北京暴雨#中的微博预处理实例：

实例1：

预处理前：

TG舒歌：北京暴雨过后只有一种天气。。。。暴晒。。。暴晒。。。暴晒。。。无截止。。。。疯子_神经病二货僅此而已zm我在这里：http：//t.cn/zj5UkoJ

句子切分后：

北京暴雨过后只有一种天气。暴晒。无截止。

分词去停用词后：

北京暴雨过后一种天气暴晒无截止

实例2：

·预处理前：

木易nj：【萧敬腾，你能不在高考时来吗？】6月7日讯，有“雨神”之称的萧敬腾现身北京机场，雨水甚少的京城也下起了暴雨。而今天也恰逢高考第一天，因此有网友调侃：“雨神果然名不虚传！可是，你能不在高考时来吗？”

·句子切分后：

1：萧敬腾，你能不在高考时来吗？

2：6月7日讯，有“雨神”之称的萧敬腾现身北京机场，雨水甚少的京城也下起了暴雨。

3：而今天也恰逢高考第一天，因此有网友调侃：“雨神果然名不虚传！可是，你能不在高考时来吗？”

·分词去停用词后：

1：萧敬腾不在高考时

2：6月7日讯雨神称萧敬腾现身北京机场雨水甚少京城下起暴雨

3：高考第一天网友调侃雨神名不虚传不在高考时

二、二元词串标准化

在上述预处理的基础上，将每个句子中相邻的两个词语组合成一个二元词串，每个句子由一串二元词串序列表示。二元词串是一种与词语和短语相似的文本单元，但是它比词语包含的信息量更大，因为结合了上下文信息，同时它比短语简单，因为短语生成通常需要借助语义词典或复杂的语法分析、语义解析等技术。微博普遍存在两个现象：1)转发行为可能导致大量重复的微博；2)用户倾向于用相似甚至相同的词语、短语表达同一个话题中某个观点。这些重复的词语、短语和句子，形成了话题中强烈的观点，因此它们更可能成为关键词。另一方面，句子中毗邻的关键词互相增强了对方作为关键词的可能性，同时也增强了句子的重要性。因此以二元词串作为文本单元，可以捕捉这种上下文信息，降低与噪声词毗邻的词语的权重，从而抗噪性更强。

以下是热门话题#北京暴雨#中的微博二元词串标准化实例：

·预处理结果：

北京气象台发布暴雨蓝色预警强雨将来袭

·二元词串标准化结果：

北京气象台气象台发布发布暴雨暴雨蓝色蓝色预警预警强强雨雨将来将来袭

三、关键二元词串提取

利用基于混合TF-IDF、TextRank和/或LDA的三种非监督关键二元词串抽取技术，分别提取N个能准确反映话题微博集合某个子主题的二元词串作为关键二元词串，得到一个关键二元词串集合。三种技术都能较好地辅助后续摘要，同时又各具优势：混合TF-IDF简单、高效，当对速度有较高要求时采用此技术；TextRank文本图节点选择性更多，可扩展性更强，利于多种N-gram的结合，当对扩展性有较高要求时采用此技术；LDA通过多次迭代对训练语料中的语义关系挖掘更充分，当优先准确率而不计较时间的代价时采用此技术。

(1)基于混合TF-IDF的关键二元词串提取

混合Term Frequency Inverse DocumentFrequency(TF-IDF)是一种基于词频的统计特征，对传统的TF-IDF特征做了适当的修正。每个二元词串的混合TF-IDF权重可由以下公式计算得出：

Hybrid_TF_IDF(b_i)＝tf(b_i)*log₂(idf(b_i)) (1)

其中tf(b_i)为二元词串b_i的TF值，其值等于b_i在整个句子集合中出现的频率，其公式化定义如下：

将所有二元词串按照其混合TF-IDF值降序排列，然后取前N个作为关键二元词串，得到二元词串集合。

以下是热门话题#北京暴雨#基于混合TF-IDF的关键二元词串提取结果中的top-20：

[北京暴雨，局地暴雨，伴有雷电，暴雨伴有，蓝色预警，大雨局地，暴雨蓝色，发布暴雨，黄色预警，北京发布，阴阵雨，暴雨预警，夜间阴，晚高峰，阴大雨，高考第一天，北京大暴雨，预警延庆，白天阴，现大到暴雨]

(2)基于TextRank的关键二元词串提取

我们以二元词串作为顶点，以固定文本窗内(我们设为10个词)两个有先后顺序的二元词串共现的次数作为边的权重，构造了一个有向带权图G(V，E)，其中V为顶点集合，E为边集合。令In(v_i)为指向顶点v_i的顶点构成的集合，Out(v_j)为顶点v_j所指向的顶点构成的集合，w_ji为顶点v_j到v_i的边的权重，则每个顶点的TextRank分值可由下式计算得出：

S (v_{i}) = (1 - d) + d * \underset{v_{j} &Element; In (v_{i})}{Σ} \frac{w_{ji}}{Σ_{v_{k} &Element; Out (v_{j})} w_{jk}} S (v_{j}) - - - (4)

其中d为阻尼因子，通常取值为0.85。按上式迭代至收敛，得到每个二元词串的TextRank值，然后按该值降序排列二元词串，取前N个最具影响力的二元词串作为关键二元词串。

以下是热门话题#北京暴雨#基于混合TextRank的关键二元词串提取结果中的top-20：

[北京暴雨，暴雨蓝色，蓝色预警，局地暴雨，伴有雷电，发布暴雨，暴雨伴有，大雨局地，北京发布，黄色预警，暴雨预警，北京大暴雨，高考第一天，预警延庆，阴阵雨，延庆现，现大到暴雨，北京北部，晚高峰，暴雨前]

(3)基于LDA的关键二元词串提取

前两种关键二元词串提取算法均没有考虑词语之间的语义关系，而LDA是一种可以挖掘词语之间潜在的主题关联从而减少语义鸿沟的主题模型。通过LDA对语料建模并推理可得到主题-词(在本文中是主题-二元词串)分布矩阵该矩阵中每一行是主题在二元词串集合上的概率分布，每个元素在一定程度上表征了该二元词串相对于该主题的重要程度。因此，我们对该矩阵按列求和，将得到的值作为每个二元词串在主题集合上的全局得分，具体可公式化定义如下：

基于此全局得分对二元词串降序排序，取前N个二元词串构成关键二元词串集合。

以下是热门话题#北京暴雨#基于混合LDA的关键二元词串提取结果中的top-20：

[北京暴雨，局地暴雨，伴有雷电，蓝色预警，暴雨伴有，暴雨蓝色，大雨局地，发布暴雨，黄色预警，北京发布，暴雨预警，阴阵雨，高考第一天，晚高峰，北京大暴雨，夜间阴，阴大雨，预警延庆，延庆现，现大到暴雨]

四、句子排序

基于上述关键二元词串集合，利用交集相似度和互信息两种策略，对句子打分排序。两种基于关键二元词串集合的句子打分排序策略均基于直观的思想：如果一个句子包含的关键二元词串越多，且该句子长度适中，则该句子越重要。交集相似度策略具有较高的召回率，互信息策略具有较高的准确率，折中考虑召回率和准确率，交集相似度策略略胜一筹。

具体策略如下：

(1)交集相似度策略

交集相似度是一种类似于召回率的分值，它通过计算候选句子与关键二元词串集合中重叠的二元词串个数在整个关键二元词串集合中的占比得到。同时，为了惩罚过长或者过短的句子，我们对该分值进行归一化，而归一化因子取的是候选句本身的长度和整个句子集合的平均句长中较大的数值。由交集相似度计算的候选句得分可公式化定义如下：

其中S表示候选句，KBS表示关键二元词串集合，b_i即为共现的关键二元词串。|S|和|KBS|分别表示候选句长度和关键二元词串集合的大小，AveLen为句子集合中所有句子的平均长度。

以下是热门话题#北京暴雨#基于交集相似度策略对句子排序后的top-10(关键二元词串集合是由混合TF-IDF提取的100个二元词串)：

1.北京发布暴雨蓝色预警延庆等地将现大到暴雨

2.北京发布暴雨蓝色预警延庆等地将现大到暴雨

3.北京发布暴雨蓝色预警延庆等地将现大到暴雨

4.北京发布暴雨蓝色预警延庆等地将现大到暴雨

5.北京发布暴雨蓝色预警延庆等地将现大到暴雨

6.北京发布暴雨蓝色预警延庆等地将现大到暴雨

7.北京发布暴雨蓝色预警延庆等地将现大到暴雨

8.北京发布暴雨蓝色预警延庆等地将现大到暴雨

9.——北京发布暴雨蓝色预警延庆等地将现大到暴雨

10.北京发布暴雨蓝色预警，延庆等地将现大到暴雨。

(2)互信息策略

互信息通常用于度量两个变量之间的相关性，因此，我们可以用互信息度量一个句子对关键二元词串集合的包含程度。越大的互信息值意味着句子对主题核心内容的覆盖程度越高。由互信息计算候选句得分可公式化定义如下：

MIS (S) = \frac{1}{\max (AveLen, | S |)} \cdot Σ_{i = 1}^{| KBS |} \log \frac{p (b_{i}, S)}{p (b_{i}) p (S)} - - - (7)

其中p(b_i，S)为b_i在句子S中出现的频率，p(b_i)为b_i在整个句子集合中出现的频率，p(S)为句子的长度比上句子集合的所有句子的长度。我们直接将b_i和S之间的点互信息累加求和，而没有乘以它们的联合概率p(b_i，S)，是因为p(b_i，S)通常很小，乘以该概率值可能反而降低了不同二元词串之间的区分度。最后，该分值同样以交集相似度中用到的归一化因子对长度进行归一化。

以下是热门话题#北京暴雨#基于互信息策略对句子排序后的top-10(关键二元词串集合是由混合TF-IDF提取的150个二元词串)：

1.今夜雾转中到大雨局地暴雨伴有雷电。

2.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外注意防范雷电灾害。

3.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外注意防范雷电灾害

4.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外注意防范雷电灾害。

5.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外，注意防范雷电灾害。

6.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外，注意防范雷电灾害。

7.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外，注意防范雷电灾害。

8.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外，注意防范雷电灾害。

9.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外，注意防范雷电灾害。

10.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外，注意防范雷电灾害。

五、摘要句抽取

由于排序靠前的句子可能会很相似甚至一样，因此摘要句抽取是在引进相似度阈值以防止冗余的基础上，从排名靠前的句子中提取M个满足相似度条件的句子作为摘要句。图3为抽取摘要句的流程图，具体步骤如下：

(1)初始化摘要句集合，为空；初始化候选集合，为排好序的句子集合；

(2)取当前排名最靠前的句子作为候选句S_c；

(3)当摘要句集合为空时，直接将候选句添加至摘要句集合；否则依次计算候选句S_c与每个摘要句S_s的相似度：

一旦出现sim(S_c，S_s)＞maxSim的情况，直接转(5)；

(4)将候选句添加至摘要句集合；

(5)从候选集合中(顶端)移除当前候选句；

(6)若摘要句集合中的句子数少于M，则转(1)，否则转(7)；

(7)输出摘要句集合。

以下是热门话题#北京暴雨#基于上述交集相似度排序的句子集合抽取的摘要句集合：

1.北京发布暴雨蓝色预警延庆等地将现大到暴雨

2.实拍暴雨前北京大白天变“黑夜”黑夜；黑暗模式；雷雨天气；降雨；实拍

3.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外注意防范雷电灾害。

4.夜间阴有大雨，局地暴雨，伴有雷电，最低气温18℃。

5.据消息，今天下午阴有阵雨，傍晚西部山区有雷阵雨并有雾，最高气温23℃。

6.北京今夜或遭大雨晚高峰或严重拥堵

7.北京天气变化：地质灾害气象风险黄色预警中。

8.现在白了《北京发布雷电暴雨预警白昼如夜》居民楼和道路行使的车辆都开灯照亮。

9.气象部门预报，今晚将有大雨，局部地区暴雨伴有雷电。

10.北京暴雨黄色预警未来5小时局地仍有暴雨

以下是热门话题#北京暴雨#基于上述互信息排序的句子集合抽取的摘要句集合：

1.今夜雾转中到大雨局地暴雨伴有雷电。

3.北京发布暴雨蓝色预警延庆等地将现大到暴雨

4.实拍暴雨前北京大白天变“黑夜”黑夜；黑暗模式；雷雨天气；降雨；实拍

5.北京今夜或遭大雨晚高峰或严重拥堵

6.北京气象信息：今天傍晚西部山区有雷阵雨，并有雾，最高气温23℃。

7.北京天气变化：地质灾害气象风险黄色预警中。

8.北京发布雷电暴雨预警白昼如夜

9.夜间阴有大雨，局地暴雨，有雾，伴有雷电，最低气温18℃。

10.忙里偷闲一下，话说北京今晚有暴雨，萧敬腾是不是又来北京了。

六、摘要生成

将提取的摘要句按合理的逻辑顺序组合成摘要，输出给用户。组合摘要句的原则有三条，按优先级顺序具体如下：

(1)如果摘要句包含时间信息，则按时序组合；

(2)如果多条摘要句属于语料中的同一条微博，则按照原始微博中的句子顺序组合；

(3)让相似度大的句子毗邻，以增强句子之间的连贯性。

以下是热门话题#北京暴雨#对基于交集相似度排序的句子集合抽取的摘要句集合组合后生成的自动摘要：

1.北京发布暴雨蓝色预警延庆等地将现大到暴雨

2.现在白了《北京发布雷电暴雨预警白昼如夜》居民楼和道路行使的车辆都开灯照亮。

3.实拍暴雨前北京大白天变“黑夜”黑夜；黑暗模式；雷雨天气；降雨；实拍

4.夜间阴有大雨，局地暴雨，伴有雷电，最低气温18℃。

5.近期本市降雨多，请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害，另外注意防范雷电灾害。

6.据消息，今天下午阴有阵雨，傍晚西部山区有雷阵雨并有雾，最高气温23℃。

7.北京今夜或遭大雨晚高峰或严重拥堵

8.北京天气变化：地质灾害气象风险黄色预警中。

9.北京暴雨黄色预警未来5小时局地仍有暴雨

10.气象部门预报，今晚将有大雨，局部地区暴雨伴有雷电。

以下是热门话题#北京暴雨#对基于互信息排序的句子集合抽取的摘要句集合组合后生成的自动摘要：

1.今夜雾转中到大雨局地暴雨伴有雷电。

2.夜间阴有大雨，局地暴雨，有雾，伴有雷电，最低气温18℃。

4.北京发布暴雨蓝色预警延庆等地将现大到暴雨

5.北京发布雷电暴雨预警白昼如夜

6.实拍暴雨前北京大白天变“黑夜”黑夜；黑暗模式；雷雨天气；降雨；实拍

7.北京今夜或遭大雨晚高峰或严重拥堵

8.北京气象信息：今天傍晚西部山区有雷阵雨，并有雾，最高气温23℃。

9.北京天气变化：地质灾害气象风险黄色预警中。

图4为本方法与传统的TextRank摘要器和用于Twitter自动摘要的混合TF-IDF摘要器在50个新浪微博热门话题的数据集上的实验结果对比图。其中由于本发明实现了混合TF-IDF(HTI)、TextRank(TR)和LDA这三种非监督关键二元词串抽取算法，以及交集相似度(OS)和互信息(MI)这两种句子排序策略，因此本发明共六种实例化的摘要器，即HTI-OS、TR-OS、LDA-OS、HTI-MI、TR-MI和LDA-MI。图中召回率、准确率、F值三种指标是通过计算自动摘要与人工摘要的ROUGE-1值得到的。具体计算公式如下：

其中s表示句子，M(w)表示自动摘要(AS)与人工摘要(MS)匹配上的词语数目，C(w)表示词语数目。由图4结果可以看出，本发明的六种摘要器均比TextRank摘要器和混合TF-IDF摘要器效果好。在召回率、准确率和F值上，都有明显提升，尤其是准确率提升非常显著。这得益于本发明采用关键二元词串提取发现子主题，对噪声表现出更鲁棒的性能。综合考虑召回率和准确率，即从F值看，本发明的LDA-OS摘要器比混合TF-IDF摘要器提升了10.38％。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非监督关键二元词串提取的微博文本自动摘要方法，包括以下步骤：

步骤6：将所述提取的摘要句组合成摘要，并输出。

2.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法，其中步骤1中去除的所述噪声信息包括标签、网址、符号表情、用户名、标题、无意义后缀。

3.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法，其中所述步骤1进一步包括下列步骤：

去除“【】”内长度短语10个字的标题；

对句子进行分词，得到一元词串；

去停用词。

4.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法，其中当基于混合TF-IDF进行关键二元词串提取时，所述步骤3进一步包括下列步骤：

5.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法，其中当基于TextRank进行关键二元词串提取时，所述步骤3进一步包括下列步骤：

S (v_{i}) = (1 - d) + d * \underset{v_{j} &Element; In (v_{i})}{Σ} \frac{w_{ji}}{Σ_{v_{k} &Element; Out (v_{j})} w_{jk}} S (v_{j})

6.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法，其中当基于LDA进行关键二元词串提取时，所述步骤3进一步包括下列步骤：

7.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法，其中当采用交集相似度策略时，所述步骤4进一步包括下列步骤：

其中S表示候选句，KBS表示关键二元词串集合，b_i即为共现的关键二元词串，|S|和|KBS|分别表示候选句长度和关键二元词串集合的大小，AveLen表示句子集合中所有句子的平均长度。

8.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法，其中当采用互信息策略时，所述步骤4进一步包括下列步骤：

互信息具体定义如下：

MIS (S) = \frac{1}{\max (AveLen, | S |)} \cdot Σ_{i = 1}^{| KBS |} \log \frac{p (b_{i}, S)}{p (b_{i}) p (S)}

9.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法，其中所述步骤5中所述基于相似度阈值的摘要句抽取的步骤具体是指：从排名最靠前的句子开始提取，当且仅当候选句与已提取的摘要句的相似度均小于某个阈值时，该候选句被选为摘要句，否则丢弃该候选句，考虑排名次之的下一个候选句，直到提取了M个摘要句为止，其中，M为抽取的句子的个数，相似度阈值sim(S_c，S_s)的计算公式如下所示：

10.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法，其中步骤6中所述的组合成摘要句的原则按优先级如下：

(1)如果摘要句包含时间信息，则按时序组合；

(3)让相似度大的句子毗邻，以增强句子之间的连贯性。