CN106874469A

CN106874469A - 一种新闻综述生成方法与系统

Info

Publication number: CN106874469A
Application number: CN201710082757.3A
Authority: CN
Inventors: 张建敏; 万小军
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-02-16
Filing date: 2017-02-16
Publication date: 2017-06-20
Anticipated expiration: 2037-02-16
Also published as: CN106874469B

Abstract

本发明公开了一种新颖的基于段落进行新闻综述生成的方法与系统，涉及语言文字处理领域。目前有大量关于同一个事件的新闻报道，且新闻报道的综述都是由人工编辑的，经济成本高，且很难保证时效性。本发明提出基于段落重新分割，排序，选择并融合的新闻综述生成方法与系统，有效提高新闻综述的时效性，降低编辑成本。其包括如下步骤：针对原始新闻材料的段落重新分割构建；对新闻材料重新构建出的段落进行重要性预测；根据段落重要性进行段落选择，融合；对选择出来的段落进行重排序，构成新闻综述。本发明适用于介绍同一事件的大量新闻报道。

Description

一种新闻综述生成方法与系统

技术领域

本发明涉及语言文字处理领域，特别涉及一种新闻综述生成方法与系统。

背景技术

目前有很多关于同一事件的新闻报道，并且新闻摘要可以帮助读者更好地了解新闻内容。但是传统的新闻摘要多局限在100-150字左右，内容覆盖面小，不可很好得使读者多方面全面的了解事件发展过程，综述生成应运而生。

与综述生成的方法最相近的是传统的多文档摘要方法。多文档摘要方法多基于句子进行抽取，基于句子的方法在面对生成文章长度较长时会出现句子过多，不容易进行排序等问题。经典的多文档摘要方法包括：基于图的排序方法，例如Erkan和Radev在2004年提出的LexRank方法，Mihalcea和Tarau在2004年提出的TextRank方法；You Ouyang等人在2007年提出的基于句子分类回归的模型；Gillick和Favre在2009年提出的基于整数线性规划的方法等。

除了多文档摘要的方法，相关的工作还有Sauper和Barzilay提出的自动生成结构完整的维基百科的工作。

发明内容

本发明提供一种新闻综述生成方法，该方法通过对面向同一事件的新闻的段落重新分割，重要性排序，选择并且合并以及最后的重新排序，最终基于重组得到的新闻段落构建新闻综述。该方法方便快捷，可行性强，效果明显好于原先的多文档摘要方法所得到的新闻综述，有效节省人力物力。

本发明采用的技术方案包括：一种基于段落重新分割，重要性预测，选择融合和重新排序的新闻综述生成方法，包括如下步骤：

(1)针对原始新闻材料的段落重新分割构建；

(2)对新闻材料重新构建出的段落进行重要性预测；

(3)根据段落重要性进行段落选择，融合；

(4)对选择出来的段落进行重排序，构成新闻综述。

进一步，针对原始新闻材料的段落重新分割构建的具体做法包括四个部分：对新闻材料进行分词(预处理)，计算句子间隔的语义学分数，计算句子间隔的“深度”分数，最后对新闻进行划分。

第一步：原始新闻材料进行分词等预处理。如果是英文的语料需要将单词都转化为小写字母，然后进行词干化，即将经过各种人称及时态变化的单词转化为其词干，如果是中文语料那么只需要进行分词。

第二步：计算句子间隔的语义学分数。由于句子是表达语义的较完整的单位，所以段落重新分割以句子的结束作为潜在的分割点是合理的。句子间隔的语义学分数来表明句子间隔前后两个单元的语义学相似度。而由于文章原有句子的长短十分不统一，不可以直接作为评价语义学相似度的单元，所以使用每个句子间隔前后的100个词语组成的文本单元作为计算语义相似度的内容。

对于每一个语义间隔，其前后的文本单位分别用b₁和b₂表示，那么句子间隔的语义学相似度可以用如下公式表示：

其中t表示所有在预处理过程中得到的原始新闻中的所有非停用词的词语。并且w_t，b代表词语t在语义单元b中的权重，这里的权重用词语t在语义单元b中出现的频数决定；这个权重的取值在0到1之间。

第三步：计算句子间隔i的“深度”分数d_i。对于句子间隔所谓的“深度”分数代表了前后两个子话题在这个句子间隔发生改变的程度。这个分数取决于如果这个句子间隔是谷底的话，相对于两边的最高峰的语义相似度分数距离。相对的，这个“深度”分数越大，那么说明这个句子间隔最为最终进行段落分割的分割点越合适，反之越不合适。

计算过程中首先寻找相对于句子间隔i的左边的高峰位置l和右边的高峰位置r。左边的高峰位置l就是相对于i向左找到第一个位置，使其满足d_l-1<d_l。那么d_i＝(d_l-d_i)+(d_r-d_i)。

第四步：对新闻进行划分。在得到每一个句子间隔的“深度”分数d_i之后，我们根据不同新闻类型可以取不同的“深度”分数阈值来决定划分段落的个数，即设置阈值为d，如果句子间隔的“深度”分数大于d，那么说明这个间隔前后的子话题变化足够大，可以作为新的段落分割。我们可以假设d满足正态分布，那么一般可以取阈值为d的平均值与d的标准差σ之间的差值，即

进一步，对新闻材料重新构建出的段落进行重要性预测的步骤如下：

使用基于节点重新加强的随机游走图模型进行重要性排序。这种重要性排序方法的优势在于可以在选出重要节点的同时保证节点间尽量多样，减少不必要的冗余，相当于全局的去冗余。

图模型的信息图建立过程是将每一个划分得到的新闻段落作为节点，节点之间的TFIDF向量相似度作为初始的转移概率，特殊的是在同一篇新闻中的段落，转移概率均为0，避免同一篇新闻之间的段落互相转移过多的概率，造成冗余。

假设p_T(v)是T时刻游走于状态v概率，p_T(u，v)是T时刻状态u转移到状态v的转移概率，这个算法需要迭代计算，计算公式如下：

p_T(v)＝∑_u∈Vp_T-1(u，v)p_T-1(u)

其中D_T(u)＝∑_v∈Vp₀(u，v)·p_T(v)，而且p^*(v)是平均分布概率，表示初始每一个段落即图中的节点被访问的概率相同。

这个算法迭代计算到满足下面的公式即可，即达到收敛状态；

∑_v∈Vp_T(v)-p_T-1(v)<0.00001

达到收敛之后，p_T(v)便是每个段落的重要性分数。

进一步，根据段落重要性进行段落选择，融合的步骤如下：

根据需要生成的综述的字数限制，选择重要性高的段落构成最终的新闻综述。选择的过程中进行段落的融合。段落融合的过程可以根据下面的算法描述进行：

算法：段落融合

输入：段落集合G＝{g₁，…g_n}，并且每个段落都有一个重要性分数p(g_i)每两个段落g_i和g_j之间的余弦相似度值gSim_i，j

输出：新闻综述的段落集合O

算法过程：

进一步，对选择出来的段落进行重排序，构建新闻综述的步骤如下：

使用拓扑排序的方法对新闻综述的段落集合进行重新排序。重新排序满足两大准则：

第一大准则是如果段落u和段落v来自于同一篇原始新闻，那么段落的前后顺序保持原来的顺序，且位置在结果中相邻；

第二大准则是如果段落u和段落v不是来自于同一篇原始新闻，那么含有重要性分数高的段落及与其来自于同一篇原始新闻的段落靠前排列。

以上完成了新闻综述的自动构建过程。

本发明提供一种新闻综述生成系统，首先对原始新闻进行段落重新划分，接下来对新闻材料重新构建出的段落进行重要性预测，然后选择和融合段落，最后对段落进行重新排序构成新闻综述。其包括以下单元：新闻段落分割单元，段落重要性预测单元，段落选择和融合单元，段落重排序单元；

其中新闻段落分割单元通过计算段落中每个句子间隔的语义相似度分数，“深度”分数，决定段落重新分割的“深度”阈值，并得到重新分割的新闻段落。

段落重要性预测单元使用节点重新加强的随机游走算法迭代得预测段落的重要性。

段落选择和融合单元选择重要性高的段落，并且在选择的过程中进行段落的融合。

段落重新排序单元遵循两大原则，使用拓扑排序方法对经过选择和融合的段落进行重新排序，完成新闻综述的构建。

附图说明

图1.一种新闻综述生成方法流程图

具体实施方式

下面结合实施例和附图进一步阐述本发明所述的技术方案：

一种基于段落重新分割，重要性预测，选择融合和重新排序的新闻综述生成方法，包括如下步骤：

(1)针对原始新闻材料的段落重新分割构建；

具体做法包括四个部分：对新闻材料进行分词(预处理)，计算句子间隔的语义学分数，计算句子间隔的“深度”分数，最后对新闻进行划分。

(2)对新闻材料重新构建出的段落进行重要性预测；

p_T(v)＝∑_u∈Vp_T-1(u，v)p_T-1(u)

∑_v∈Vp_T(v)-p_T-1(v)<0.00001

达到收敛之后，p_T(v)便是每个段落的重要性分数。

(3)根据段落重要性进行段落选择，融合；

算法：段落融合

输入：段落集合G＝{g₁，…g_n}，并且每个段落都有一个重要性分数p(g_i) 每两个段落g_i和g_j之间的余弦相似度值gSim_i，j

输出：新闻综述的段落集合O

算法过程：

(4)对选择出来的段落进行重排序，构建新闻综述：

以上完成了新闻综述的自动构建过程。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims

1.一种新闻综述生成方法，其特征在于，该方法通过对面向同一事件的新闻的段落重新分割，重要性排序，选择并且合并以及最后的重新排序，最终基于重组得到的新闻段落构建新闻综述；该方法方便快捷，可行性强，效果明显好于原先的多文档摘要方法所得到的新闻综述，有效节省人力物力。

2.一种新闻综述生成方法，其特征在于包括如下步骤：

(1)针对原始新闻材料的段落重新分割构建；

(2)对新闻材料重新构建出的段落进行重要性预测；

(3)根据段落重要性进行段落选择，融合；

(4)对选择出来的段落进行重排序，构成新闻综述。

3.根据权利要求2所述的新闻综述生成方法，其特征在于，针对原始新闻材料的段落重新分割构建，其目的在于将原来新闻材料中有关于同一个子话题的相邻的句子或者小段落构建成新的意义更加完整的段落，避免使用句子为综述构建单位造成语言过于零散；就语言通顺性来讲，从一篇文章中抽取相邻的几句话要比从多个文章中抽取意义相近的多句话更好；

针对原始新闻材料的段落重新分割构建，其具体做法包括四个部分：对新闻材料进行分词(预处理)，计算句子间隔的语义学分数，计算句子间隔的“深度”分数，最后对新闻进行划分；

第一步：原始新闻材料进行分词等预处理；如果是英文的语料需要将单词都转化为小写字母，然后进行词干化，即将经过各种人称及时态变化的单词转化为其词干，如果是中文语料那么只需要进行分词；

第二步：计算句子间隔的语义学分数；由于句子是表达语义的较完整的单位，所以段落重新分割以句子的结束作为潜在的分割点是合理的；句子间隔的语义学分数来表明句子间隔前后两个单元的语义学相似度；而由于文章原有句子的长短十分不统一，不可以直接作为评价语义学相似度的单元，所以使用每个句子间隔前后的100个词语组成的文本单元作为计算语义相似度的内容；

对于每一个语义间隔，其前后的文本单位分别用b₁和b₂表示，那么句子间隔的语义学相似度可以用如下公式表示；

其中t表示所有在预处理过程中得到的原始新闻中的所有非停用词的词语；并且w_t,b代表词语t在语义单元b中的权重，这里的权重用词语t在语义单元b中出现的频数决定；这个权重的取值在0到1之间；

第三步：计算句子间隔i的“深度”分数d_i；对于句子间隔所谓的“深度”分数代表了前后两个子话题在这个句子间隔发生改变的程度；这个分数取决于如果这个句子间隔是谷底的话，相对于两边的最高峰的语义相似度分数距离；相对的，这个“深度”分数越大，那么说明这个句子间隔最为最终进行段落分割的分割点越合适，反之越不合适；

计算过程中首先寻找相对于句子间隔i的左边的高峰位置l和右边的高峰位置r；左边的高峰位置l就是相对于i向左找到第一个位置，使其满足d_l-1<d_l；那么d_i＝(d_l-d_i)+(d_r-d_i)。

第四步：对新闻进行划分；在得到每一个句子间隔的“深度”分数d_i之后，我们根据不同新闻类型可以取不同的“深度”分数阈值来决定划分段落的个数，即设置阈值为d，如果句子间隔的“深度”分数大于d，那么说明这个间隔前后的子话题变化足够大，可以作为新的段落分割；我们可以假设d满足正态分布，那么一般可以取阈值为d的平均值与d的标准差σ之间的差值，即

4.根据权利要求2所述的新闻综述生成方法，其特征在于，对新闻材料重新构建出的段落进行重要性预测；这里使用基于节点重新加强的随机游走图模型进行重要性排序；这种重要性排序方法的优势在于可以在选出重要节点的同时保证节点间尽量多样，减少不必要的冗余，相当于全局的去冗余；

图模型的信息图建立过程是将每一个在权利要求3中划分的新闻段落作为节点，节点之间的TFIDF向量相似度作为初始的转移概率，特殊的是在同一篇新闻中的段落，转移概率均为0，避免同一篇新闻之间的段落互相转移过多的概率，造成冗余；

假设p_T(v)是T时刻游走于状态v概率，p_T(u,v)是T时刻状态u转移到状态v的转移概率，这个算法需要迭代计算，计算公式如下：

p_T(v)＝Σ_u∈Vp_T-1(u,v)p_T-1(u)

其中D_T(u)＝Σ_v∈Vp₀(u,v)·p_T(v)，而且p^*(v)是平均分布概率，表示初始每一个段落即图中的节点被访问的概率相同。

∑_v∈Vp_T(v)-p_T-1(v)<0.00001

达到收敛之后，p_T(v)便是每个段落的重要性分数。

5.根据权利要求2所述的新闻综述生成方法，其特征在于，根据段落重要性进行段落选择，融合；由权利要求4所述得到了段落的重要性分数，根据需要生成的综述的字数限制，选择重要性高的段落构成最终的新闻综述；选择的过程中进行段落的融合；段落融合的过程可以根据下面的算法描述进行：

算法：段落融合

输入：段落集合G＝{g₁,…g_n}，并且每个段落都有一个重要性分数p(g_i)每两个段落g_i和g_j之间的余弦相似度值g Sim_i,j

输出：新闻综述的段落集合O

算法过程：

。

6.根据权利要求2所述的新闻综述生成方法，其特征在于，对选择出来的段落进行重排序，构成新闻综述；使用拓扑排序的方法对权利要求5中得到的新闻综述的段落集合进行重新排序；重新排序满足两大准则：

7.一种新闻综述生成系统，首先对原始新闻进行段落重新划分，接下来对新闻材料重新构建出的段落进行重要性预测，然后选择和融合段落，最后对段落进行重新排序构成新闻综述；其特征在于包括以下单元：新闻段落分割单元，段落重要性预测单元，段落选择和融合单元，段落重排序单元；

其中新闻段落分割单元通过计算段落中每个句子间隔的语义相似度分数，“深度”分数，决定段落重新分割的“深度”阈值，并得到重新分割的新闻段落；

段落重要性预测单元使用节点重新加强的随机游走算法迭代得预测段落的重要性；

段落选择和融合单元选择重要性高的段落，并且在选择的过程中进行段落的融合；