CN105912526A

CN105912526A - 一种面向体育比赛直播文字的体育新闻自动构建方法及装置

Info

Publication number: CN105912526A
Application number: CN201610235671.5A
Authority: CN
Inventors: 张建敏; 万小军; 姚金戈
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2016-08-31

Abstract

本发明公开了一种新颖的面向体育比赛直播文字的体育新闻自动构建方法及装置，涉及语言文字处理领域。目前体育比赛结束后对于比赛情况进行报道的新闻都是由人工编辑的，经济成本高，且很难保证时效性。本发明提出基于学习排序框架，通过体育比赛直播文字自动构建体育新闻的方法和装置，有效提高体育新闻的时效性，降低编辑成本。其包括如下步骤：构建针对体育直播文字的学习排序模型；应用学习排序模型预测每个直播句子的权重；选取权重最高的句子集合构建体育新闻。本发明适用于比赛过程中会产生比赛文字直播的体育比赛。

Description

一种面向体育比赛直播文字的体育新闻自动构建方法及装置

技术领域

本发明涉及语言文字处理领域，特别涉及一种面向体育比赛直播文字的体育新闻自动构建方法及装置。

背景技术

据了解，面向体育比赛直播文字的体育新闻自动构建方法鲜有成熟的应用成果，也很少见到相关学术成果发表在重要学术会议和期刊上。与此领域相关度比较大的研究成果有Nichols等人从Twitter的状态更新中提取热门体育事件，Tjondronegoro等人根据体育音视频获得体育运动关键点，以及Bouayad-Agha等研究者在2011和2012年使用预先定义的模板构建足球文摘的本体库。

此发明涉及的体育新闻自动构建方法，实质是将新闻构建归结为对直播文本进行自动摘要的过程。而对于文档自动摘要这一问题的研究现已相对成熟。有很多不同的方法应用于此，并取得了不错的效果。单文档摘要是由国际会议DUC和TAC定义的典型任务，对于这个任务，基于抽取的方法都被大量采用。基于抽取的方法是首先对文档中已有的句子进行排序，再从中直接抽取排序靠前的句子组成摘要。此发明的文本自动摘要过程就采用基于抽取的方法。

对于单文档摘要，一系列特征被用来对文档中的句子进行排序，包括词频，句子位置，线索词，特征词和主题签名。其中基于质心的摘要方法——MEAD计算每个句子的三个特征值并线性组合来决定哪个句子更加重要。机器学习技术也被用来进行句子排序。M.Litvak等人提出了一种语言无关的方法来提取摘要，它使用遗传算法对多个句子排序指标进行线性优化。T.Hirao等人运用树形背包问题的方法解决单文档摘要，例如从DEP-DT选取最佳根节点子树作为摘要。近些年基于图的方法被更多得运用于句子排序。我们进一步提出利用邻近文档来提高基于图的单文档摘要效果。其他一些基于图的摘要方法包括在异构图上对句子和其他单元进行混合排序。

学习排序方法是将机器学习的方式应用到排序模型中，让机器自动调整策略，根据输入的特征矩阵训练模型，再对测试矩阵预测排序向量。现在学习排序方法主要分为Pointwise、Pairwise和Listwise。Pointwise方法正如其名字一样，是把数据当作一个个的点来分别进行计算的，这种方法可以把我们的排序问题转换成二值分类问题、回归问题和多值分类问题。在Pairwise方法中，所有参与排序的对象进行两两配对，计算出每两个对象的次序，最终我们就可以获得一个总体的排名。Listwise的输入不再是一个个或一对对的对象，而是一组对象列表，根据排序函数计算出每一个对象列表的排序向量的得分，得分最高的排序向量即为输出。

概括来说，目前自动构建体育新闻的方法还主要停留在根据体育数据，套用模板，生成较为生硬的简短摘要。本发明则提出了一种新的解决途径，从体育比赛直播文字中抽取重要句子构建体育新闻。体育比赛直播文字是在体育比赛直播过程中，由解说员生动的语言变为的文字，保证了由此生成的新闻的生动性和多样性。句子抽取过程采用现今较先进的有监督学习排序框架，并根据直播文字和新闻生成需求，提取恰当的文本特征。

发明内容

本发明提供一种面向体育比赛直播文字的体育新闻自动构建方法，该方法利用学习排序模型，对体育比赛直播文字的句子重要性进行预测，并且选取重要性高的句子构建体育新闻，能够有效地保证新闻的信息重要性、语言生动性。

本发明采用的技术方案包括：一种基于学习排序模型，面向体育比赛直播文字的体育新闻自动构建方法，包括如下步骤：

(1)面向体育比赛直播文字的学习排序模型构建；

(2)根据学习排序模型，预测直播文字句子重要性；

(3)基于直播文字句子重要性进行新闻构建；

进一步，面向体育比赛直播文字的学习排序模型构建的步骤如下：

首先爬取大量体育比赛直播文字和对应比赛的新闻，对其进行简单的预处理，包括去除噪声，分词等。然后将这些数据作为训练集，用于构建学习排序模型。观察训练集直播文字，提取代表其重要性的有效特征。应用有监督的学习排序框架预测直播文字的句子重要性，需要将直播文字转化为向量的形式。具体地，对于每个句子s_i，将其转化为(x_i，y_i)的形式。其中x_i代表句子s_i的特征向量，y_i代表句子s_i的目标重要性。在此发明中，使用句子s_i与这场体育比赛对应的新闻报道的最大句子级别吻合程度作为目标重要性y_i。句子级别吻合程度用ROUGE-2F值来度量。

下面以足球比赛直播文字为例介绍直播文字的具体特征。其中1-5维为文档摘要任务使用的传统特征，6-9组为通过观察足球比赛直播文字的语言和形式特点，为其设计的。

1)句子位置信息：表示在候选句子集合中的位置。假设在直播文字中有n个句子，对于句子s_i，它的这一维特征通过计算；

2)句子长度：表示句子s_i去掉停用词之后的长度；

3)停用词个数：表示句子s_i中所包含的停用词的个数，句子包含的停用词过多可以间接反应其重要性不够高；

4)词语权重和：计算句子s_i中词语TF-IDF值的和；

5)相邻句子相似度：计算每个句子s_i和它相邻句子的余弦相似度。具体地，计算s_i与其前后各N个相邻句子的相似度，N可设为1、2；

6)比赛关键点代表词：体现比赛关键点的词语的个数，常常可以反映这个句子的重要性。例如句子中包含“破门”和“红牌”这样的字样说明这句话描述的很有可能是比赛的关键点，重要性会变高。这一组特征包含26维，其中一维表示包含有多少个关键词语，其他25维代表每个有关于足球的关键词语在这句话中是否出现，出现则这一维为“1”，没出现为“0”；

如图1所示，在足球比赛的直播文字中会包含有文字所对应的时间信息、比分信息，这些信息提供更多的有效特征。

7)时间信息特征：体现句子所在的比赛时段，如“上半场”还是“下半场”，所在的具体时间；

8)比分信息特征：体现句子所在的时刻是否有比分变化，或是在比分变化的小范围内，比赛此时为平局或者有比分差别；

9)球员受欢迎程度：此组特征包含两维，一维代表句子中包含的球员的个数，一维代表所有球员的受欢迎程度之和。此受欢迎程度的评估可以利用在搜索引擎中搜索球员姓名得到的新闻数作为指标。

根据训练集句子的特征向量矩阵和对应的目标重要性，就可以使用学习排序算法进行训练，得到面向体育比赛直播文字的学习排序模型。此学习排序模型可以用于预测排序向量。

进一步，根据学习排序模型，预测直播文字句子重要性的步骤如下：

对于一篇新的体育比赛直播文字，首先需要提取上一步提到的各个特征，将直播的每一个句子s_i转化为特征向量x_i，其不同的比赛种类，特征设置上可以进行简单的改动。

然后应用上一步得到的学习排序模型，根据直播的特征向量矩阵对句子的排序向量进行预测。排序向量中每个句子所对应的数值可以当作句子的重要性。经过预测可以得到直播文字s_i的句子重要性w_i。

进一步，基于直播文字句子重要性进行新闻构建的步骤如下：

根据上一步得到的句子的重要性分数，应用基于句子间距离进行去冗余的算法进行句子的选取，直到达到所需的字数为止。基于句子间的距离去冗余进行选取句子的算法具体如下：

假设T₁表示选入新闻中的句子集合，T₂表示未选入新闻中的句子集合。

第一步：选取T₂句子集合中重要性分数最高的句子s_i，将s_i加入到T₁中并将其从T₂中删除；

第二步：将T₂中所有的剩余句子s_j的重要性分数根据以下公式进行惩罚；

w_{j} = w_{j} - \frac{λ * w_{i}}{{Dis}_{j, i} + 1}

其中w_j和w_i表示句子s_j和s_i的重要性分数，Dis_j，i是句子s_j和s_i之间的距离，而λ表示需要调节的参数。

第三步：若T₁中句子的总字数大于或者等于新闻所需字数，则进行第四步，否则返回第一步。

第四步：将T₁中的句子按照原先直播文字中出现的顺序排序，构建出新闻。

以上完成了体育新闻自动构建的过程。

本发明提供一种面向体育比赛直播文字的体育新闻自动构建装置，该装置利用学习排序模型，对体育比赛直播文字的句子重要性进行预测，并且选取重要性高的句子构建体育新闻，包括以下单元：学习排序模型构建单元、句子重要性预测单元、新闻文本生成单元；

其中学习排序模型构建单元通过搭建体育新闻和直播文字数据库，并且处理，提取特征，有监督学习训练，得到面向体育比赛直播文字的学习排序模型；

句子重要性预测单元首先提取体育直播文字的特征，然后应用学习排序模型对直播句子的重要性排序向量进行预测；

新闻文本生成单元根据句子重要性预测单元得到的句子的重要性分数，应用基于句子间距离进行去冗余的算法进行句子的选取，直到达到所需的字数为止，完成新闻构建。

附图说明

图1.足球比赛直播文字的示例

图2.一种面向体育比赛直播文字的体育新闻自动构建方法流程图

具体实施方式

下面结合实施例和附图进一步阐述本发明所述的技术方案：

如图2所示，一种基于学习排序模型，面向体育比赛直播文字的体育新闻自动构建方法，包括如下步骤：

(1)面向体育比赛直播文字的学习排序模型构建；

2)句子长度：表示句子s_i去掉停用词之后的长度；

4)词语权重和：计算句子s_i中词语TF-IDF值的和；

(2)根据学习排序模型，预测直播文字句子重要性；

(3)基于直播文字句子重要性进行新闻构建；

w_{j} = w_{j} - \frac{λ * W_{i}}{{Dis}_{j, i} + 1}

以上完成了体育新闻自动构建的过程。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims

1.一种面向体育比赛直播文字的体育新闻自动构建方法，其特征在于，该方法通过构建学习排序模型并提取体育比赛直播文字中的有效特征，有监督得预测直播句子的重要性，并选取重要性高的句子集合构建体育新闻；该方法方便快捷，有效节省人力物力。

2.一种面向体育比赛直播文字的体育新闻自动构建方法，其特征在于包括如下步骤：

(1)面向体育比赛直播文字的学习排序模型构建；

(2)根据学习排序模型，预测直播文字句子重要性；

(3)基于直播文字句子重要性进行新闻构建。

3.根据权利要求2所述的面向体育比赛直播文字的体育新闻自动构建方法，其特征在于，面向体育比赛直播文字的学习排序模型构建，其具体做法如下：

首先爬取大量体育比赛直播文字和对应比赛的新闻，对其进行简单的预处理，包括去除噪声，分词等；然后将这些数据作为训练集，用于构建学习排序模型。观察训练集直播文字，提取代表其重要性的有效特征；应用有监督的学习排序框架预测直播文字的句子重要性，需要将直播文字转化为向量的形式；具体地，对于每个句子s_i，将其转化为(x_i，y_i)的形式；其中x_i代表句子s_i的特征向量，y_i代表句子s_i的目标重要性；在此发明中，使用句子s_i与这场体育比赛对应的新闻报道的最大句子级别吻合程度作为目标重要性y_i；句子级别吻合程度用ROUGE-2 F值来度量。

下面以足球比赛直播文字为例介绍直播文字的具体特征；其中1-5维为文档摘要任务使用的传统特征，6-9组为通过观察足球比赛直播文字的语言和形式特点，为其设计的。

1)句子位置信息：表示在候选句子集合中的位置；假设在直播文字中有n个句子，对于句子s_i，它的这一维特征通过计算；

2)句子长度：表示句子s_i去掉停用词之后的长度；

4)词语权重和：计算句子s_i中词语TF-IDF值的和；

5)相邻句子相似度：计算每个句子s_i和它相邻句子的余弦相似度；具体地，计算s_i与其前后各N个相邻句子的相似度，N可设为1、2；

6)比赛关键点代表词：体现比赛关键点的词语的个数，常常可以反映这个句子的重要性；例如句子中包含“破门”和“红牌”这样的字样说明这句话描述的很有可能是比赛的关键点，重要性会变高；这一组特征包含26维，其中一维表示包含有多少个关键词语，其他25维代表每个有关于足球的关键词语在这句话中是否出现，出现则这一维为“1”，没出现为“0”；

9)球员受欢迎程度：此组特征包含两维，一维代表句子中包含的球员的个数，一维代表所有球员的受欢迎程度之和；此受欢迎程度的评估可以利用在搜索引擎中搜索球员姓名得到的新闻数作为指标；

根据训练集句子的特征向量矩阵和对应的目标重要性，就可以使用学习排序算法进行训练，得到面向体育比赛直播文字的学习排序模型；此学习排序模型可以用于预测排序向量。

4.根据权利要求2所述的面向体育比赛直播文字的体育新闻自动构建方法，其特征在于，根据学习排序模型，预测直播文字句子重要性，其具体做法如下：

对于一篇新的体育比赛直播文字，首先需要提取上一步提到的各个特征，将直播的每一个句子s_i转化为特征向量x_i，其不同的比赛种类，特征设置上可以进行简单的改动；

然后应用上一步得到的学习排序模型，根据直播的特征向量矩阵对句子的排序向量进行预测；排序向量中每个句子所对应的数值可以当作句子的重要性；经过预测可以得到直播文字s_i的句子重要性w_i。

5.根据权利要求2所述的面向体育比赛直播文字的体育新闻自动构建方法，其特征在于，基于直播文字句子重要性进行新闻构建，其具体做法如下：

根据上一步得到的句子的重要性分数，应用基于句子间距离进行去冗余的算法进行句子的选取，直到达到所需的字数为止；基于句子间的距离去冗余进行选取句子的算法具体如下：

假设T₁表示选入新闻中的句子集合，T₂表示未选入新闻中的句子集合；

其中w_j和w_i表示句子s_j和s_i的重要性分数，Dis_j，i是句子s_j和s_i之间的距离，而λ表示需要调节的参数；

第三步：若T₁中句子的总字数大于或者等于新闻所需字数，则进行第四步，否则返回第一步；

第四步：将T₁中的句子按照原先直播文字中出现的顺序排序，构建出新闻；

以上完成了体育新闻自动构建的过程。

6.一种面向体育比赛直播文字的体育新闻自动构建装置，利用学习排序模型，对体育比赛直播文字的句子重要性进行预测，并且选取重要性高的句子构建体育新闻，其特征在于包括以下单元：学习排序模型构建单元、句子重要性预测单元、新闻文本生成单元；

新闻文本生成单元根据句子重要性预测单元得到的句子的重要性分数，应用基于句子间距离进行去冗余的算法进行句子的选取，直到达到所需的字数为止，完成新闻的构建。