CN108549636A

CN108549636A - 一种赛事文字直播关键句抽取方法

Info

Publication number: CN108549636A
Application number: CN201810310247.1A
Authority: CN
Inventors: 吕学强; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-09-18

Abstract

本发明涉及一种赛事文字直播关键句抽取方法，其特征在于，包括：步骤一：利用Word2Vec进行关键词扩展，得到得分相关词集和其他相关词集，将得分相关词集、其他相关词集再加上比分特征和时间特征共同构成关键句抽取特征；步骤二：把关键句抽取转换为二分类问题，利用Adaboost算法进行分类。本发明首先利用Word2Vec对得分关键词和其他关键词进行扩展，得到得分相关词集和其他相关词集，然后把关键句抽取转换为二分类问题，以得分相关词集、其他相关词集、比分特征以及时间特征作为抽取特征，并利用Adaboost提升算法进行抽取，得到了更加准确的抽取效果，达到了很好的抽取效果，抽取结果的正确率、召回率和F值均较高，可以很好地满足实际应用的需要。

Description

一种赛事文字直播关键句抽取方法

技术领域

本发明属于文本信息处理技术领域，具体涉及一种赛事文字直播关键句抽取方法。

背景技术

随着科学技术的发展，互联网信息已经深刻地影响了人们的工作和日常生活，尤其是手机终端的普遍流行，让信息的传达变得越来越便捷，在这种互联网新媒体下，体育新闻成为人们及时了解体育赛况的一个主要途径，但是相对于体育赛事直播来说，体育新闻的报导还存在一定的滞后性，因此如何提高新闻写作的时效性，实现将传统的信息采集、新闻稿撰写、新闻稿编排等过程的融合，形成从“数据抽取”到“文稿生成”的两步式新闻自动生产方式，是未来新闻写作的热点研究方向。目前体育赛事的“数据抽取”包括赛事实体的抽取、比赛数据的挖掘以及赛事动态信息的抽取。其中，赛事精彩动态信息的自动提取是目前研究的热点之一，利用这一功能，可以从大量直播数据中方便地获取比赛中的重要事件。关键句抽取可以使用自动文摘中文摘句的选取方法。自动文摘中文摘句的选取主要有三种方法：第一种是利用句子排序问题，对句子进行排序，选择分值高的句子作为文摘句，分值低的句子被排除在外。然而，现有技术的方法设计不够科学，关键句抽取效果不佳，抽取结果的正确率、召回率和F值均比较低，不能满足实际应用的需要，现在亟待研发一种抽取效果好、抽取结果的正确率、召回率和F值均较高的抽取方法。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的赛事文字直播关键句抽取方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种赛事文字直播关键句抽取方法，包括：

步骤一：利用Word2Vec进行关键词扩展，得到得分相关词集和其他相关词集，将得分相关词集、其他相关词集再加上比分特征和时间特征共同构成关键句抽取特征；

步骤二：把关键句抽取转换为二分类问题，利用Adaboost算法进行分类。

进一步地，步骤一包括：利用Word2Vec工具把背景语料中的词语用向量进行形式化表示，把对文本的处理简化为向量空间中的向量运算，通过计算向量空间上的相似度来表示文本语义上的相似度，实现相关词扩展。

进一步地，步骤一还包括：在将词表示为相应的向量形式后，向训练后得到的词向量文件中输入关键词，通过计算余弦距离，输出在一定阈值内或者一定的顺序与该关键词在语义上相似的词语，从而得到关键词的相关词集。

进一步地，余弦距离的计算如下式所示：

其中，distance(w₁，w₂)代表词w₁和w₂的余弦距离，和分别为向量空间中w₁和w₂的词向量。

进一步地，步骤一包括：

基于Skip-gram模型，并采用Hierarchical Softmax方法进行优化训练；利用当前词的词向量预测指定窗口上下文的词向量，假设给定训练特征数据w₁，w₂，w₃…w_T，则Skip-gram模型的目标函数为：

其中，J_θ代表目标函数，T是特征数据的总数，c是决定上下文窗口大小的参数；

采用Hierarchical Softmax算法，该算法利用Huffman二叉树表示特征词，将输出层的T个单词作为叶子结点，将每个词的出现频次作为权重进行编码，对高频词分配较短路径，低频词分配较长路径，从而每个单词都可以从树的根结点沿着唯一的一条路径被访问到，p(u|w)函数定义如下：

其中，L(u)为根结点到u结点的路径长度，为根结点到u路径中第j个非叶子结点对应的向量，表示根结点到u路径中第j个结点对应的编码，v(w)表示w的词向量；

采用梯度下降法来求解目标函数，生成单词的词向量表示形式。

进一步地，得分相关词是与得分相关的词语；步骤一包括：通过手工收集一些得分关键词，然后利用Word2Vec对得分关键词进行相关词扩展形成得分相关词集，统计句子中是否包含得分相关词以及包含得分相关词的个数，来作为关键句的抽取特征。

进一步地，步骤一包括：通过手工收集一些其他关键词，然后利用Word2Vec对这些基本的其他关键词进行相关词扩展形成其他相关词集，统计句子中是否包含其他相关词以及包含其他相关词的个数，并将其作为关键句的抽取特征。

进一步地，步骤一包括：定义一个时间函数，通过函数判定句子是否在特定的时间范围内，并对此赋予不同的权重，来描述不同时间段的重要程度，其函数定义如下：

F(s)＝pf₁(s)+qf₂(s)+rf₃(s) ；

其中，s为目标句，F(s)为目标句的时间特征函数，f₁(s)，f₂(s)，f₃(s)分别为判断句子是否在比赛开始后的T₁时刻、其他时间以及比赛结束前的T₂时刻的时间范围判断函数，endTime为直播文本中的比赛结束时间，p，q，r分别为三段时间范围的权重系数，然后把时间特征作为关键句抽取的一项特征。

进一步地，比分特征包括比分较上一条的比分变化、球队累计得分、球员累计得分、球队累计不得分；如果这条文字直播与上条文字直播相比，得分有变化，取变化的数量作为特征，；如果一个球队持续累计得分越多，则越重要，以累计得分作为特征；如果一个球员累计得分越多，说明该球员的表现比较好；如果一个球队累计不得分，则把累计不得分的时间作为特征。

进一步地，步骤二包括：把文字直播的关键句抽取转换为二分类问题，分为关键句和非关键句，对文字直播文本进行二分类，关键句标签为1，非关键句标签为-1；利用分类与回归树进行不断迭代得到一个强分类器，进行二分类，输出标签为1的属于关键句，输出标签为-1的为非关键句。

本发明提供的赛事文字直播关键句抽取方法，首先利用Word2Vec对得分关键词和其他关键词进行扩展，得到得分相关词集和其他相关词集，然后把关键句抽取转换为二分类问题，以得分相关词集、其他相关词集、比分特征以及时间特征作为抽取特征，并利用Adaboost提升算法进行抽取，不断根据训练集分错了的数据，不断调整弱分类器的权重，是把多个弱分类器提升为强分类器的一个过程，得到了一个更加准确的分类器，从而得到了更加准确的抽取效果，达到了很好的抽取效果，抽取结果的正确率、召回率和F值均较高，可以很好地满足实际应用的需要。

附图说明

图1为关键句抽取流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种赛事文字直播关键句抽取方法，首先利用Word2Vec进行关键词扩展，得到得分相关词集和其他相关词集，将得分相关词集、其他相关词集再加上比分特征和时间特征共同构成关键句抽取特征；然后把关键句抽取转换为二分类问题，利用Adaboost算法进行分类，并选择CART(分类与回归树)作为弱分类器进行训练，得到分类模型，最后对未知的文字直播进行分类，得到文字直播的关键句。关键句抽取流程图参考图1所示。本实施例以NBA赛事文字直播关键句抽取为例进行说明。

利用Word2Vec进行关键词扩展的步骤为：

利用Word2Vec工具把背景语料中的词语用向量进行形式化表示，把对文本的处理简化为向量空间中的向量运算，通过计算向量空间上的相似度来表示文本语义上的相似度，实现相关词扩展，从而强化了关键词对关键句的指示作用，进一步提高文本中关键句的抽取质量。

Word2Vec是2013年Google开源的一款把词转换为实数值向量的深度学习工具，它利用深度学习的思想，经过训练，可以把文本中的词语用K维向量来表示，通过Word2Vec得到的词向量，可以用来做自然语言处理的很多工作。比如聚类，词性分析、找同义词等。当词作为特征时候，Word2Vec就可以将词语映射到K维的向量空间，并用这K维向量来表示这个词语，文本得到更深层次的特征表示。

它提供了两种训练模型，分别为CBOW连续词袋模型和Skip-gram模型。它们都利用一种浅层神经网络训练方法，其中CBOW是根据上下文来预测当前词的概率，而Skip-gram是根据当前词预测上下文的概率。本发明主要基于Skip-gram模型，并采用HierarchicalSoftmax方法进行优化训练。利用当前词的词向量预测指定窗口上下文的词向量，假设给定训练特征数据w₁，w₂，w₃…w_T，则Skip-gram模型的目标函数为：

其中，J_θ代表目标函数，T是特征数据的总数，c是决定上下文窗口大小的参数，c越大则需要的训练数据越多，需要的训练时间也就越多，但会得到更高的准确率。

为了优化计算效率，采用Hierarchical Softmax算法，该算法利用Huffman二叉树表示特征词，将输出层的T个单词作为叶子结点，将每个词的出现频次作为权重进行编码，对高频词分配较短路径，低频词分配较长路径，从而每个单词都可以从树的根结点沿着唯一的一条路径被访问到。因此，p(u|w)函数定义如下：

其中，L(u)为根结点到u结点的路径长度，为根结点到u路径中第j个非叶子结点对应的向量，表示根结点到u路径中第j个结点对应的编码，v(w)表示w的词向量。

然后采用梯度下降法来求解目标函数，生成单词的词向量表示形式。

一般而言，在体育直播文本中，句子中的关键词能够较大程度地表达该句的动作主题，例如“罗伊-希伯特1.2米突破勾手投篮”这句话中，通过“突破”、“勾手”、“投篮”这些词就能推测出该句描述的一连串赛事动作，可见这些词对句子的重要性判断具有指示作用，另一方面，一些词语如果在同一句子中频繁地共现，那么它们会具有一定的语义相关性。因此在本发明中提出，通过手工构建一个基本的关键词集，然后对关键词集进行语义相关词的扩展，利用关键词以及相关词的扩展词集来提高关键句的抽取效果。

在大数据的环境下，可以认为，向量空间中两点之间的距离就是对应两个词语的相关程度，因此通过余弦距离来衡量其他词汇与关键词集中词语的相关度，余弦距离越大代表两个词的相关度越高，并设定特定的阈值，将相关性高的词汇抽取出来达到扩展关键词的目的。

在将词表示为相应的向量形式后，向训练后得到的词向量文件中输入关键词，通过计算余弦距离，我们就可以输出在一定阈值内或者一定的顺序与该关键词在语义上相似的词语，从而得到关键词的相关词集。余弦距离的计算如公式3所示，其中，distance(w₁，w₂)代表词w₁和w₂的余弦距离，和分别为向量空间中w₁和w₂的词向量。

表1和表2分别为基于Word2Vec的向量余弦距离计算得出的“上篮”和“不中”这两个词的相关词的情况，每个词后面的数值表示向量余弦距离。

表1 与“上篮”相关词语的相似度

表2 与“不中”相关词语的相似度

把文字直播的关键句抽取转换为二分类问题，分为关键句和非关键句，对文字直播文本进行二分类，关键句标签为1，非关键句标签为-1。因为一个句子是否可以被抽取为关键句，受多个因素的影响，根据对NBA文字直播的分析，以及参考NBA比赛的赛制，采用四类特征作为抽取的特征分别为：得分相关词集、其他相关词集、比分特征以及时间特征。

(1)得分相关词集

直播文本中关键句的抽取是指抽取一些能够反映该场体育直播中关键赛事信息的句子，通过对直播文本的观察发现，一些关键词汇如“跳投”、“上篮”、“补篮”等可以表明赛事中的关键信息，主要是与得分相关的词语，对关键句的抽取具有重要的指示作用，因此称之为得分相关词。通过手工收集一些得分关键词，然后利用Word2Vec对这些基本的得分关键词进行相关词扩展形成得分相关词集，统计句子中是否包含得分相关词以及包含得分相关词的个数，来作为关键句的抽取特征。

(2)其他相关词集

与得分相关词类似，文本直播中会出现一些如“不中”、“犯规”等词汇，这些词对关键句的抽取起一定的作用，比如在关键时刻，某个球员未投中也会成为报道的对象，这些词是其他关键词。同样通过手工收集一些其他关键词，然后利用Word2Vec对这些基本的其他关键词进行相关词扩展形成其他相关词集，统计句子中是否包含其他相关词以及包含其他相关词的个数，并将其作为关键句的抽取特征。

(3)比分特征

比分是NBA比赛中一个重要的部分，分为比分较上一条的比分变化、球队累计得分、球员累计得分、球队累计不得分等特征。如果这条文字直播与上条文字直播相比，得分有变化，取变化的数量作为特征，比如三分，就取3，2分就取2。通过对以往NBA比赛报道发现，如果一个球队持续累计得分越多，则越重要，以累计得分作为特征。相应的，如果一个球员累计得分越多，同样说明该球员的表现比较好。如果一个球队累计不得分，同样可以作为报道的对象，这时把累计不得分的时间作为特征。通过提取这几部分的特征即比分特征来描述比赛中两个球队的比分变化，来作为关键句的抽取特征。

(4)时间特征

由于NBA比赛的特殊性，选取赛事时间特征作为关键句抽取的一项特征，在直播文本中通常认为比赛开始前以及比赛结束前的一段时间内的文字直播信息相对描述比较重要。对于时间特征的描述：定义一个时间函数，通过函数判定句子是否在特定的时间范围内，并对此赋予不同的权重，来描述不同时间段的重要程度即时间特征，其函数定义如下：

F(s)＝pf₁(s)+qf₂(s)+rf₃(s) (4)；

其中，s为目标句，F(s)为目标句的时间特征函数，f₁(s)，f₂(s)，f₃(s)分别为判断句子是否在比赛开始后的T₁时刻、其他时间以及比赛结束前的T₂时刻的时间范围判断函数，endTime为直播文本中的比赛结束时间，p，q，r分别为三段时间范围的权重系数，根据不同时间段的句子重要程度判断，设定p，q，r分别为0.4，0.2，0.4，然后把时间特征作为关键句抽取的一项特征。

采用上述描述的特征作为文字直播抽取的特征，采用Adaboost算法进行抽取。Adaboost是一种提升算法。关于弱分类器的选择：①树分类器训练比较简单，线性分类器训练时间比较长。②线性分类器的分类准确度比树形分类器的高，不符合弱分类器的条件，能够迅速正确的识别的过程就是强分类器，而易错的则是弱分类器。这里使用的弱分类器是决策树-CART(Classification and Regression Trees，分类与回归树)。本发明使用Adaboost算法，利用分类与回归树进行不断迭代得到一个强分类器，进行二分类，输出标签为1的属于关键句，简称正例，输出标签为-1的为非关键句，简称负例。

本实施例利用网络爬虫，从搜狐网站的NBA板块，爬取2009-2016年全部比赛的文字直播数据，共8469篇。通过预处理、去除文档的HTML标签、解析标签内容得到实验数据。把全部的文字直播利用Word2Vec进行扩展得到得分相关词集和其他相关词集。并通过编写程序抽取比分变化和时间变化的特征，从中随机抽取50篇文字直播作为本文关键句抽取的实验数据，并按照曾经搜狐网站上报道的新闻，然后对应相对的文字直播进行手工标注，作为分类的正确答案。本文以40篇为训练集，一共16344条文字直播，10篇文字直播作为测试集，一共4845条文字直播。

本实施例采用正确率、召回率和F值对文字直播的抽取效果进行评估。其中，正确率P(Precision)的计算公式为：

a表示属于关键句同时也被正确地识别为关键句的文字直播的数量，b表示不是关键句但是被错误地识别为关键句的文字直播的数量。召回率R(Recall)的计算公式为：

c表示本身是关键句但是被错误的识别为非关键句的文字直播的数量。F(F-Measure)的计算公式为：

实验结果与分析：

实验过程中通过手工构造得分关键词和其他关键词的集合，并利用Word2Vec对得分关键词和其他关键词逐一进行语义距离计算，根据距离值从大到小进行排序，选取Top10个相关词进行扩展得到相关词集，最后对每个词集进行人工过滤，去除明显语义错误的词，得到了56个得分相关词和34个其他相关词，其中部分得分关键词和其他关键词，部分词语如表3所示。然后将得分相关词集、其他相关词集、句子所在的时间范围以及句子比分变化，这四类特征作为抽取特征，然后进行训练，将训练好的模型用于测试语料的关键句抽取。

表.3 部分得分关键词集和其他关键词集

根据本实施例的实验数据，本实施例利用所提取的特征，然后分别取得分关键词和其他关键词的个数分别为0，5，10，15，得到的实验结果如表4所示。

表4 不同关键词的实验结果表

从表4可以看出，Adaboost提升算法利用决策树算法作为弱分类器，正确率最高达到85.7％，召回率达到83.5％，F值达到84.6％。本发明的方法取得了比较好的抽取效果，本发明的方法的抽取结果的正确率、召回率和F值均比现有技术的SVM算法的正确率、召回率和F值要高，Adaboost提升算法(决策树作为弱分类器)对于文字直播关键句的抽取结果比SVM整体效果好。经过分析，主要是因为Adaboost提升算法，不断根据训练集分错了的数据，不断调整弱分类器的权重，是把多个弱分类器提升为强分类器的一个过程，得到了一个更加准确的分类器，从而得到了更加准确的抽取效果。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种赛事文字直播关键句抽取方法，其特征在于，包括：

2.根据权利要求1所述的赛事文字直播关键句抽取方法，其特征在于，步骤一包括：利用Word2Vec工具把背景语料中的词语用向量进行形式化表示，把对文本的处理简化为向量空间中的向量运算，通过计算向量空间上的相似度来表示文本语义上的相似度，实现相关词扩展。

3.根据权利要求1-2所述的赛事文字直播关键句抽取方法，其特征在于，步骤一还包括：在将词表示为相应的向量形式后，向训练后得到的词向量文件中输入关键词，通过计算余弦距离，输出在一定阈值内或者一定的顺序与该关键词在语义上相似的词语，从而得到关键词的相关词集。

4.根据权利要求1-3所述的赛事文字直播关键句抽取方法，其特征在于，余弦距离的计算如下式所示：

5.根据权利要求1-4所述的赛事文字直播关键句抽取方法，其特征在于，步骤一包括：

6.根据权利要求1-5所述的赛事文字直播关键句抽取方法，其特征在于，得分相关词是与得分相关的词语；步骤一包括：通过手工收集一些得分关键词，然后利用Word2Vec对得分关键词进行相关词扩展形成得分相关词集，统计句子中是否包含得分相关词以及包含得分相关词的个数，来作为关键句的抽取特征。

7.根据权利要求1-6所述的赛事文字直播关键句抽取方法，其特征在于，步骤一包括：通过手工收集一些其他关键词，然后利用Word2Vec对这些基本的其他关键词进行相关词扩展形成其他相关词集，统计句子中是否包含其他相关词以及包含其他相关词的个数，并将其作为关键句的抽取特征。

8.根据权利要求1-7所述的赛事文字直播关键句抽取方法，其特征在于，步骤一包括：定义一个时间函数，通过函数判定句子是否在特定的时间范围内，并对此赋予不同的权重，来描述不同时间段的重要程度，其函数定义如下：

F(s)＝pf₁(s)+qf₂(s)+rf₃(s)；

把时间特征作为关键句抽取的一项特征。

9.根据权利要求1-8所述的赛事文字直播关键句抽取方法，其特征在于，比分特征包括比分较上一条的比分变化、球队累计得分、球员累计得分、球队累计不得分；如果这条文字直播与上条文字直播相比，得分有变化，取变化的数量作为特征，；如果一个球队持续累计得分越多，则越重要，以累计得分作为特征；如果一个球员累计得分越多，说明该球员的表现比较好；如果一个球队累计不得分，则把累计不得分的时间作为特征。

10.根据权利要求1-9所述的赛事文字直播关键句抽取方法，其特征在于，步骤二包括：把文字直播的关键句抽取转换为二分类问题，分为关键句和非关键句，对文字直播文本进行二分类，关键句标签为1，非关键句标签为-1；利用分类与回归树进行不断迭代得到一个强分类器，进行二分类，输出标签为1的属于关键句，输出标签为-1的为非关键句。