CN110704610A

CN110704610A - 体育新闻战报主题分类方法

Info

Publication number: CN110704610A
Application number: CN201910404983.8A
Authority: CN
Inventors: 吕学强; 游新冬; 张乐; 孙少奇
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2020-01-17

Abstract

本发明涉及一种体育新闻战报主题分类方法，包括：步骤1)对语料进行预处理；步骤2)对语料进行人工标注；步骤3)对语料进行交叉验证；步骤4)选取类别特征对句子主题进行分类。步骤2)包括：首先制定标注规则，完全按照类别定义进行标注，并对语料标注者进行集中沟通，并确认是否完全理解类别信息，然后将语料平均分给多个人进行标注。本发明提出的方法对句子主题分类十分有效，准确率高，具有较好的召回率和F值，可用于为领域模板库构建提供支持，可以很好地满足实际应用的需要。

Description

体育新闻战报主题分类方法

技术领域

本发明属于计算机智能写作技术领域，具体涉及一种体育新闻战报主题分类方法。

背景技术

智能写作在工业界现已引起高度的重视，根据体育赛事实时数据自动撰写新闻稿件，以跟电视直播几乎同时的速度发布稿件，利用计算机代替人工写作已成为一种趋势，体育新闻智能写作已成为21世纪重要的研究方向之一。体育新闻战报主题分类是体育新闻智能写作领域的一项重要技术，是利用体育赛事直播数据生成新闻报道的一项不可或缺的技术手段之一。现有技术中，体育新闻战报主题分类结果准确率低，召回率和F值也不佳，远远不能满足实际应用的需要，现在亟待研发一种准确率、召回率和F值较好的体育新闻战报主题分类方法。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的体育新闻战报主题分类方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种体育新闻战报主题分类方法，包括：步骤1)对语料进行预处理；步骤2)对语料进行人工标注；步骤3)对语料进行交叉验证；步骤4)选取类别特征对句子主题进行分类。

进一步地，步骤1)包括：利用机器自动去掉背景介绍信息，然后以句号为切分，将语料切分为以句子为单位的语料。

进一步地，步骤2)包括：首先制定标注规则，完全按照类别定义进行标注，并对语料标注者进行集中沟通，并确认是否完全理解类别信息，然后将语料平均分给多个人进行标注。

进一步地，所述类别定义包括结构类别和内容类别，结构类别是指每节比赛的开局、局中、局尾，内容类别是指比赛过程中反应出的事实主题。

进一步地，开局定义为：每节比赛开始，第一句话，每节比赛的前2分钟左右，表现形式为：领先、落后、平局；

局中定义为：比赛的过程中，比分不停变化，每节比赛的2-11分钟左右，表现形式为：领先、落后、平局；

局尾定义为：比赛的最后一次进球，每节比赛的最后1分钟左右，如果最后一分钟内有多次进球，则以最后一次为准，表现形式：领先、落后、平局；

内容类别的事实主题包括：扩大比分、小高潮、稳定比分、最大分差；得分荒、缩小比分、双方打平、双方对飚、双方打铁、交替领先。

进一步地，步骤3)包括：采用交叉校验方式，对数据进行多轮校验，并将校验标注数据与原始数据进行对比，将存在问题的数据进行统一整理并进行讨论，最终确认标注结果。

进一步地，步骤4)包括：分别使用TF-IDF算法、布尔权重法，对体育新闻战报句子进行主题分类。

进一步地，使用互信息MI、信息增益IG、卡方CHI、加权对数似然比方法 WLLR进行特征词的提取，并对四种情况下的结果取交集、并集分别进行测试。

进一步地，步骤1)包括：对数据进行分词，构造新词表，构造停用词表，使词项更加符合体育新闻的规则，并去除无用的词汇；把比分进行处理，将不同的比分转换为对应的词语。

进一步地，所述步骤2)包括：将体育新闻战报中报道的每一个句子提取出来，从结构和内容上对数据进行标注，并且以\t进行分割。

本发明提供的体育新闻战报主题分类方法，对战报数据进行分类，首先是对数据进行预处理，提取标注数据，其次对提取的句子进行人工标注，并进行交叉验证，最后选取类别特征对句子主题进行分类，实验结果表明本发明提出的方法对句子主题分类十分有效，准确率高，具有较好的召回率和F值，可用于为领域模板库构建提供支持，可以很好地满足实际应用的需要。

附图说明

图1为本发明的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种体育新闻战报主题分类方法，包括：首先对数据进行预处理，提取待标注数据，然后对提取的句子进行人工标注，并进行交叉验证，最后选取类别特征对句子主题进行分类。

主题类别的划分：

通过对NBA体育新闻战报阅读发现，从结构上可以大致分为3部分，如：每节比赛的开局、局中、局尾。从比赛的内容上可以大致分为10个主题，如：扩大比分、小高潮、稳定比分、最大分差；得分荒、缩小比分、双方打平、双方对飚、双方打铁、交替领先等。为了能够得到更多的用户的写作主题模板，本发明需要对已完成的战报文章进行分类。

本发明从结构上和内容上分别对各主题做了如下定义：1)结构类别

结构类别主要是指每节比赛的开局、局中、局尾，具体定义如下：

定义1.1开局：每节比赛开始，通常为第一句话。从时间角度考虑每节比赛的前2分钟左右，一般情况第一节比赛通常含有开局，二三四节比赛不一定有。表现形式为：领先、落后、平局。

定义1.2局中：比赛的过程中，比分在不停的变化。从时间角度考虑每节比赛的2-11分钟左右。表现形式：领先、落后、平局。

定义1.3局尾：通常为比赛的最后一次进球，如压哨球，巨星表现等。从时间角度考虑每节比赛的最后1分钟左右，如果最后一分钟内有多次进球，则以最后一次为准。表现形式：领先、落后、平局。2)内容类别

为了能够更好的理解编辑的写作行为，本发明需要对各主题进行定义。内容类别主要是指比赛过程中反应出的事实主题，它是随着比赛的时间以及球员、球队的表现在不停的变化。主题基本固定分为10个主题，扩大比分、小高潮、稳定比分、最大分差；得分荒、缩小比分、双方打平、双方对飚、双方打铁、交替领先等，但是表现形式多种多样，如表1.1所示。

定义1.4扩大分差：A队在T1时间点领先B队S分，经过T2-T1时间段A 队没有被B队连续追分，并且在T2时间点，A队领先B队的分数＞S分，则称此A队在T2-T1时间段内扩大分差。

定义1.5小高潮：A队在T1时间点领先B队S分(或落后S分)，经过T2 -T1时间段A队连续得分且＝＞8分，B队不得分或者得分＜＝3分，则称此A 队在T2-T1时间段内打出小高潮。

定义1.6稳定比分：A队在T1时间点领先B队S分，经过T2-T1时间段A 队领先B的分数＜S，经过暂停或球员自己调试，在T3-T2时间段A队又领B 队等于S分，则称此A队在T3-T2时间段内稳定比分。

定义1.7最大分差：A队在T1时间点领先B队S分，经过T2-T1， T3-T2，…Tn+1-Tn时间段A队领先B的分数＜＝S，则称此A队在T1时间点为本场比赛的最大分差。

定义1.8得分荒：A队在T1时间点落后B队S分，经过T2-T1时间段A队落后B队的分数＞S，并且B队连续至少3个回合不得分，则称此A队在T2 -T1时间段进入得分荒。

定义1.9缩小分差：A队在T1时间点落后B队S分，经过T2-T1时间段A 队落后B队的分数＜S，则称此A队在T2-T1时间缩小分差。

定义1.10双方打平：A队在T1时间点落后B队S分，经过T2-T1时间段 A队与B对得分相同，则称此A队在T2时间点与B对打平。

定义1.11双方对飙：在T2-T1时间段A队与B队交替得分，则称A队与B 队双方对飙。

定义1.12双方打铁：在T2-T1时间段A队与B队都不得分，则称A队与B 队双方打铁。

定义1.13：交替领先，A队在T1时间点领先B队S分，经过T2-T1时间， A队落后B队，经过T3-T2时间，A队领先B队，则称此A队与B队在T1-T3 时间内交替领先。

表1.1主题句

语料标注：

本发明采用多人交叉标注方法，对867篇NBA战报数据进行标注，首先利用机器自动地去掉背景介绍信息，然后以句号为切分，将语料切分为以句子为单位的语料，最后将数据分配给3个人进行标注，并将标注好的结果进行交叉验证。语料预处理：由于NBA战报在撰写的时候有一些背景信息，与这场比赛的事实无关，通过直播文本根本就无法生成，需要有历史数据以及专业的知识，如表1.2所示，加粗的数据为背景数据。因此本发明需要将背景信息去掉。本发明将剩余的数据再以句号为单位进行切分，使得每一行数据都表示一个句子，这样有利于本发明标注，如表1.3所示。

表1.2战报背景数据

表1.3待标注数据

本发明需要标注大量的NBA战报新闻语料库，学习编辑的写作特征。本发明按照以下规则对数据进行标注：

首先制定标注规则，完全按照本发明事先定义好的类别进行标注，并对语料标注者进行集中沟通，并确认是否完全理解类别信息。其次将语料平均分成N 份给N个人进行标注，本发明将NBA战报中报道的每一个句子提取出来，从结构和内容上对数据进行标注，并且以\t进行分割。

表1.4结构主题标记

句子主题	标记
		开局	J-1
局中	J-2
		局尾	J-3

表1.5内容主题标记

句子主题类别	标记
		扩大分差	N-1
小高潮	N-2
		稳定比分	N-3
最大分差	N-4
		得分荒	N-5
缩小分差	N-6
		双方打平	N-7
双方对飙	N-8
		双方打铁	N-9
交替领先	N-10

按照上述的标注规范对数据进行标注如下：

表1.6原始数据与标注数据

语料校验：

本发明采用交叉校验方式，对数据进行多轮校验，并将校验标注数据与原始数据进行对比，将存在问题的数据进行统一整理，并进行讨论，最终确认标注结果。

特征提取：

分别使用TF-IDF算法、布尔权重法，对NBA新闻战报句子进行主题分类。在进行文本分类之前，对语料进行预处理，提取关键词。

在实验过程中对数据进行预处理：主要对数据进行分词，构造新词表(NBA 的球员名、球队名、动作专有名词等)，构造停用词表(NBA的球员名、球队名、标点符号、数字、助词等)，使词项更加符合NBA体育新闻的规则，并去除无用的词汇。

把比分进行处理，将不同的比分转换为对应的词语。通过对语料的分析可知，报道比分时的结构为xx-xx，将其定义为Zsore、Ksore。比分报道整体上分为：

1.对领先球队进行报道，该情况下：Zsore＞Ksore。此情况下又可以分为由于章节需要报道的领先、比分扩大、比分反超，由于这几种情况仅通过比分上的差异很难区分，统一标记为：“领先”。

2.对落后球队进行报道，该情况下：Zsore＜Ksore。此情况下基本上为落后球队得分后缩小分差。我们按照已有分类的需求将其分为：Zsore＜Ksore的情况，标记为：“追分”；Zsore＝Ksore，标记为：“平分”。

TF-IDF算法：利用TF，即关键词出现的频率，以及IDF，即反文档频率的乘积，作为衡量该词对文档的重要程度。

布尔权重法即“特征词在文本中出现过即权重值为1，否则为0”。本发明主要使用了互信息MI、信息增益IG、卡方CHI、加权对数似然比方法WLLR进行了特征词的提取。并对四种情况下的结果取交集、并集分别进行测试。

分别对不同阶段预处理的语料设置不同的阈值、设置不同的维数、整体提取与类别内提取进行对比实验，获取最好的分类结果。

实验结果与分析

实验数据

利用标注的3024条NBA体育战报新闻语句，将其划分为训练集∶测试集＝2000∶1024的比例作为实验数据，对不同的方法进行测试、对比。评价指标

借用文本分类评价中采用的准确率、召回率和F值进行评价。对于类别C，分类的结果可分为以下几种情况：

1)原本为C类被划分为C类，数量记为a；

2)原本为非C类被划分为C类，数量记为b；

3)原本为C类被划分为非C类，数量记为c；

正确率：

召回率：

F值：

实验结果与分析

通过使用TF-IDF算法，使用训练集对语料进行训练，对测试集语料进行预测。对不同阶段处理过的文本分别进行测试，结果如表1.7所示：

表1.7 TF-IDF分类结果

可以看出预处理均在一定程度上提高了分类的准确性。对最终的结果进行模型指标评估报告的生成。可以看出使用TF-IDF算法进行文本分类时，对训练集具有较好的拟合程度，准确度达到了77.65％，而对测试集却有较大的差距，仅能达到68.65％。

布尔权重法的重点在于特征词的选取，选取好的特征词对于模型的准确程度具有很大的影响。开始阶段，人工选择出42个特征词进行训练预测。

表1.8布尔权重法分类结果

	训练集正确率	测试集正确率
			未替换比分前的结果	0.5930	0.647804878049
将比分替换后结果	0.6590	0.7200

可以看到整体的情况十分糟糕。下面需要使用一些文本特征词提取的算法进行特征词提取，提高分类模型的准确率。

一开始，对每个类别应用各自的公式求得不同词项在不同类别下的值，设置一个阈值，提取所有大于该阈值的词为特征词。由于将每个类别下的阈值设置的较低，因此得到的特征词维数较低，模型的准确率也呈现不同的状态，使得整体情况较差。因为MI、IG两种方法更趋向于得到频率较低的词，所以当布尔向量的维度较低时，准确率会十分低。

表1.9不同特征的布尔分类结果

	阈值	特征词数	训练集正确率	测试集正确率
					MI	0.3	30	0.3425	0.416015625
IG	0.05	36	0.4760	0.50390625
					CHI	10	41	0.6505	0.72265625
WLLR	0.3	48	0.6565	0.7177734375
					INTERSECTION		40	0.6430	0.7119140625
UNION		54	0.6730	0.7373046875

接下来降低了设定的阈值，增加了特征值的数量，使得布尔向量的维度提高，结果如表1.10所示。

表1.10不同特征不同阈值的布尔分类结果

虽然训练集的准确率与TF-IDF算法相比较低，但是在测试集的准确率有了较大的提高，甚至比训练集更好。交集与并集通常表现不错，但是并集由于具有较高的维度容易造成过拟合，使得测试集的准确率下降。通过提高训练集的数量，两种方法的准确率进一步提高。

另外之前的特征词是对整体分析，获取大于规定阈值的词，存在大量词同属于一类之下的情况，从每个类别中分别抽取15个特征词，去重后形成一个108 维的布尔向量，但是结果并没有提高。主要原因是在类别数据量少的类别里，类别区分词不明显。于是出现了一些无关紧要的词，对分类并没有影响。通过计算每个词项在各类文本下的值进行加权，获得整体的排序，所得的特征词大体上一致。最终的测试结果表明在维数较低时加权结果较差，维数较高时其准确率变化不明显。原因在于加权后排名较高的词项说明他的整体区分能力较强，而单类别下排名较高的词项说明了其对该类别有较强的区分程度，在维数较低的情况下，两者的差别会被放大，而单类别下具有更好的区分程度；当维数增加，差别将越来越小。

通过提取前n个特征词进行测试，目的在于得出特征词个数对结果的影响。

表1.11特征词个数对实验结果的影响

从结果可以看出，随着词项数目的增加，训练集拟合程度越来越高，正确率越来越高，测试集在较小的范围内浮动变化。过高的维数会造成过拟合，使得测试集的效果反而下降。

选取测试结果较好的词作为特征词提取方法，提取220维的布尔特征向量，利用布尔权重法对文本进行分类，各类所得结果如表1.12所示。

表1.12各分类结果数据

类别	正确率	召回率	F值
				扩大分差	0.82	0.82	0.82
小高潮	0.79	0.88	0.84
				稳定比分	0.71	0.87	0.78
最大分差	0.74	0.94	0.83
				得分荒	0.81	0.89	0.85
缩小分差	0.81	0.83	0.82
				双方打平	0.98	0.95	0.97
双方对飙	0.49	0.95	0.64
				双方打铁	0.83	1.00	0.90
交替领先	0.81	0.90	0.85

对每个类别的准确率进行分析、对比，发现战报文本中较常出现、有多个明确特征词的类别可以得到很高的准确率，而一些出现频率较低，需要通过多词分析的情况(双方对飙、交替领先)则准确率较低。

对测试结果进行分析：TF-IDF算法与布尔权重法相比，具有较好的召回率 (训练集上为0.92，测试集上为0.86)，但总体上选取的方法在测试集上表现的更加准确。另外两种方法都含有某些战报文本过短而无法正确分类的情况。以及句子包含多个标签，预测与人工标注不符的情况。另外某些句子也需要一些逻辑判断，机器难以分类。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种体育新闻战报主题分类方法，其特征在于，包括：步骤1)对语料进行预处理；步骤2)对语料进行人工标注；步骤3)对语料进行交叉验证；步骤4)选取类别特征对句子主题进行分类。

2.根据权利要求1所述的体育新闻主题分类方法，其特征在于，步骤1)包括：利用机器自动去掉背景介绍信息，然后以句号为切分，将语料切分为以句子为单位的语料。

3.根据权利要求1所述的体育新闻主题分类方法，其特征在于，步骤2)包括：首先制定标注规则，完全按照类别定义进行标注，并对语料标注者进行集中沟通，并确认是否完全理解类别信息，然后将语料平均分给多个人进行标注。

4.根据权利要求3所述的体育新闻主题分类方法，其特征在于，所述类别定义包括结构类别和内容类别，结构类别是指每节比赛的开局、局中、局尾，内容类别是指比赛过程中反应出的事实主题。

5.根据权利要求4所述的体育新闻主题分类方法，其特征在于，开局定义为：每节比赛开始，第一句话，每节比赛的前2分钟左右，表现形式为：领先、落后、平局；

6.根据权利要求1所述的体育新闻主题分类方法，其特征在于，步骤3)包括：采用交叉校验方式，对数据进行多轮校验，并将校验标注数据与原始数据进行对比，将存在问题的数据进行统一整理并进行讨论，最终确认标注结果。

7.根据权利要求1所述的体育新闻战报主题分类方法，其特征在于，步骤4)包括：分别使用TF-IDF算法、布尔权重法，对体育新闻战报句子进行主题分类。

8.根据权利要求1-7所述的体育新闻战报主题分类方法，其特征在于，使用互信息MI、信息增益IG、卡方CHI、加权对数似然比方法WLLR进行特征词的提取，并对四种情况下的结果取交集、并集分别进行测试。

9.根据权利要求1-8所述的体育新闻战报主题分类方法，其特征在于，步骤1)包括：对数据进行分词，构造新词表，构造停用词表，使词项更加符合体育新闻的规则，并去除无用的词汇；把比分进行处理，将不同的比分转换为对应的词语。

10.根据权利要求1-9所述的体育新闻战报主题分类方法，其特征在于，所述步骤2)包括：将体育新闻战报中报道的每一个句子提取出来，从结构和内容上对数据进行标注，并且以\t进行分割。