CN113239197A

CN113239197A - 基于tf-idf算法对句子分类的方法、装置及计算机存储介质

Info

Publication number: CN113239197A
Application number: CN202110515735.8A
Authority: CN
Inventors: 朱海平; 张凯; 王春辉; 彭馨葭; 李雪伟; 蔡红; 王文超
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-10

Abstract

本申请提供一种基于TF‑IDF对句子分类的方法及装置，该方法包括：获取新闻战报句子，对所述句子预处理；提取预处理后的句子的TF‑IDF特征；基于所述句子的TF‑IDF特征和预设的主题类别对所述新闻战报句子进行分类。这样，通过对句子预处理以及根据TF‑IDF特征和预设的主题类别对句子分类，提高了分类的精准度。

Description

基于TF-IDF算法对句子分类的方法、装置及计算机存储介质

技术领域

本申请涉及文本分类领域，尤其涉及一种基于TF-IDF算法对体育新闻战报句子分类的方法、装置及计算机存储介质。

背景技术

随着信息技术的快速发展，人们对新闻时效性的要求越来越高，特别是体育赛事的战报，往往在比赛结束之后，需要快速发布比赛战报；如何根据比赛过程中的直播数据(包括文字、音频、视频)自动生成战报新闻，成为研究的热点。

然而，战报新闻需要体现比赛不同阶段双方得分，比赛走势，比赛结果等信息；因此需要对历史新闻战报句子进行分析、训练、分类，以期能够生成用户写作战报文章的主题模板，进而提高战报新闻的撰写速度。

但是现有技术中，对新闻战报句子的分类不够精确。

发明内容

本申请提供一种基于句子的TF-IDF特征和预设的主题类别对新闻战报句子进行分类，以解决新闻战报句子不够精确的问题。

为了解决上述技术问题，

第一方面，本申请实施例提供了一种基于TF-IDF对句子分类的方法，包括：

获取新闻战报句子，对所述句子预处理；

提取预处理后的句子的TF-IDF特征；

基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类；

可选地，所述预处理包括：

对所述句子进行分词，构造新词表，构造停用词表，并去除无用的词汇；

把比分进行处理，将不同的比分转换为对应的词语；

可选地，所述新词表至少包括球员名、球队名、动作专有名词，所述停用词表至少包括球员名、球队名、标点符号、数字、助词；

可选地，所述预设的主题类别包括结构类别和内容类别；

其中主题类别至少包括开局、局中和结尾；

其中内容类别包括扩大分差、稳定比分、最大分差、得分荒、缩小分差、双方打平、双方对飙、双方打铁和交替领先中的一项或多项；

可选地，提取预处理后的句子的TF-IDF特征的公式为：

其中，n_i,j是词t_i在文件d_j中的出现次数，∑_kn_k,j是文件d_j中所有字词出现次数总和；

其中，|D|是文件总数，|j:t_i∈d_j|是包含词语t_i的文件数目；

计算某一个词的TF-IDF值，公式如下：

tf-idf_i,j＝tf_i,j*idf_j

将每个句子中每个词t_i分别计算TF-IDF值；

可选地，所述基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类，其中分类器包括：朴素贝叶斯、逻辑回归、线性支持向量机、K-近邻、CNN、LSTM中的一种或多种。

第二方面，本申请实施例还提供基于TF-IDF对句子分类的装置，包括：

预处理模块，用于获取新闻战报句子，对所述句子预处理；

特征提取模块，用于提取预处理后的句子的TF-IDF特征；

分类模块，用于基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类；

可选地，所述预处理模块具体用于：

把比分进行处理，将不同的比分转换为对应的词语；

可选地，所述预设的主题类别包括结构类别和内容类别；

其中主题类别至少包括开局、局中和结尾；

其中内容类别包括扩大分差、稳定比分、最大分差、得分荒、缩小分差、双方打平、双方对飙、双方打铁和交替领先中的一项或多项。

第三方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述基于TF-IDF对句子分类的方法的步骤。

在本申请实施例中，基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类，提高了新闻战报句子的分类精确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的基于TF-IDF对句子分类的方法的流程图；

图2是本申请一实施例提供的基于TF-IDF对句子分类的装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1是本申请实施例提供的基于TF-IDF对句子分类的方法的流程图，如图1所示，包括以下步骤：

步骤S101、获取新闻战报句子，对所述句子预处理。

本申请实施例中，从已有的新闻战报文章中，获取新闻战报句子；其中新闻战报可以是NBA新闻战报，也可以是CBA或其他体育赛事新闻战报，本申请对此不作限制，以下以NBA新闻战报为例进行说明；

由于NBA战报在撰写的时候有一些背景信息，与这场比赛的事实无关，通过直播文本根本就无法生成，需要有历史数据以及专业的知识，如表1所示,加下划线的数据为背景数据。因此需要将背景信息去掉。

表1战报背景数据

将剩余的数据再以句号为单位进行切分，使得每一行数据都表示一个句子，这样有利于标注分类，如表2所示。

表2待标注数据

对数据进行预处理：主要对数据进行分词，构造新词表(NBA的球员名、球队名、动作专有名词等)，构造停用词表(NBA的球员名、球队名、标点符号、数字、助词等)，使词项更加符合NBA体育新闻的规则，并去除无用的词汇。

把比分进行处理，将不同的比分转换为对应的词语。通过对语料的分析可知，报道比分时的结构为xx-xx，我们将其定义为Zsore、Ksore。比分报道整体上分为：

1.对领先球队进行报道，该情况下：Zsore>Ksore。此情况下又可以分为由于章节需要报道的领先、比分扩大、比分反超，由于这几种情况仅通过比分上的差异很难区分，统一标记为：“领先”。

2.对落后球队进行报道，该情况下：Zsore<Ksore。此情况下基本上为落后球队得分后缩小分差。我们按照已有分类的需求将其分为：Zsore<Ksore的情况，标记为：“追分”；Zsore＝Ksore，标记为：“平分”。

步骤S103，提取预处理后的句子的TF-IDF特征；TF-IDF(Term Frequency-InverseDocument Frequency)即词频-逆向文本频率；词频(term frequency)指的是某一个给定的词语在该文件中出现的频率，但是，一些经常出现的单词并不重要或者并无益于对句子的分类，如在NBA战报新闻中，球员名字，动作专有名词，如扣篮，勾手，跳投，中投，三分等词；所以，我们需要一个重要性调整系数，衡量一个词是不是很常见。如果这个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。这个调整系数就是在词频统计的基础上，要对每个词分配一个“重要性”权重。这个权重叫做“逆文档频率”(Inverse Document Frequency,缩写为“IDF”)，它的大小与一个词的常见程度成反比，如在NBA战报新闻中，反超，领先，比分拉开等词；TF-IDF即将TF和IDF相乘；某个词对文章的重要性越高，它的TF-IDF值就越大；应用到文本分类中，把一类中所有的tf-idf值高的词和tf-idf值提取出并来，这就是此类的特征模型。

TF-IDF特征的公式为：

其中，|D|是文件总数，|j:t_i∈d_j|是包含词语t_i的文件数目；

计算某一个词的TF-IDF值，公式如下：

tf-idf_i,j＝tf_i,j*idf_j

将每个句子中每个词t_i分别计算TF-IDF值。

步骤S105，基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类；

通过对NBA体育新闻战报阅读发现，从结构上可以大致分为3部分，如：每节比赛的开局，局中，局尾。从比赛的内容上可以大致分为10个主题，如：扩大比分、小高潮、稳定比分、最大分差；得分荒、缩小比分、双方打平、双方对飚、双方打铁、交替领先等。为了能够得到更多的用户的写作主题模板，本申请需要对已完成的战报文章进行分类。

本申请从结构上和内容上分别对各主题做了如下定义：

结构类别主要是指每节比赛的开局、局中、局尾，具体定义如下：

开局：每节比赛开始，通常为第一句话。从时间角度考虑每节比赛的前2分钟左右，一般情况第一节比赛通常含有开局，二三四节比赛不一定有。表现形式为：领先、落后、平局。

局中：比赛的过程中，比分在不停的变化。从时间角度考虑每节比赛的2-11分钟左右。表现形式：领先、落后、平局。

局尾：通常为比赛的最后一次进球，如压哨球，巨星表现等。从时间角度考虑每节比赛的最后1分钟左右,如果最后一分钟内有多次进球,则以最后一次为准。表现形式：领先、落后、平局。

内容类别主要是指比赛过程中反应出的事实主题，它是随着比赛的时间以及球员、球队的表现在不停的变化。主题基本固定分为10个主题，扩大比分、小高潮、稳定比分、最大分差；得分荒、缩小比分、双方打平、双方对飚、双方打铁、交替领先等，但是表现形式多种多样，如表3所示。

表3主题句

定义4.4扩大分差：A队在T1时间点领先B队S分，经过T2—T1时间段A队没有被B队连续追分，并且在T2时间点，A队领先B队的分数>S分，则称此A队在T2—T1时间段内扩大分差。

定义4.5小高潮：A队在T1时间点领先B队S分(或落后S分)，经过T2—T1时间段A队连续得分且＝>8分，B队不得分或者得分<＝3分，则称此A队在T2—T1时间段内打出小高潮。

定义4.6稳定比分：A队在T1时间点领先B队S分，经过T2—T1时间段A队领先B的分数<S，经过暂停或球员自己调试，在T3-T2时间段A队又领B队等于S分，则称此A队在T3—T2时间段内稳定比分。

定义4.7最大分差：A队在T1时间点领先B队S分，经过T2—T1，T3-T2,…Tn+1-Tn时间段A队领先B的分数<＝S，则称此A队在T1时间点为本场比赛的最大分差。

定义4.8得分荒：A队在T1时间点落后B队S分，经过T2—T1时间段A队落后B队的分数>S，并且B队连续至少3个回合不得分，则称此A队在T2—T1时间段进入得分荒。

定义4.9缩小分差：A队在T1时间点落后B队S分，经过T2—T1时间段A队落后B队的分数<S，则称此A队在T2—T1时间缩小分差。

定义4.10双方打平：A队在T1时间点落后B队S分，经过T2—T1时间段A队与B对得分相同，则称此A队在T2时间点与B对打平。

定义4.11双方对飙：在T2—T1时间段A队与B队交替得分，则称A队与B队双方对飙。

定义4.12双方打铁：在T2—T1时间段A队与B队都不得分，则称A队与B队双方打铁。

定义4.13：交替领先，A队在T1时间点领先B队S分，经过T2—T1时间，A队落后B队，经过T3-T2时间，A队领先B队，则称此A队与B队在T1-T3时间内交替领先。

此外，所述基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类，其中分类器包括：朴素贝叶斯、逻辑回归、线性支持向量机、K-近邻、CNN、LSTM中的一种或多种。

优选地，本申请分别对不同阶段预处理的语料设置不同的阈值、设置不同的维数、整体提取与类别内提取进行对比实验，获取最好的分类结果。

本申请利用标注的3024条NBA体育战报新闻语句，将其划分为训练集：测试集＝2000：1024的比例作为实验数据，对不同的方法进行测试、对比。

借用文本分类评价中采用的准确率、召回率和F值进行评价。对于类别C，分类的结果可分为以下几种情况：

1)原本为C类被划分为C类，数量记为a；

2)原本为非C类被划分为C类，数量记为b；

3)原本为C类被划分为非C类，数量记为c；

正确率：

召回率：

F值：

通过使用TF-IDF算法，使用训练集对语料进行训练，对测试集语料进行预测。对不同阶段处理过的文本分别进行测试，结果如表4.1所示：

表4.1 TF-IDF分类结果

	训练集正确率	测试集正确率
			不加词表、停用词的结果	0.7305	0.60793804453
加词表、停用词的结果	0.7535	0.645853658537
			将比分替换后	0.7765	0.6865234375

以看出预处理均在一定程度上提高了分类的准确性。对最终的结果进行模型指标评估报告的生成。可以看出使用TF-IDF算法进行文本分类时，对训练集具有较好的拟合程度，准确度达到了77.65％，而对测试集却有较大的差距，仅能达到68.65％。

本申请实施例的一种TF-IDF对句子分类的方法，获取新闻战报句子，对所述句子预处理；提取预处理后的句子的TF-IDF特征；基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类，提高了新闻战报句子的分类精准度。

参见图2，图2是本申请实施例提供基于TF-IDF对句子分类的装置的结构图，能实现上述实施例中基于TF-IDF对句子分类方法的细节，并达到相同的效果。如图2所示，装置200包括预处理模块202和特征提取模块204，分类模块206，其中：

预处理模块202，用于获取新闻战报句子，对所述句子预处理；

特征提取模块204，用于提取预处理后的句子的TF-IDF特征；

分类模块206，用于基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类。

本申请实施例的基于TF-IDF对句子分类的装置，取新闻战报句子，对所述句子预处理；提取预处理后的句子的TF-IDF特征；基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类，提高了新闻战报句子的分类精准度。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于TF-IDF对句子方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种基于TF-IDF对句子分类的方法，其特征在于，包括：

获取新闻战报句子，对所述句子预处理；

提取预处理后的句子的TF-IDF特征；

基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类。

2.根据权利要求1所述的方法，其特征在于，

所述预处理包括：

把比分进行处理，将不同的比分转换为对应的词语。

3.根据权利要求1或2所述的方法，其特征在于，

所述新词表至少包括球员名、球队名、动作专有名词，所述停用词表至少包括球员名、球队名、标点符号、数字、助词。

4.根据权利要求1所述的方法，其特征在于，所述预设的主题类别包括结构类别和内容类别；

其中主题类别至少包括开局、局中和结尾；

5.根据权利要求1所述的方法，其特征在于，提取预处理后的句子的TF-IDF特征的公式为：

其中，|D|是文件总数，|j:t_i∈d_j|是包含词语t_i的文件数目；

计算某一个词的TF-IDF值，公式如下：

tf-idf_i,j＝tf_i,j*idf_j

将每个句子中每个词t_i分别计算TF-IDF值。

6.根据权利要求1所述的方法，其特征在于，所述基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类，其中分类器包括：朴素贝叶斯、逻辑回归、线性支持向量机、K-近邻、CNN或LSTM中的一种或多种。

7.一种基于TF-IDF对句子分类的装置，其特征在于，包括：

预处理模块，用于获取新闻战报句子，对所述句子预处理；

特征提取模块，用于提取预处理后的句子的TF-IDF特征；

分类模块，用于基于所述句子的TF-IDF特征和预设的主题类别对所述新闻战报句子进行分类。

8.根据权利要求7所述的装置，其特征在于，所述预处理模块具体用于：

把比分进行处理，将不同的比分转换为对应的词语。

9.根据权利要求7或8所述的装置，其特征在于，

10.根据权利要求7所述的装置，其特征在于，所述预设的主题类别包括结构类别和内容类别；

其中主题类别至少包括开局、局中和结尾；