CN109960724A

CN109960724A - 一种基于tf-idf的文本摘要方法

Info

Publication number: CN109960724A
Application number: CN201910191106.7A
Authority: CN
Inventors: 张涛; 陈才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-07-02
Anticipated expiration: 2039-03-13
Also published as: CN109960724B

Abstract

本发明公开了一种基于TF‑IDF的文本摘要方法，本方法的步骤实现如下，中文分词；去停用词；计算词语的TF‑IDF；计算句子的TF‑IDF；计算句子的位置特征；计算句子的重要度；筛选关键句；输出文本摘要；将句子所包含的关键词的TFIDF值作为权重，对于核心词关键词和一般关键词给予不同的权重。同时，为了防止句子长度不一致对结果产生影响，引入了滑动窗口，使用句子中最大的滑动窗口的重要度作为句子重要度，并结合句子长度和句子位置等特征对句子进行排序，在多个语料上达到了不错的效果。

Description

一种基于TF-IDF的文本摘要方法

技术领域

本发明属于自然语言处理中自动文本摘要领域，尤其涉及一种抽取式文本摘要方法的创新。

背景技术

在文本摘要方面，有两种主流的摘要生成方式，抽取式和生成式。

1抽取式文本摘要现状

抽取式是指在原文的基础上，通过某种方法对句子的重要程度进行评估，根据句子的重要程度找出与原文意思最相近的一条或多条句子作为摘要。现阶段，对于抽取式摘要生成方法的研究相对成熟，抽取式文本摘要假定一篇文章可以通过文章中比较重要的句子来表达其含义，因此摘要任务就变成了找到文章中最重要的几句话，其核心问题是对文章中的句子进行排序。现有的排序方法有两大类：

1)基于图排序，该方法将每句话做为一个节点，句子的相似度作为边的权值，使用TextRank的方法获取句子的得分，TextRank算法是一种用于文本的基于图的排序算法，通过把文本分割成若干组成单元(句子)，构建节点连接图。用句子之间的相似度作为边的权重，通过循环迭代计算句子的TextRank值，最后抽取排名高的句子组合成文本摘要。基于特征的排序方法，基于句子本身的一些特征对句子进行排序，常用的特征有句子长度；句子位置，文章的中心句一般会出现的文章的前几句，根据句子在文章中的文章给出分数；句子包含关键词的个数，文本经过分词处理后提前关键词，根据句子包含关键词的数量给出对应的分数，本论文就是基于该方法的改进。

2生成式文本摘要

生成式摘要系统是指计算机在理解原文后，根据理解后的内容输出摘要，类似于人在做完阅读理解后对文章做出总结。

生成式文本摘要的主要模型通常是采用深度学习中的seq2seq模型，在此基础上添加了attention机制。其中seq2seq模型包含两个部分，1)编码器，主要负责对原文进行编码2)解码器，负责对摘要进行解码。通常编码器和解码器使用的RNN系列的具有序列学习能力的模型，如LSTM，GRU，BiLSTM，及其变体。谷歌最新公开的textsum模型就是采用的seq2seq+attention实现的文本摘要，可以得到比较好的结果。但是训练RNN需要很长的时间，需要巨大的计算资源。

3TF-IDF算法

1)定义

TFIDf是一种用来评估词语对于文档的重要程度的评价指标，一个词的重要程度与它在该文章中出现的频率成正比，与它在其他文档中出现的频率成反比。TF-IDF分为两个部分，TF词频，IDF逆文档频率，TF表示词语在文档D中出现的频率，可以由词数除以文档总词数得到，IDF是一个词语普遍重要度的衡量，可以由文档总数除以包含该词的文档数量，再将得到的商取以10为底的对数得到，在计算过程中为了防止分母为零导致计算错误，通常会将分母进行加一处理。

2)计算方法

TF-IDF的计算方法分为两个部分，

对于分词完成后句子的每个词语，计算其TF值，TF的计算公式为：

IDF值公式计算：

在计算idf的时候如果包含词语的文档数量为零会导致分母为零的情况出现，所以一般情况下会对分母部分进行加一处理，修正后的idf计算公式为：

Tfidf值计算：

tfidf_i,j＝tf_i,j*idf_i,j (4)

其中：i是当前词在文档中的标号，j是当前文档在语料中的标号

|D|：语料中的文档总数

发明内容

本发明提出了一种基于TF-IDF的摘要方法，将句子所包含的关键词的TFIDF值作为权重，对于核心词关键词和一般关键词给予不同的权重。同时，为了防止句子长度不一致对结果产生影响，引入了滑动窗口，使用句子中最大的滑动窗口的重要度作为句子重要度，并结合句子长度和句子位置等特征对句子进行排序，在多个语料上达到了不错的效果。

本发明采用的技术方案为一种基于TF-IDF的文本摘要方法，该

方法处理步骤包括如下：

S1.预处理

分词；在英文文本中存在天然的分割符，在中文中词语之间没有特殊的符号进行分割，而且中文中以双字词和多字词居多，文本的分词是中文处理中的第一步，也是至关重要的一步，中文分词的准确与否，它会对后续步骤产生重要的影响本研究使用了foolnltk作为分词器。

2)去停用词；分词后的文本往往包含很多无关紧要的词语，将它们加入运算会影响最终结果的准确性，同时更多的词也需要更多的计算性能，本研究使用了停用词表进行筛选。在分词完成参照停用词表对原始数据进行处理，删除一些噪声词。

S2计算TF-IDF

1)构造词典；

对于分词完成的文本，进行去停用词处理，将所有的词语，添加到词典里面。

2)词语出现的文档数量；

统计词典中每个出现的词所在的文档数量，为了保证计算效率，可以按文档进行遍历，对于一篇文档，将所有出现的词放在一个集合里面，对于集合里面的每一个词，将该词的文档数量加一。

3)计算每篇文章每个词的TFIDF；

构造一个与文档长度相同的数组，数组的每个元素存储一篇文章所有词的TFIDF，用字典进行存储，对于每篇文档的每个词，先计算其TF词频(词数/文档总词数)，再计算IDFlog(文档总数/(1+包含该词的文档数))，TF-IDF＝TF*IDF。

S3句子的重要度

通过词语来评估句子的重要程度，现有的研究方法有，先通过TFIDF或其他方法来提取文档的关键词，按重要度进行倒排，取前N个关键词作为文档的关键词，再计算每个句子包含的关键词数目，用关键词数量除以总词数作为句子的重要程度。该方法没有考虑到词语重要程度，实际上核心关键词和一般关键词对于句子重要度的贡献程度是不一样的，同时句子的长度也会影响计算的结果，如果目标核心句过长，会导致包含信息量比较稀疏，最终影响计算结果。

针对第一个问题，通过用词的TF-IDF值来代表词的重要程度，来对核心词和一般词进行区分。针对第二个问题，提出了两种解决方案，方案一：取每个句子中TF-IDF最大的K个词的均值作为句子的TF-IDF值，方案二：设置滑动窗口大小W，从句子开头开始，计算每个窗口内词语的TF-IDF均值，用均值最大的滑动窗口的TF-IDF值代替句子的TF-IDF，句子的TFIDF重要公式如下：

其中：tfidf表示获取词在该文档中的tfidf值，w_i表示第i个滑动窗口，word表示处于滑动窗口的词，|w_i|表示滑动窗口大小。

获取句子的TF-IDF后，对其进行归一化处理，作为句子的TF-IDF特征。根据句子的位置信息，提取句子的位置特征，文档的中心句往往会出现在文档的开始，因此越接近文档开始的句子其重要程度会越高，综合句子的各方面特征做出最终排序，句子重要度的技术公式如下：

其中w₁，w₂是两部分特征的权重，|D|文档包含的句子数量sentence_index表示句子在文档中位置，从1开始计算。

使用句子重要度排序后根据摘要长度要求筛选出候选句子，但是筛选出来的句子在阅读上可能无法保证原文的逻辑性，因此需要按照句子的原生顺序进行排列后输出。

附图说明

图1是本发明中使用TFIDF进行文本摘要的整体流程。

图2是本发明中分词完成后的结果图。

图3是本发明中词的TFIDF计算完成后的结果图。

图4是本发明中使用滑动窗口计算句子的TF-IDF后的的结果图。

图5是本发明中按照句子重要度排序后的结果图。

图6是本发明中按照句子重要度进行筛选出前4条句子后的结果图。

图7是本发明中按照句子原始顺序排序后的结果图。

具体实施方式

结合说明书附图对发明的实施方式进行描述，中文文本摘要主要分为以下步骤，

S1中文分词

中文的是指将一个由汉字和其他常规字符组成的连续序列，按照中文理解方法，将其划分为单个的词语，在实施过程中可以使用jieba分词工具对文本进行分词，分词完的句子如图2所示，可以看到这个句子被分割成了单个的词语

S2去停用词

在正常的中文文本中通常会包含句号，逗号，分号等特殊符号，在分词完成后，这些标点符号就不需要继续存在，其次句子中包含了一些对句子重要度影响很小的词语，如的，了，不仅，而且，等词语，在后续步骤中不需要使用，因此在预处理对其进行删除处理。

S3计算词语的TF-IDF

使用公式(1)计算句子中每个词的Tf值，使用改进后的公式(3)计算该词的IDF值，再使用公式(4)计算出该词的TFIDF值，计算完TFIDF值后的文本如图3所示。

S4计算句子的TF-IDF

在计算完词语的TF-IDF值后，使用滑动窗口方法计算出每个句子中每个滑动窗口内所有词语的TF-IDF值，再根据公式(5)计算出句子的TF-IDF值，句子的TF-IDF计算完成后如图4所示。

S5计算句子的位置特征

对每个句子进行编号，从1开始编号，用句子的当前位置除以文档中句子总数，再计算出其倒数，最后再取结果的log值作为句子的位置特征。

S6计算句子的重要度

计算完句子的TFIDF值和句子的位置特征后，根据公式(6)计算出句子的重要度，最后按句子重要度降序排列，排列后的句子如图5所示。

S7筛选关键句

根据文本摘要中的需求，按照句子重要度，筛选出特定数量或特定字数的句子，作为最终的候选句，筛选完成后的句子如图6所示。

S8输出文本摘要

对于筛选出来的句子，为了尽可能的保证摘要的可读性，对所有候选句按照原始的序号进行升序排列，升序排列后如图7所示，最后根据需求将所有候选句按照逗号或句号连接即可。

Claims

1.一种基于TF-IDF的文本摘要方法，其特征在于：该方法处理步骤包括如下，

S1.预处理

分词；在英文文本中存在天然的分割符，在中文中词语之间没有特殊的符号进行分割，而且中文中以双字词和多字词居多，文本的分词是中文处理中的第一步，也是至关重要的一步，中文分词的准确与否，它会对后续步骤产生重要的影响本研究使用了foolnltk作为分词器；

去停用词；分词后的文本往往包含很多无关紧要的词语，将它们加入运算会影响最终结果的准确性，同时更多的词也需要更多的计算性能；在分词完成参照停用词表对原始数据进行处理，删除一些噪声词；

S2计算TF-IDF

1)构造词典；

对于分词完成的文本，进行去停用词处理，将所有的词语，添加到词典里面；

2)词语出现的文档数量；

统计词典中每个出现的词所在的文档数量，为了保证计算效率，可以按文档进行遍历，对于一篇文档，将所有出现的词放在一个集合里面，对于集合里面的每一个词，将该词的文档数量加一；

3)计算每篇文章每个词的TFIDF；

构造一个与文档长度相同的数组，数组的每个元素存储一篇文章所有词的TFIDF，用字典进行存储，对于每篇文档的每个词，先计算其TF词频即词数/文档总词数，再计算IDF log即文档总数/(1+包含该词的文档数)，TF-IDF＝TF*IDF；

S3句子的重要度

通过用词的TF-IDF值来代表词的重要程度，来对核心词和一般词进行区分；取每个句子中TF-IDF最大的K个词的均值作为句子的TF-IDF值；设置滑动窗口大小W，从句子开头开始，计算每个窗口内词语的TF-IDF均值，用均值最大的滑动窗口的TF-IDF值代替句子的TF-IDF，句子的TFIDF重要公式如下：

其中：tfidf表示获取词在该文档中的tfidf值，w_i表示第i个滑动窗口，word表示处于滑动窗口的词，|w_i|表示滑动窗口大小；

获取句子的TF-IDF后，对其进行归一化处理，作为句子的TF-IDF特征；根据句子的位置信息，提取句子的位置特征，文档的中心句往往会出现在文档的开始，因此越接近文档开始的句子其重要程度会越高，综合句子的各方面特征做出最终排序，句子重要度的公式如下：

其中w₁，w₂是两部分特征的权重，|D|文档包含的句子数量sentence_index表示句子在文档中位置，从1开始计算；

2.根据权利要求1所述的一种基于TF-IDF的文本摘要方法，其特征在于：

S1中文分词

中文的是指将一个由汉字和其他常规字符组成的连续序列，按照中文理解方法，将其划分为单个的词语，在实施过程中可以使用jieba分词工具对文本进行分词，看到这个句子被分割成了单个的词语；

S2去停用词

在正常的中文文本中通常会包含句号，逗号，分号等特殊符号，在分词完成后，这些标点符号就不需要继续存在，其次句子中包含了一些对句子重要度影响小的词语，在后续步骤中不需要使用，因此在预处理对其进行删除处理；

S3计算词语的TF-IDF

计算句子中每个词的Tf值，使用改进后的公式计算该词的IDF值，再计算出该词的TFIDF值；

S4计算句子的TF-IDF

在计算完词语的TF-IDF值后，使用滑动窗口方法计算出每个句子中每个滑动窗口内所有词语的TF-IDF值，再计算出句子的TF-IDF值；

S5计算句子的位置特征

对每个句子进行编号，从1开始编号，用句子的当前位置除以文档中句子总数，再计算出其倒数，最后再取结果的log值作为句子的位置特征；

S6计算句子的重要度

计算完句子的TFIDF值和句子的位置特征后，计算出句子的重要度，最后按句子重要度降序排列；

S7筛选关键句

根据文本摘要中的需求，按照句子重要度，筛选出特定数量或特定字数的句子，作为最终的候选句；

S8输出文本摘要

对于筛选出来的句子，为了尽可能的保证摘要的可读性，对所有候选句按照原始的序号进行升序排列，最后根据需求将所有候选句按照逗号或句号连接即可。