CN112307205A

CN112307205A - 基于自动摘要的文本分类方法、系统及计算机存储介质

Info

Publication number: CN112307205A
Application number: CN202011138198.1A
Authority: CN
Inventors: 张凯; 齐军华; 周建设; 刘杰
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-02-02

Abstract

本申请设计了自动摘要生成算法来实现电子文档核心思想(即文档摘要)的快速获取，并利用获取的摘要中的关键词来实现对该篇电子文档的准确标引分类，从而有效解决了人工标引所存在的效率低、易出错的问题，极大的提高了数据标引的效率。另外，本申请设计的自动摘要生成算法，在传统的概率统计方法的基础上充分考虑了领域内的知识，将领域词典运用到摘要算法当中，显著提高了自动摘要生成的效率及准确度。于是，本申请的数据标引方法能够实现数据自动标引的准确与高效的良好平衡。

Description

基于自动摘要的文本分类方法、系统及计算机存储介质

技术领域

本申请涉及数据标引技术领域，具体而言，涉及一种基于自动摘要的文本分类方法、系统及计算机存储介质。

背景技术

文献标引是建立文献数据仓库的关键步骤，标引质量的优劣会直接影响后续的计算机检索效率。目前，每个文献库都有专职从事标引工作的标引人员，也即一般需要大量人员进行人工标引。但是，由于人工标引所存在的效率低，易出错的问题，目前的发展趋势是人工标引慢慢的向机器自动标引过渡。然而，现有技术中目前尚未有能够良好平衡准确与高效的文本分类技术。

因此，现有技术存在的上述问题亟待改进。

发明内容

为了解决上述人工标引速度慢、易出错的技术问题，本申请提供了一种基于自动摘要的文本分类方法、系统及计算机存储介质。

本申请的第一方面提供了一种基于自动摘要的文本分类方法，所述方法包括：

S1、处理器接收需要进行标引的电子文档数据；

S2、所述处理器对所述电子文档数据进行分词处理，并调动自动摘要生成算法生成对应的摘要；

S3、基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序，选择排序前N个的分词作为目标标引词；

S4、标引模块基于所述目标标引词对所述电子文档进行标引，从而实现文本分类。

优选地，所述步骤S2中的调动自动摘要生成算法生成对应的摘要，包括：

S21、提取单篇电子文档数据的所有词语并进行统计分析；

S22、根据词语的词频分布信息获取关键词集合，使用所述电子文档所属领域特征词词典和标题确定文本关键词的权重；

S23、计算文本中所有句子的初始权重，使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化；

S24、根据句子的最终权重进行排序，筛选出权重较高的关键句集合，按原文的顺序输出摘要。

优选地，所述步骤S22，包括：遍历抽取的文本关键词集合，如果当前词存在于所述电子文档所属领域特征词词典中，则增加该关键词的权重；否则，就不增加该关键词的权重；

对标题进行切分，得到标题词集合，遍历抽取的文本关键词集合，如果当前词存在于标题词集合中，则增加该关键词的权重，否则，就不增加该关键词的权重。

优选地，步骤S23中对文本关键词权重进行优化的计算公式为：

P(W)＝F(W)*log(S/S_f)*C(W)*T(W)

其中C(W)是所述电子文档所属领域特征词词典的优化因子，T(W)是标题的优化因子。

所述文本中所有句子的初始权重的计算方式为：

P_S(S_j)＝∑P_W(W_ji)/L(S_j)

其中P_S(S_j)为句子S_j的权重，∑P_W(W_ji)为句子S_j中关键词的权重之和，L(S_j)是句子S_j中包含的词条的个数。

优选地，步骤S23中，所述使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化，包括：对文本中的初始关键句子进行扫描，如果当前句子中包含新词，则给出现的新词赋予一定的权重，并将这些权重之和加到该句的权重中；对文本中首段末段所有句子，每段的段首句和段尾句进行加权。

优选地，对所述句子的权重进行优化的计算公式为：

P_S(S_j)＝∑P_W(W_ji)/L(S_j)*N(S_j)*T(S_j)

其中N(S_j)表示所述电子文档所属领域新词词典的对加权因子，T(S_j)表示篇章结构的加权因子。

优选地，所述步骤S4中标引模块基于所述目标标引词对所述电子文档进行标引，从而实现文本分类，包括：计算各目标标引词的组合特征向量，并计算与其最接近的标准点，抽取该标准点数据的分类号作为学科相似分类号。

本申请的第二方面提供了一种基于自动摘要的文本分类系统，所述系统包括接收模块、处理器和标引模块：

所述接收模块，用于接收需要进行标引的电子文档数据，并传输给处理器；

所述处理器，用于接收所述接收模块传输的电子文档数据，对所述电子文档数据进行分词处理，并调动自动摘要生成算法生成对应的摘要；基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序，选择排序前N个的分词作为目标标引词；

所述标引模块，用于基于所述目标标引词对所述电子文档进行标引，从而实现文本分类。

本申请的第三方面提供了一种基于自动摘要的文本分类设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如前述所述的文本分类方法。

本申请的第四方面提供了一种基于自动摘要的存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如前述所述的文本分类方法。

本发明的有益效果在于：

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种基于自动摘要的文本分类方法的流程示意图；

图2是本申请实施例公开的一种基于自动摘要的文本分类系统的结构示意图；

图3是本申请实施例公开的一种基于自动摘要的文本分类设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

实施例一

请参阅图1，图1是本申请实施例公开的一种基于自动摘要的文本分类方法的流程示意图。如图1所示，本申请实施例的一种基于自动摘要的文本分类方法，所述方法包括：

S1、处理器接收需要进行标引的电子文档数据；

在本申请实施例中，本申请采用自动摘要生成算法快速的获取输入的电子文档的摘要，然后再基于获取的摘要中的分词的词频确定出目标标引词，并基于目标标引词最终实现对该电子文档的自动快速分类，有效解决了现有技术中人工标引所存在的效率低、易出错的问题，而且还可实现数据自动标引的准确与高效的良好平衡。

另外，由于文档内容的复杂性，生成的自动摘要实际上也是无法保证百分之百的准确度的，所以，本申请的技术方案并非直接采用自动摘要中的分词进行数据标引，而是同时还考虑了该分词在文档中的出现概率，即仅将词频大于一定阈值或自动摘要中的分词词频排序为前N个的分词作为最终的目标标引词，从而进一步保证了目标标引词选取的准确度，相应地，也就提高了文档标引分类的准确度。

在本可选的实施方式中，所述步骤S2中的调动自动摘要生成算法生成对应的摘要，包括：

S21、提取单篇电子文档数据的所有词语并进行统计分析；

另外，步骤S2也可以为：根据词语的词频分布信息获取关键词集合，并计算关键词的初始权重，所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化；

相应地，所述关键词的初始权重的计算方式为：

P(W)＝F(W)*log(S/S_f)

其中P(W)为词语W在文档D中的权重，F(W)为W在文档D中的出现频率，S为文档D中的句子总数，S_f为W在文档句子集合中出现的总次数。

在本申请实施例中，文本经过分词、去停用词处理后被分成词语序列，传统的方法时把该序列中出现次数较高的词语抽取出来作为该文本的关键词，然而这种方法并没有考虑到词语在文本中的分布情况。本申请还可基于词语在文本中的分布情况来确定关键词的初始权重，即：如果一个词在文本中具有较高的出现频率并且该词在文本中的分布较均匀，则将该词划分为文本的关键词，否则该词不为文本的关键词。

在本可选的实施方式中，所述步骤S22，包括：遍历抽取的文本关键词集合，如果当前词存在于所述电子文档所属领域特征词词典中，则增加该关键词的权重；否则，就不增加该关键词的权重；

在本可选的实施方式中，步骤S23中对文本关键词权重进行优化的计算公式为：

P(W)＝F(W)*log(S/S_f)*C(W)*T(W)

所述文本中所有句子的初始权重的计算方式为：

P_S(S_j)＝∑P_W(W_ji)/L(S_j)

在本申请实施例中，单纯的基于词语的分布情况来提取关键词，难以避免会提取到一些与本领域无关的噪音词，并且忽略了某些低频词对文档的影响，特别是出现在标题中的低频词，往往对文档有重要的影响。对此，本申请提出使用领域特征词词典和标题信息对文本中的关键词的权重进行优化。

在本可选的实施方式中，步骤S23中，所述使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化，包括：对文本中的初始关键句子进行扫描，如果当前句子中包含新词，则给出现的新词赋予一定的权重，并将这些权重之和加到该句的权重中；对文本中首段末段所有句子，每段的段首句和段尾句进行加权。

在本可选的实施方式中，对所述句子的权重进行优化的计算公式为：

P_S(S_j)＝∑P_W(W_ji)/L(S_j)*N(S_j)*T(S_j)

在本申请实施例中，考虑文本的篇章结构是为了从整体上对文本的内容进行把握，经过对领域内的文本进行分析后发现，文本中不同位置的句子，对文本有不同的影响，文本的首段末段往往是对文本中心思想的概括性阐述，文本中每段的段首句和段尾句往往是对该段的中心思想进行概括性的描述，进而间接反映着文本的中心思想。因此，本申请对文本中首段末段所有句子，每段的段首句和段尾句进行了上述加权。

在本可选的实施方式中，所述步骤S4中标引模块基于所述目标标引词对所述电子文档进行标引，从而实现文本分类，包括：计算各目标标引词的组合特征向量，并计算与其最接近的标准点，抽取该标准点数据的分类号作为学科相似分类号。

在本申请实施例中，学科相似分类号可由本领域技术人员根据实际分类需要自行确定，例如，可以为中图-学科分类号、专利分类号等等，本申请对此不作限定。

实施例二

请参阅图2，图2是本申请实施例公开的一种基于自动摘要的文本分类系统的结构示意图。如图2所示，本申请实施例的一种基于自动摘要的文本分类系统，所述系统包括接收模块、处理器和标引模块：

实施例三

请参阅图3，图3是本申请实施例公开的一种基于自动摘要的文本分类设备的结构示意图。如图3所示，本申请实施例的基于自动摘要的文本分类设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如第一实施例所述的文本分类方法。

实施例四

本申请实施例提供一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如第一实施例所述的文本分类方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于自动摘要的文本分类方法，应用于电子设备，其特征在于：所述方法包括：

S1、处理器接收需要进行标引的电子文档数据；

2.根据权利要求1所述的方法，其特征在于：所述步骤S2中的调动自动摘要生成算法生成对应的摘要，包括：

S21、提取单篇电子文档数据的所有词语并进行统计分析；

3.根据权利要求2所述的方法，其特征在于：所述步骤S22，包括：遍历抽取的文本关键词集合，如果当前词存在于所述电子文档所属领域特征词词典中，则增加该关键词的权重；否则，就不增加该关键词的权重；

对标题进行切分，得到标题词集合，遍历抽取的文本关键词集合，如果当前词存在于标题词集合中，那么就增加该关键词的权重，否则，就不增加该关键词的权重。

4.根据权利要求2所述的方法，其特征在于：步骤S23中对文本关键词权重进行优化的计算公式为：

P(W)＝F(W)*log(S/S_f)*C(W)*T(W)

其中C(W)是所述电子文档所属领域特征词词典的优化因子，T(W)是标题的优化因子；

所述文本中所有句子的初始权重的计算方式为：

P_S(S_j)＝∑P_W(W_ji)/L(S_j)

5.根据权利要求1所述的方法，其特征在于：步骤S23中，所述使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化，包括：对文本中的初始关键句子进行扫描，如果当前句子中包含新词，则给出现的新词赋予一定的权重，并将这些权重之和加到该句的权重中；对文本中首段末段所有句子，每段的段首句和段尾句进行加权。

6.根据权利要求1所述的方法，其特征在于：对所述句子的权重进行优化的计算公式为：

P_S(S_j)＝∑P_W(W_ji)/L(S_j)*N(S_j)*T(S_j)

7.根据权利要求1所述的方法，其特征在于：所述步骤S4中标引模块基于所述目标标引词对所述电子文档进行标引，从而实现文本分类，包括：计算各目标标引词的组合特征向量，并计算与其最接近的标准点，抽取该标准点数据的分类号作为学科相似分类号。

8.一种基于自动摘要的文本分类系统，其特征在于：所述系统包括接收模块、处理器和标引模块：

9.一种文本分类设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的文本分类方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的文本分类方法。