CN108062351A

CN108062351A - 关于特定主题类别的文本摘要提取方法、可读存储介质

Info

Publication number: CN108062351A
Application number: CN201711121022.3A
Authority: CN
Inventors: 林志扬; 栾江霞; 王仁斌; 黄南松
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-05-22

Abstract

本发明提供一种关于特定主题类别的文本摘要提取方法、存储介质，通过建立对应主题的单词权值库，以对应特定主题的单词权重为驱动，计算得到每个句子的初始权值，以及两两句子的边权值，再采用改进的PageRank算法进行迭代计算生成文本中每个句子对应特定主题的权重，据此得到摘要。本发明区别于现有技术以当前文本为驱动，所获取的文本摘要不符合用户要求的不足，能够实现在大数据环境下，从各种综合文本中准确提取出与当前主题类别相关的高质量的文本摘要，满足用户对特定主题的文本摘要提取的需求；同时降低提取过程中单词向量空间的维度，降低计算的时间复杂度，满足大数据背景下海量文本处理时的性能需求，为后续文本分析做好铺垫。

Description

关于特定主题类别的文本摘要提取方法、可读存储介质

技术领域

本发明涉及文本信息分析技术领域，具体说的是一种关于特定主题类别的文本摘要提取方法、可读存储介质。

背景技术

在当今时代，是一个信息数据大爆炸的年代，每天面对的网络文本信息也在急速变大，各类文本越来越多，一个文本内容可能分属不同类别，极可能存在对应若干主题的现象。在这种情况下一般的文本摘要算法不能正确反应用户所需要的主题内容。

目前，市场上现有的同类文本摘要提取方法，主要是从当前文本的信息入手，进行对当前文本的主体内容进行识别提取，并结合包括标题、关键词等进行分析文本摘要，这些技术无法满足对指定的主题类别进行分析需求。

针对以上问题，本发明提出一种关于特定主题类别的文本摘要提取方法，主要针对在大数据环境下各种综合文本准确提取出与当前主题类别相关的文本摘要，满足用户对于特定主题的文本摘要提取需求。例如：一篇文章有说假币，也有说涉黄的信息，当前主题类别为打击假币主题，会生成与假币相关的文本摘要，涉黄信息会由于权值不够而被忽略。

发明内容

本发明所要解决的技术问题是：提供一种关于特定主题类别的文本摘要提取方法、可读存储介质，实现准确地提取出与当前主题类别相关的文本摘要。

为了解决上述技术问题，本发明采用的技术方案为：

一种文本摘要提取方法，包括：

依据预设的主题与文本数据的关联性，分别获取预设数量的正样本和反样本；

对所述正样本和反样本进行分词处理，并过滤得到有效的单词集合；

计算所述单词集合中各单词对应所述预设的主题的权值；

存储权值高于第一阈值的单词及其对应的权值至权值库，得到对应所述主题的权值库；

获取一文本数据；

对所述一文本数据进行分句处理，并过滤得到仅包含有效单词的句子；

依据每个所述句子中各单词在权值库中对应的权值，计算两两句子的边权值；

依据所述句子中各单词在权值库中对应的权值，计算每个句子的初始权值；

依据每个句子的初始权值，以及两两句子的边权值，运用PageRank算法，计算得到所述一文本数据中每个句子对应所述预设的主题的权重。

本发明提供的另一个技术方案为：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述步骤。

本发明的有益效果在于：本发明提供一种文本摘要提取方法、存储介质，通过建立对应主题的单词权值库，能够以对应特定主题的单词权重为驱动，计算得到每个句子的初始权值，以及两两句子的边权值，再采用改进的PageRank算法进行迭代计算生成文本中每个句子对应特定主题的权重，据此得到摘要。本发明区别于现有技术以当前文本为驱动，所获取的文本摘要不符合用户要求的不足，能够实现在大数据环境下，从各种综合文本中准确提取出与当前主题类别相关的高质量的文本摘要，满足用户对特定主题的文本摘要提取的需求；同时降低提取过程中单词向量空间的维度，降低计算的时间复杂度，满足大数据背景下海量文本处理时的性能需求，为后续文本分析做好铺垫。

附图说明

图1为本发明一种文本摘要提取方法的流程示意图；

图2为本发明实施例一的S1中针对一特定主题建立对应权值库的步骤流程示意图；

图3为本发明实施例一中创建多主题对应的权值库的流程示意图；

图4为本发明实施例一中使用改进PageRank算法提取一篇文本数据的文本摘要的流程示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

本发明最关键的构思在于：通过建立对应主题的单词权值库，能够以对应特定主题的单词权重为驱动，计算得到每个句子的初始权值，以及两两句子的边权值，再采用改进的PageRank算法进行迭代计算生成文本中每个句子对应特定主题的权重

请参照图1，本发明提供一种文本摘要提取方法，包括：

计算所述单词集合中各单词对应所述预设的主题的权值；

获取一文本数据；

从上述描述可知，本发明的有益效果在于：本发明采用主题类别的单词权值驱动来分析主题摘要，从本质上满足了用户对于不同文本对于不同主题类别的摘要需求，完成摘要后，可进行文本分类或情感分析等高级文本分析功能。在现实中将得到用户的欢迎与认可，极大地方便文本数据再加工的工作。

进一步的，还包括：

依据句子的权重排名，获取预设个数的句子作为所述一文本数据对应所述主题的文本摘要。

由上述描述可知，权重越高的句子与当前确定的主题具有更高的关联性，据此生成的文本摘要更准确、更能符合用户需求。

进一步的，还包括：

计算文本摘要中两两句子之间的相似度；

删除文本摘要中相似度超出第二阈值的两个句子中权重较低的句子；

依据文本摘要中剩余句子的权重，以及剩余句子在所述一文本数据中的位置，确定核心句子；

依据在所述一文本数据中的先后顺序对所述核心句子进行排序，得到最终的文本摘要。

由上述描述可知，依据句子之间的相似度，有效去除重复的句子，以避免摘要出现多个重复或相似句子，实现文本摘要的精简；依据权重和位置进行排序，保证文本摘要的逻辑连贯。

进一步的，还包括：

对应不同的主题，分别构建对应的权值库。

由上述描述可知，还能构建多主题的单词权值库，适应多主题类别的文本摘要提取，提升用户体验，同时满足用户更多需求。

进一步的，所述过滤，具体为：

删除包括停用词、长度为1的单词、表情符号、纯数字以及以数字开头的单词，得到有效的单词集合。

由上述描述可知，能够按照词性对单词进行过滤，滤除无效单词，以此缩小单词数据量，达到降维提效的目的；针对有效单词进行分词，提高提取准确度。

进一步的，所述依据每个句子的初始权值，以及两两句子的边权值，运用PageRank算法，计算得到所述一文本数据中每个句子对应所述预设的主题的权重，具体为：

依据改进后的PageRank算法公式：进行迭代计算，得到所述一文本数据中每个句子对应所述预设的主题的权重；其中，所述WS(V_i)为句子V_i对应所述主题的初始权值；所述d是阻尼系数；所述w_ji为句子V_i与句子V_j的边权值；所述WS(V_j)为句子V_j上一次迭代j的权重。

由上述描述可知，基于本发明的需求，能够灵活的对PageRank算法进行改进，代入每个句子的初始权值，以及两两句子的边权值进行计算，获取每个句子与特定主题的精准的关联度。

进一步的，所述正样本为文本数据与预设的主题为正相关；所述反样本为文本数据与预设的主题为负相关。

由上述描述可知，重视从样本中提出的低词频词有时候更能代表主题类别特征的现象，同时计算得到低词频的权值，保证权值库的全面性和准确性。

进一步的，所述对所述一文本数据进行分句处理，并过滤得到仅包含有效单词的句子，具体为：

依据段落以及一级标点符号，对所述一文本数据进行分句处理，得到第一句子集合；

对所述第一句子集合内长度超过第三阈值的句子，依据二级标点符号进行分句处理，得到第二句子集合；

对所述第二句子集合内的句子分别进行分词处理；

对分词后得到的各个单词进行过滤处理，得到由有效单词构成的各个句子。

由上述描述可知，尽可能细化、准确地分词，提高后续针对分得的各句子计算对应初始权值以及边权值的准确性，以及更好的提取出更精简的文本摘要。

本发明提供的另一个技术方案为：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的步骤。

实施例一

请参照图1至图4，本实施例提供一种文本摘要提取方法，用于提取对应特定主题的文本摘要。

本实施例的方法可以包括：

S1：创建多主题对应的权值库。具体过程参见图3。

如图2所示，针对一个特定主题对应的权值库的创建过程进行详细说明：

S11：依据预设的主题与文本数据的关联性，分别获取预设数量的正样本和反样本。

具体的，依据所设定的主题，通过文本数据与该主题的关联性，进行正样本和反样本的获取。其中，正样本，是指与该主题正相关的文本，在本实施例中，指的是事先标记为属于该主题的文本；反样本，是指与主题无关的文本，在本实施例中，指标记为不属于该主题的文本。正反样本的获取方式，可以是事先由人工进行标记，也可以是相关设备全自动检测标记。同时，需要说明的是，对应所设定的特定主题，一个文本只会对应属于正样本或者反样本的标记。

可选的，所述预设数量大于100，以保证据此获取的权值库的精度，能尽可能的覆盖所有的单词。如对应“假币”这一主题，分别获取500个正样本、2000个反样本。

S12：对所述正样本和反样本进行分词处理，并过滤得到有效的单词集合。

具体的，将包括正样本和反样本的所有文本进行分词处理，将每个句子分割成一系列单词及其词性；对每个单词依据其词性进行过滤，滤除不需要的单词，保留有效的单词。

可选的，过滤机制如下：过滤掉停用词、长度为1的单词、表情符号、纯数字以及以数字开头的单词。所述停用词包含代词、量词、介词、连词、助词、叹词、语气词、拟声词，以及自定义的专门词句。保留的单词包括：名词、机构团体名、其它专名、名词性惯用语、名词性语素、动词、名动词、趋向动词、形式动词、不及物动词(内动词)、动词性惯用语、动词性语素。

S13：计算所述单词集合中各单词在当前主题(预设的主题)中的权值。

文本的(主题)类别与特征词的词频有很大关系。词频越大，说明该词越具有代表性。但实际情况并非如此，有些低频特征词可能更能代表类别特征。也就是说，词频并不足以完全代表某个词在分类中的重要程度。

例如：在假币的主题中有500个正样本、2000个反样本。在正样本中有相关的特征词“假钞”、“高仿人民币”、“手机”；其中，“假钞”出现420次，“高仿人民币”出现20次，“手机”出现350次；显然“假钞”与“手机”为高频词，“高仿人民币”为低频词。但在反样本中，“假钞”与“手机”分别出现221次与811次，“高仿人民币”为2次。从上面可以看出“高仿人民币”更加能代表“假币”这一主题类别，“假钞”次之，“手机”最差。

因此，在本实施例中，采用单词的权值大小来代表该词在分类中的重要程度。

可选的，所采用的计算公式与流程如下所示：

单词属于每个(主题)类别的概率向量计算公式为：

其中，P(W_k|C_j)表示某个单词在某个(主题)类别的概率，其中D为人工标注为C_j类别的文本数，V为单词数，N(W_k,d_l)为单词W_k在文本d_l中的词频。

其中，C_j类别是指预设的主题类别的正样本文本。例如：现在我们有2500个文本，里面包含2个类别“假币”、“涉黄”。其中，C1假币：500篇，C2涉黄：700篇，O其它：1300篇。对于C1假币而言，正样本有500篇，反样本有2000篇。对于C2涉黄而言，正样本有700篇，反样本有1800篇。

上述是单词W_k在主题为C_j中出现的概率，计算单词W_k在主题C_j这一类别的权值公式为：

其中，P(W_k)为单词W_k在所有文本(包括正样本和反样本的所有文本数据，如上述的2500篇)中的出现概率；

MI(W_k,C_j)这个值越大，表示单词W_k与主题C_j这一类别共同出现的概率也越大，也表明单词W_k越来能代表C_j这一主题类别，如果MI(W_k,C_j)低于第一阀值直接放弃。

S14：存储权值高于第一阈值的单词及其对应的权值至权值库，得到对应所述主题的权值库。

将计算出高于预设的第一阈值的主题类别权值及单词保存入库，得到对应该主题类别的权值库。

依据上述S01至S04的方法获取多个不同主题各自对应的权值库。通过构建多个主题对应的单词权值库，实现多主题类别的文本摘要提取，而不限于只能对一种特定主题类别进行文本摘要提取。

S2：使用改进PageRank算法计算一篇文本数据中每一个句子对应上述确定的特定主题的权重。

需要说明的是，样本只是用来生成特定主题权值库，待提取文本摘要的文本数据并非样本中的一篇，其指的是需要生成文本摘要的文本，指在正式工作环境的文本。

具体的，如图4所示，可以包括以下步骤：

S21：获取待提取的文本数据。

S22：对所述文本数据进行分句处理，并过滤得到仅包含有效单词的句子。

可选的，包括：(1)对文本数据，根据段落以及一级标点符号(例如：。！“”《》【】等)进行分句；优选的，同时获得每个句子的长度信息，如果长度超长，将会进行二级标点符号(例如：，：#@等)进行分句，将文本数据分割成一系列句子。T＝[S₁,S₂,...,S_m]；(2)对每个句子进行分词，依据上述S12的方式进行过滤，得到仅包含有效单词的句子。

S23：依据每个所述句子中各单词在权值库中对应的权值，计算两两句子的边权值；即计算文本数据中任意两个句子的相似度，构建句子之间的关系图。

可选的，通过计算两两句子的边权值；其中，Similarity(S_i,S_j)为句子S_i与S_j的相似度，MI(w_k)为单词w_k的在权值库中查到的权值，表示单词w_k在正样本的权值。|S_i|为句子i的单词数，|S_j|为句子j的单词数。

两个句子之间正样本的关键词越相近，它们的相似度也越高，当相似度大于给定的第二阈值，就认为这两个句子语义相关并将它们连接起来，这两条句子的边的权值为w_ij＝Similarity(S_i,S_j)。

S24：依据所述句子中各单词在权值库中对应的权值，计算每个句子的初始权值。

可选的，依据计算每个句子的初始权值；其中w_k为句子V_i中的单词，MI(w_k)为单词w_k的在权值库中查到的权值，WS(V_i)表示句子V_i在这个主题的默认权值。

S25：依据每个句子的初始权值，以及两两句子的边权值，运用PageRank算法，计算得到所述一文本数据中每个句子对应所述预设的主题的最终权重。即采用改进式PageRank进行句子权重计算，迭代传播权重计算各句子的得分。

需要说明的是，现有的PageRank算法是用来计算网页的重要性。通过将整个www可以看作一张有向图图，节点是网页。如果网页A存在到网页B的链接，那么有一条从网页A指向网页B的有向边。公式如下所示：

其中，S(Vi)是网页i的重要性(PR值)；d是阻尼系数，一般设置为0.85。In(Vi)是存在指向网页i的链接的网页集合；Out(Vj)是网页j中的链接存在的链接指向的网页的集合；|Out(Vj)|是集合中元素的个数。

PageRank需要使用上面的公式多次迭代才能得到结果。初始时，可以设置每个网页的重要性为1。上面公式等号左边计算的结果是迭代后网页i的PR值，等号右边用到的PR值全是迭代前的。

在本实施例中，将PageRank公式主要修改如下：

(1)将步骤S23计算得到的每个句子的初始权值作为每个句子对应这个特定主题的默认初始值，即每个句子的初始权重为：

(2)计算公式修改：

其中：w_ij＝Similarity(S_i,S_j)为两个句子V_i和V_j的边权值；WS(V_j)为句子V_j上一次迭代j的权重。

以各个单词在正样本中的权值(即初始权值)为基础，经过上面公式的迭代计算后，可以计算出所有句子最终的权重。

S3：依据文本数据中每个句子的权重提取文本摘要。

具体的，可以包括：

S31：S2最终得到的句子得分(句子最终权重)进行倒序排序，抽取权重最高的T个句子作为文本摘要。权重越高的句子越能表现出这个文本在正样本体系的代表。

S32：计算权重最高T个句子之间的相似度，如果两者相似度很高，超过最高阀值(第二阈值)，表明这两个句子可能是重复句子，两者中取权重较高者留下。

S33：对留下的句子的权重值以及句子的位置信息选择核心句子，结合句子在文章中的先后顺序进行排序后作为文本摘要的结果进行输出。

下面就上述提供一具体实施方式：

从网上进行收集假币主题的正样本500个，其它文本2000个为反样本。采用本实施例生成“假币”主题的单词权值。

然后在大数据背景下，在采用本实施例生成关于假币主题摘要后，再采用SVM算法进行文本分类识别，处理速度提升了3倍，识别准确性也从76.9％提升到85.2％。

主要在以下几个方面有提升，1、生成摘要过程中所需要处理的文本量更少。2、自动把与假币主题有关的句子摘取出来，然后进行识别，更精准，同时降低漏报率。

实施例二

本实施例对应实施例二，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时能实现实施例一所述的步骤。

综上所述，本发明提供的一种文本摘要提取方法、可读存储介质，不仅能够实现以对应特定主题的单词权重为驱动，准确地提取出与当前主题类别相关的文本摘要；满足用户对特定主题的文本摘要提取的需求；而且降低提取过程中单词向量空间的维度，降低计算的时间复杂度，满足大数据背景下海量文本处理时的性能需求，为后续文本分析做好铺垫。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种关于特定主题类别的文本摘要提取方法，其特征在于，包括：

计算所述单词集合中各单词对应所述预设的主题的权值；

获取一文本数据；

2.如权利要求1所述的关于特定主题类别的文本摘要提取方法，其特征在于，还包括：

3.如权利要求2所述的关于特定主题类别的文本摘要提取方法，其特征在于，还包括：

计算文本摘要中两两句子之间的相似度；

删除相似度超出第二阈值的两个句子中权重较低的句子；

4.如权利要求1所述的关于特定主题类别的文本摘要提取方法，其特征在于，还包括：

对应不同的主题，分别构建对应的权值库。

5.如权利要求1所述的关于特定主题类别的文本摘要提取方法，其特征在于，所述过滤，具体为：

6.如权利要求1所述的关于特定主题类别的文本摘要提取方法，其特征在于，所述依据每个句子的初始权值，以及两两句子的边权值，运用PageRank算法，计算得到所述一文本数据中每个句子对应所述预设的主题的权重，具体为：

7.如权利要求1所述的关于特定主题类别的文本摘要提取方法，其特征在于，所述正样本为文本数据与预设的主题为正相关；所述反样本为文本数据与预设的主题为负相关。

8.如权利要求1所述的关于特定主题类别的文本摘要提取方法，其特征在于，所述对所述一文本数据进行分句处理，并过滤得到仅包含有效单词的句子，具体为：

对所述第二句子集合内的句子分别进行分词处理；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8任意一项所述的步骤。