CN109783616A

CN109783616A - 一种文本主题提取方法、系统和存储介质

Info

Publication number: CN109783616A
Application number: CN201811467779.2A
Authority: CN
Inventors: 赵淦森; 林成创; 列海权; 纪求华; 赵淑娴; 陈冰川; 李振宇; 邓水凤; 朱俊杰; 冯梦珂; 颜志鸿; 孙元基; 欧小梅; 刘秋敏; 黄伟雄
Original assignee: Guangdong Weihai Big Data Technology Co Ltd
Current assignee: Guangdong Weihai Big Data Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-05-21

Abstract

本发明公开了一种文本主题提取方法、系统和存储介质，所述方法包括以下步骤：单独提取当前文本集合中每个文本的主题词集合；所述主题词集合包括若干个主题词和每个主题词所对应的权重值；将当前文本集合中所有文本的主题词集合进行并集操作，得到第一主题词集合；根据第一主题词集合生成词云或者词表；当添加文本时，将新的本文的主题词集合与第一主题词集合进行并集操作，并更新词云或者词表；当删除文本时，在第一集合中减去被删除文本各主题词的权重，并更新词云或者词表。本发明相对于现有技术大大减少了运算量，缩短了词云或者词表的更新时间，提升了更新的实时性。本发明可以广泛应用于数据处理技术。

Description

一种文本主题提取方法、系统和存储介质

技术领域

本发明涉及数据处理技术，尤其是一种文本主题提取方法、系统和存储介质。

背景技术

常规文本内容的主题词提取在自然语言处理的领域中已经具有非常成熟的解决方案，对于固定数量的文本集合，当前的数据处理技术可以提取出该文本集合的主题词。但是当文本集合的范围发生变化时，却需要经过重新训练计算，才能获取变化后的主题词。

在一些资讯应用中，后台服务器通过数据采集程序，不断地从互联网上采集不同类别的资讯，并对不同类别的资讯进行分类，然后分别对每个类别的资讯内容抽取主题词，形成每个类别的词云，但是一旦选定的类别的文本集合中有新的资讯被加入或者有旧的资讯被剔除时，该类别的词云需要根据最新的文本集合进行更新。

如果采用现有技术来实现该功能，那么需要将该类别的文本集合中的所有资讯一起进行训练，抽取新的主题词，再形成新的词云。那么意味着每当有新的资讯被加入或者有旧的资讯被剔除时都需要对历史的资讯进行计算，对计算资源造成了浪费，同时由于计算量庞大，不能做到实时更新。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种能够节省计算资源并且能够实时更新的文本主题提取方法、系统和存储介质。

本发明所采取的第一种技术方案是：

一种文本主题提取方法，包括以下步骤：

单独提取当前文本集合中每个文本的主题词集合；所述主题词集合包括若干个主题词和每个主题词所对应的权重值；

将当前文本集合中所有文本的主题词集合进行并集操作，得到第一主题词集合；其中，并集操作为：将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词，并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值；

根据第一主题词集合生成词云或者词表；

当有新的文本被添加到当前的文本集合时，提取新的文本的主题词集合，将第一主题词集合与新的文本的主题词集合进行并集操作，得到第二主题词集合；并根据第二主题词集合更新词云或者词表；

当有原有的文本从当前的文本集合被删除时，将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减，然后将权重值等于0的主题词删除，得到第三主题词集合，并根据第三主题词集合更新词云或者词表。

进一步，在所述词云中权重值越大的主题词所显示的字体越大；在所述词表中权重值越大的主题词排名越前。

进一步，所述单独提取当前文本集合中每个文本的主题词集合，其具体为：

对当前文本集合中的每个文本进行以下处理：

提取文本的主题词以及主题词在该文本中的权重值；

将权重值大于设定阈值的所有主题词组成该文本的主题词集合。

进一步，所述提取文本的主题词以及主题词在该文本中的权重值，其具体为：

采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。

本发明所采取的第二种技术方案是：

一种文本主题提取系统，包括：

提取模块，用于单独提取当前文本集合中每个文本的主题词集合；所述主题词集合包括若干个主题词和每个主题词所对应的权重值；

合并操作模块，用于将当前文本集合中所有文本的主题词集合进行并集操作，得到第一主题词集合；其中，并集操作为：将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词，并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值；

生成模块，用于根据第一主题词集合生成词云或者词表；

更新模块，用于当有新的文本被添加到当前的文本集合时，提取新的文本的主题词集合，将第一主题词集合与新的文本的主题词集合进行并集操作，得到第二主题词集合；并根据第二主题词集合更新词云或者词表；

以及用于当有原有的文本从当前的文本集合被删除时，将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减，然后将权重值等于0的主题词删除，得到第三主题词集合，并根据第三主题词集合更新词云或者词表。

对当前文本集合中的每个文本进行以下处理：

提取文本的主题词以及主题词在该文本中的权重值；

本发明所采取的第三种技术方案是：

一种文本主题提取系统，包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行一种文本主题提取方法。

本发明所采取的第四种技术方案是：

一种存储介质，其存储有程序，所述程序被处理器执行时，实现一种文本主题提取方法。

本发明的有益效果是：本发明在添加和删除文本集合中的文本时，只需要进行少量文本的主题词集合提取和简单的权重值加减，即可得到新的文本集合的主题词集合，相对于现有技术大大减少了运算量，缩短了词云或者词表的更新时间，提升了更新的实时性。

附图说明

图1为本发明一种具体实施例的文本主题提取方法的流程图。

具体实施方式

下面结合说明书附图和具体的实施例对本发明进行进一步的说明。

参照图1，本实施例公开了一种文本主题提取方法，该方法包括以下步骤：

S1、单独提取当前文本集合中每个文本的主题词集合；所述主题词集合包括若干个主题词和每个主题词所对应的权重值；其中，文本指存储文字的数字文档，如doc、txt或者XML等格式的文档。

S2、将当前文本集合中所有文本的主题词集合进行并集操作，得到第一主题词集合；其中，并集操作为：将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词，并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值；例如，当前文本集合包括第一文本和第二文本，其中，第一文本的主题词集合为：{“教育”，权重0.5；“交通”，权重0.25；医疗，权重0.2}，第二文本的主题词集合为：{“教育”，权重0.4；“师资”，权重0.3；“学生”，权重0.1}。我们将第一文本的主题词集合和第二文本的主题词集合进行并集操作得到的新的主题词集合应该为：{“教育”，权重0.9；“师资”，权重0.3；“交通”，权重0.25；“医疗”，权重0.2；“学生”，权重0.1}。其中，“教育”一词在新的主题词集合中被合并为一个，同时，“教育”一词的权重值为其在第一文本的主题词集合和第二文本的主题词集合的权重值之和。

S3、根据第一主题词集合生成词云或者词表；系统可以根据第一主题词集合，生成一个词云或者词表，以便于用户从词云或者词表中选择自己喜欢的内容进行浏览。

例如，在一些应用场景中，用户当前还有100条资讯没有阅读，系统根据这100条资讯进行主题词集合的提取，并利用提取得到的主题词集合生成一个词云或者词表，当用户选择词云或者词表中的一个词语时，系统将包含该主题词的文章返回给用户。用户便可以选择自己想看的内容，当然词云或者词表也可以反映这些文章的主要内容，用户如果对这些内容不感兴趣，可以选择忽略没有阅读的资讯。

S4、当有新的文本被添加到当前的文本集合时，提取新的文本的主题词集合，将第一主题词集合与新的文本的主题词集合进行并集操作，得到第二主题词集合；并根据第二主题词集合更新词云或者词表；

S5、当有原有的文本从当前的文本集合被删除时，将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减，然后将权重值等于0的主题词删除，得到第三主题词集合，并根据第三主题词集合更新词云或者词表。

当文本集合中被添加新的文本或者被删除原有的文本时，系统可以通过简单的权重值加减来得到新的文本集合的主题词集合。本实施例相对于现有技术，运算量更小，可以更加及时地更新词云或者词表。

作为优选的实施例，在所述词云中权重值越大的主题词所显示的字体越大；在所述词表中权重值越大的主题词排名越前。所述词云是指由若干个词语组成的图案。为了凸显主题词的权重值，系统可以用更大字号的字体来表示权重值更高的主题词。

作为优选的实施例，为了减少运算量，优化算法。所述单独提取当前文本集合中每个文本的主题词集合，其具体为：

对当前文本集合中的每个文本进行以下处理：

提取文本的主题词以及主题词在该文本中的权重值；

本实施例在提取文本的主题词集合时，先对文本的主题词进行过滤，过滤掉权重值较低的主题词，从而缩小每个文本的主题词集合的规模，以减少运算量。

作为优选的实施例，所述提取文本的主题词以及主题词在该文本中的权重值，其具体为：

采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。本实施例采用LDA模型或者TF-IDF模型在自然语言文本的处理上较为准确和高效。

本实施例公开了一种与图1中方法对应的文本主题提取系统，该系统包括：

生成模块，用于根据第一主题词集合生成词云或者词表；

作为优选的实施例，在所述词云中权重值越大的主题词所显示的字体越大；在所述词表中权重值越大的主题词排名越前。

作为优选的实施例，所述单独提取当前文本集合中每个文本的主题词集合，其具体为：

对当前文本集合中的每个文本进行以下处理：

提取文本的主题词以及主题词在该文本中的权重值；

本实施例公开了一种文本主题提取系统，其包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行以上实施例记载的文本主题提取方法。

一种存储介质，其存储有程序，所述程序被处理器执行时，实现以上实施例记载的文本主题提取方法。

上述系统、存储介质实施例与方法实施例具有相同的技术效果。

对于上述方法实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种文本主题提取方法，其特征在于：包括以下步骤：

根据第一主题词集合生成词云或者词表；

2.根据权利要求1所述的一种文本主题提取方法，其特征在于：在所述词云中权重值越大的主题词所显示的字体越大；在所述词表中权重值越大的主题词排名越前。

3.根据权利要求1所述的一种文本主题提取方法，其特征在于：所述单独提取当前文本集合中每个文本的主题词集合，其具体为：

对当前文本集合中的每个文本进行以下处理：

提取文本的主题词以及主题词在该文本中的权重值；

4.根据权利要求3所述的一种文本主题提取方法，其特征在于：所述提取文本的主题词以及主题词在该文本中的权重值，其具体为：

5.一种文本主题提取系统，其特征在于：包括：

生成模块，用于根据第一主题词集合生成词云或者词表；

6.根据权利要求5所述的一种文本主题提取系统，其特征在于：在所述词云中权重值越大的主题词所显示的字体越大；在所述词表中权重值越大的主题词排名越前。

7.根据权利要求5所述的一种文本主题提取系统，其特征在于：所述单独提取当前文本集合中每个文本的主题词集合，其具体为：

对当前文本集合中的每个文本进行以下处理：

提取文本的主题词以及主题词在该文本中的权重值；

8.根据权利要求7所述的一种文本主题提取系统，其特征在于：所述提取文本的主题词以及主题词在该文本中的权重值，其具体为：

9.一种文本主题提取系统，其特征在于：包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行如权利要求1-4任一项所述的方法。

10.一种存储介质，其存储有程序，其特征在于：所述程序被处理器执行时，实现如权利要求1-4任一项所述的方法。