CN109783616A - 一种文本主题提取方法、系统和存储介质 - Google Patents

一种文本主题提取方法、系统和存储介质 Download PDF

Info

Publication number
CN109783616A
CN109783616A CN201811467779.2A CN201811467779A CN109783616A CN 109783616 A CN109783616 A CN 109783616A CN 201811467779 A CN201811467779 A CN 201811467779A CN 109783616 A CN109783616 A CN 109783616A
Authority
CN
China
Prior art keywords
text
words
descriptor
theme set
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811467779.2A
Other languages
English (en)
Inventor
赵淦森
林成创
列海权
纪求华
赵淑娴
陈冰川
李振宇
邓水凤
朱俊杰
冯梦珂
颜志鸿
孙元基
欧小梅
刘秋敏
黄伟雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Weihai Big Data Technology Co Ltd
Original Assignee
Guangdong Weihai Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Weihai Big Data Technology Co Ltd filed Critical Guangdong Weihai Big Data Technology Co Ltd
Priority to CN201811467779.2A priority Critical patent/CN109783616A/zh
Publication of CN109783616A publication Critical patent/CN109783616A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本主题提取方法、系统和存储介质,所述方法包括以下步骤:单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;根据第一主题词集合生成词云或者词表;当添加文本时,将新的本文的主题词集合与第一主题词集合进行并集操作,并更新词云或者词表;当删除文本时,在第一集合中减去被删除文本各主题词的权重,并更新词云或者词表。本发明相对于现有技术大大减少了运算量,缩短了词云或者词表的更新时间,提升了更新的实时性。本发明可以广泛应用于数据处理技术。

Description

一种文本主题提取方法、系统和存储介质
技术领域
本发明涉及数据处理技术,尤其是一种文本主题提取方法、系统和存储介质。
背景技术
常规文本内容的主题词提取在自然语言处理的领域中已经具有非常成熟的解决方案,对于固定数量的文本集合,当前的数据处理技术可以提取出该文本集合的主题词。但是当文本集合的范围发生变化时,却需要经过重新训练计算,才能获取变化后的主题词。
在一些资讯应用中,后台服务器通过数据采集程序,不断地从互联网上采集不同类别的资讯,并对不同类别的资讯进行分类,然后分别对每个类别的资讯内容抽取主题词,形成每个类别的词云,但是一旦选定的类别的文本集合中有新的资讯被加入或者有旧的资讯被剔除时,该类别的词云需要根据最新的文本集合进行更新。
如果采用现有技术来实现该功能,那么需要将该类别的文本集合中的所有资讯一起进行训练,抽取新的主题词,再形成新的词云。那么意味着每当有新的资讯被加入或者有旧的资讯被剔除时都需要对历史的资讯进行计算,对计算资源造成了浪费,同时由于计算量庞大,不能做到实时更新。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种能够节省计算资源并且能够实时更新的文本主题提取方法、系统和存储介质。
本发明所采取的第一种技术方案是:
一种文本主题提取方法,包括以下步骤:
单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;
将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;
根据第一主题词集合生成词云或者词表;
当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;
当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
进一步,在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。
进一步,所述单独提取当前文本集合中每个文本的主题词集合,其具体为:
对当前文本集合中的每个文本进行以下处理:
提取文本的主题词以及主题词在该文本中的权重值;
将权重值大于设定阈值的所有主题词组成该文本的主题词集合。
进一步,所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:
采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。
本发明所采取的第二种技术方案是:
一种文本主题提取系统,包括:
提取模块,用于单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;
合并操作模块,用于将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;
生成模块,用于根据第一主题词集合生成词云或者词表;
更新模块,用于当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;
以及用于当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
进一步,在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。
进一步,所述单独提取当前文本集合中每个文本的主题词集合,其具体为:
对当前文本集合中的每个文本进行以下处理:
提取文本的主题词以及主题词在该文本中的权重值;
将权重值大于设定阈值的所有主题词组成该文本的主题词集合。
进一步,所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:
采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。
本发明所采取的第三种技术方案是:
一种文本主题提取系统,包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行一种文本主题提取方法。
本发明所采取的第四种技术方案是:
一种存储介质,其存储有程序,所述程序被处理器执行时,实现一种文本主题提取方法。
本发明的有益效果是:本发明在添加和删除文本集合中的文本时,只需要进行少量文本的主题词集合提取和简单的权重值加减,即可得到新的文本集合的主题词集合,相对于现有技术大大减少了运算量,缩短了词云或者词表的更新时间,提升了更新的实时性。
附图说明
图1为本发明一种具体实施例的文本主题提取方法的流程图。
具体实施方式
下面结合说明书附图和具体的实施例对本发明进行进一步的说明。
参照图1,本实施例公开了一种文本主题提取方法,该方法包括以下步骤:
S1、单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;其中,文本指存储文字的数字文档,如doc、txt或者XML等格式的文档。
S2、将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;例如,当前文本集合包括第一文本和第二文本,其中,第一文本的主题词集合为:{“教育”,权重0.5;“交通”,权重0.25;医疗,权重0.2},第二文本的主题词集合为:{“教育”,权重0.4;“师资”,权重0.3;“学生”,权重0.1}。我们将第一文本的主题词集合和第二文本的主题词集合进行并集操作得到的新的主题词集合应该为:{“教育”,权重0.9;“师资”,权重0.3;“交通”,权重0.25;“医疗”,权重0.2;“学生”,权重0.1}。其中,“教育”一词在新的主题词集合中被合并为一个,同时,“教育”一词的权重值为其在第一文本的主题词集合和第二文本的主题词集合的权重值之和。
S3、根据第一主题词集合生成词云或者词表;系统可以根据第一主题词集合,生成一个词云或者词表,以便于用户从词云或者词表中选择自己喜欢的内容进行浏览。
例如,在一些应用场景中,用户当前还有100条资讯没有阅读,系统根据这100条资讯进行主题词集合的提取,并利用提取得到的主题词集合生成一个词云或者词表,当用户选择词云或者词表中的一个词语时,系统将包含该主题词的文章返回给用户。用户便可以选择自己想看的内容,当然词云或者词表也可以反映这些文章的主要内容,用户如果对这些内容不感兴趣,可以选择忽略没有阅读的资讯。
S4、当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;
S5、当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
当文本集合中被添加新的文本或者被删除原有的文本时,系统可以通过简单的权重值加减来得到新的文本集合的主题词集合。本实施例相对于现有技术,运算量更小,可以更加及时地更新词云或者词表。
作为优选的实施例,在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。所述词云是指由若干个词语组成的图案。为了凸显主题词的权重值,系统可以用更大字号的字体来表示权重值更高的主题词。
作为优选的实施例,为了减少运算量,优化算法。所述单独提取当前文本集合中每个文本的主题词集合,其具体为:
对当前文本集合中的每个文本进行以下处理:
提取文本的主题词以及主题词在该文本中的权重值;
将权重值大于设定阈值的所有主题词组成该文本的主题词集合。
本实施例在提取文本的主题词集合时,先对文本的主题词进行过滤,过滤掉权重值较低的主题词,从而缩小每个文本的主题词集合的规模,以减少运算量。
作为优选的实施例,所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:
采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。本实施例采用LDA模型或者TF-IDF模型在自然语言文本的处理上较为准确和高效。
本实施例公开了一种与图1中方法对应的文本主题提取系统,该系统包括:
提取模块,用于单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;
合并操作模块,用于将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;
生成模块,用于根据第一主题词集合生成词云或者词表;
更新模块,用于当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;
以及用于当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
作为优选的实施例,在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。
作为优选的实施例,所述单独提取当前文本集合中每个文本的主题词集合,其具体为:
对当前文本集合中的每个文本进行以下处理:
提取文本的主题词以及主题词在该文本中的权重值;
将权重值大于设定阈值的所有主题词组成该文本的主题词集合。
作为优选的实施例,所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:
采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。
本实施例公开了一种文本主题提取系统,其包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行以上实施例记载的文本主题提取方法。
一种存储介质,其存储有程序,所述程序被处理器执行时,实现以上实施例记载的文本主题提取方法。
上述系统、存储介质实施例与方法实施例具有相同的技术效果。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种文本主题提取方法,其特征在于:包括以下步骤:
单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;
将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;
根据第一主题词集合生成词云或者词表;
当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;
当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
2.根据权利要求1所述的一种文本主题提取方法,其特征在于:在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。
3.根据权利要求1所述的一种文本主题提取方法,其特征在于:所述单独提取当前文本集合中每个文本的主题词集合,其具体为:
对当前文本集合中的每个文本进行以下处理:
提取文本的主题词以及主题词在该文本中的权重值;
将权重值大于设定阈值的所有主题词组成该文本的主题词集合。
4.根据权利要求3所述的一种文本主题提取方法,其特征在于:所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:
采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。
5.一种文本主题提取系统,其特征在于:包括:
提取模块,用于单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;
合并操作模块,用于将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;
生成模块,用于根据第一主题词集合生成词云或者词表;
更新模块,用于当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;
以及用于当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
6.根据权利要求5所述的一种文本主题提取系统,其特征在于:在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。
7.根据权利要求5所述的一种文本主题提取系统,其特征在于:所述单独提取当前文本集合中每个文本的主题词集合,其具体为:
对当前文本集合中的每个文本进行以下处理:
提取文本的主题词以及主题词在该文本中的权重值;
将权重值大于设定阈值的所有主题词组成该文本的主题词集合。
8.根据权利要求7所述的一种文本主题提取系统,其特征在于:所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:
采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。
9.一种文本主题提取系统,其特征在于:包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行如权利要求1-4任一项所述的方法。
10.一种存储介质,其存储有程序,其特征在于:所述程序被处理器执行时,实现如权利要求1-4任一项所述的方法。
CN201811467779.2A 2018-12-03 2018-12-03 一种文本主题提取方法、系统和存储介质 Pending CN109783616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811467779.2A CN109783616A (zh) 2018-12-03 2018-12-03 一种文本主题提取方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811467779.2A CN109783616A (zh) 2018-12-03 2018-12-03 一种文本主题提取方法、系统和存储介质

Publications (1)

Publication Number Publication Date
CN109783616A true CN109783616A (zh) 2019-05-21

Family

ID=66496438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811467779.2A Pending CN109783616A (zh) 2018-12-03 2018-12-03 一种文本主题提取方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN109783616A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023016267A1 (zh) * 2021-08-12 2023-02-16 北京锐安科技有限公司 垃圾评论的识别方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN102760127A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 基于扩展文本信息来确定资源类型的方法、装置及设备
CN103631856A (zh) * 2013-10-17 2014-03-12 四川大学 一种中文文档集的主题可视化方法
CN104376058A (zh) * 2014-11-07 2015-02-25 华为技术有限公司 用户兴趣模型更新方法及相关装置
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN106156091A (zh) * 2015-04-01 2016-11-23 富士通株式会社 描述短文本的作者的方法和设备
CN107330009A (zh) * 2017-06-14 2017-11-07 腾讯科技(深圳)有限公司 主题词分类模型创建方法、创建装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN102760127A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 基于扩展文本信息来确定资源类型的方法、装置及设备
CN103631856A (zh) * 2013-10-17 2014-03-12 四川大学 一种中文文档集的主题可视化方法
CN104376058A (zh) * 2014-11-07 2015-02-25 华为技术有限公司 用户兴趣模型更新方法及相关装置
CN106156091A (zh) * 2015-04-01 2016-11-23 富士通株式会社 描述短文本的作者的方法和设备
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN107330009A (zh) * 2017-06-14 2017-11-07 腾讯科技(深圳)有限公司 主题词分类模型创建方法、创建装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023016267A1 (zh) * 2021-08-12 2023-02-16 北京锐安科技有限公司 垃圾评论的识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US9779085B2 (en) Multilingual embeddings for natural language processing
US10579736B2 (en) Method and device for determining comment, server and storage medium
CN107346336B (zh) 基于人工智能的信息处理方法和装置
CN108733837B (zh) 一种病历文本的自然语言结构化方法及装置
Argyrou et al. Topic modelling on Instagram hashtags: An alternative way to Automatic Image Annotation?
US20130159277A1 (en) Target based indexing of micro-blog content
CN111222305A (zh) 一种信息结构化方法和装置
CN104268192B (zh) 一种网页信息提取方法、装置及终端
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
Zhang et al. Annotating needles in the haystack without looking: Product information extraction from emails
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN108920508A (zh) 基于lda算法的文本分类模型训练方法及系统
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN107368610B (zh) 基于全文的大文本crf和规则分类方法和系统
US20230394236A1 (en) Extracting content from freeform text samples into custom fields in a software application
CN110019556A (zh) 一种话题新闻获取方法、装置及其设备
CN109783616A (zh) 一种文本主题提取方法、系统和存储介质
KR101255841B1 (ko) 바이소스 토픽모델을 이용한 이미지 연관 검색 방법 및 그 시스템
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN108549722B (zh) 多平台数据发布方法、系统及介质
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置
CN113254623B (zh) 数据处理方法、装置、服务器、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521

RJ01 Rejection of invention patent application after publication