CN109902302B - 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 - Google Patents
一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 Download PDFInfo
- Publication number
- CN109902302B CN109902302B CN201910157161.4A CN201910157161A CN109902302B CN 109902302 B CN109902302 B CN 109902302B CN 201910157161 A CN201910157161 A CN 201910157161A CN 109902302 B CN109902302 B CN 109902302B
- Authority
- CN
- China
- Prior art keywords
- topic
- theme
- target
- word
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术领域,公开了一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质。通过本发明创造,提供了一种将概率主题模型LDA的应用达到一个全新水平的新方法,可使每个主题成为语义网络中的一个节点,更深刻地反映主题间的复杂语义关联,形成既与传统知识图谱互相呼应又互相补充,但又有独立应用价值的主题图谱,从而不但可以有效地提升传统搜索及推荐的效率和准确率,还可以弥补传统数据挖掘或文本分析在深度和可视化上的不足,利于挖掘出传统方法难以发现的潜在语义关联,实现真正的科学发现,尤其在数据发掘上有巨大的潜在价值。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质。
背景技术
数据挖掘(Data mining)又译为资料探勘或数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
目前,适用于文本分析或数据发掘的技术有很多,其中,LDA主题模型(LatentDirichlet Allocation,概率主题模型,是一系列旨在发现隐藏在大规模文档中的主题结构的算法)及其各种变种是一种较为有效且常用的方法。虽然主题是基于字典的稀疏概率分布,具有语义连贯性的聚类,但是在现有的LDA主题模型应用中,数据分析完成之后所生成的各个主题相对孤立,缺乏关联性和系统性,没有对所有主题进行整体的抽象总结,使得分析深度和可视化不足,难以提高文本分析或数据挖掘的效率和功效,不利于真正的科学发现。
发明内容
为了解决现有文本分析或数据挖掘中所存在的主题间关联性不强和可视化程度不够的问题,本发明目的在于提供一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质。
本发明所采用的技术方案为:
一种适用于文本分析或数据挖掘的主题图谱生成方法,包括如下步骤:
S101.获取包含海量文档的语料库;
S102.对所述语料库中各个文档的词语集合进行数值化处理,然后将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵和文档-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述文档-主题矩阵表示每个文档中出现每个主题的概率;
S103.根据所述主题-词语矩阵获取各个主题的特征词语集合,根据所述文档-主题矩阵获取各个主题的关联主题,其中,所述关联主题是指与某个主题共同出现在同一文档中的另一共现主题;
S104.在确定目标词语后,查找到在特征词语集合中包含所述目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题;
S105.将查找到的主题结果转换为目标词语的可视化主题图谱,其中,所述可视化主题图谱包含有目标主题的可视化内容、目标关联主题的可视化内容以及目标主题与目标关联主题之间的映射关系。
优化的,在所述步骤S102中,按照如下步骤对各个文档的词语集合进行数值化处理:
S201.对语料库中的所有文档进行切词处理,获取不同的词语,得到所述语料库的总词语集合和各个文档的词语集合;
S202.对所述总词语集合中的所有词语进行唯一编码,得到包含有所有词语和与各个词语对应的数字唯一标识的词典;
S203.根据所述词典将文档词语集合中的词语转换为对应的数字唯一标识。
进一步优化的,在所述步骤S201中,按照如下方式对文档进行切词处理:
应用正向最大匹配法进行中文分词,和/或构建数据结构字典树并结合正向最大匹配法进行英文词组识别。
优化的,在所述步骤S103中,按照如下方式获取各个主题的特征词语集合:
针对所述主题-词语矩阵中的各个主题,选取在对应主题中出现概率最大的前M个词语作为特征词语,得到特征词语集合,其中,M为介于1~100之间的自然数。
优化的,在所述步骤S104中,若查找到的目标主题数目、目标关联主题数目或总主题数目超过预设值,则对所述可视化主题图谱进行分页处理。
优化的,在所述步骤S105之后,还包括有如下步骤:
S106.输出展示所述可视化主题图谱。
具体的,所述目标主题的可视化内容包含有对应目标主题的通用图形、矩阵序列编号、特征词语和/或主题总现占比值,所述目标关联主题的可视化内容包含有对应目标关联主题的通用图形、矩阵序列编号、特征词语、主题总现占比值和/或关联程度占比值,其中,所述主题总现占比值是指对应主题在语料库所有文档中出现的概率之和与所有主题分别在语料库所有文档中出现的总概率之和的比例值,所述关联程度占比值是指对应关联主题和目标主题在语料库所有文档中共现的概率之和与所有非目标主题分别和目标主题在语料库所有文档中共现的总概率之和的比例值。
本发明所采用的另一种技术方案为:
一种适用于文本分析或数据挖掘的主题图谱生成装置,包括依次通信相连的获取模块、训练模块、分析模块、查找模块和生成模块;
所述获取模块,用于获取包含海量文档的语料库;
所述训练模块,用于对所述语料库中各个文档的词语集合进行数值化处理,然后将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵和文档-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述文档-主题矩阵表示每个文档中出现每个主题的概率;
所述分析模块,用于根据所述主题-词语矩阵获取各个主题的特征词语集合,根据所述文档-主题矩阵获取各个主题的关联主题,其中,所述关联主题是指与某个主题共同出现在同一文档中的另一共现主题;
所述查找模块,用于在确定目标词语后,查找到在特征词语集合中包含所述目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题;
所述生成模块,用于将查找到的主题结果转换为目标词语的可视化主题图谱,其中,所述可视化主题图谱包含有目标主题的可视化内容、目标关联主题的可视化内容以及目标主题与目标关联主题之间的映射关系。
本发明所采用的另一种技术方案为:
一种适用于文本分析或数据挖掘的主题图谱生成设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如前所述适用于文本分析或数据挖掘的主题图谱生成方法的步骤。
本发明所采用的另一种技术方案为:
一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述适用于文本分析或数据挖掘的主题图谱生成方法的步骤。
本发明的有益效果为:
(1)本发明创造提供了一种将概率主题模型LDA的应用达到一个全新水平的新方法,可使每个主题成为语义网络中的一个节点,更深刻地反映主题间的复杂语义关联,形成既与传统知识图谱互相呼应又互相补充,但又有独立应用价值的主题图谱,从而不但可以有效地提升传统搜索及推荐的效率和准确率,还可以弥补传统数据挖掘或文本分析在深度和可视化上的不足,利于挖掘出传统方法难以发现的潜在语义关联,实现真正的科学发现,尤其在数据发掘上有巨大的潜在价值;
(2)可对传统概率主题模型在文本分析或数据发掘方面的应用进行全面的升级,除去传统的生成每个主题,还生成所有主题间的语义关联网络图谱,并采用了系统化的方法,通过可视化交互的方式对知识(数据)进行重新表达(若干个主题总现比例值和关联程度比例值的组成),对每篇文档(数据)进行了更精准的语义表达,从而使得搜索更精确,推荐更个性化;
(3)可以提升数据分析和挖掘的深度和广度,挖掘出潜在语义关联,实现真正的科学发现;
(4)可以帮助科研人员横向思维(现代的科学技术创新都是跨学科的交叉融合),了解自己研究领域的横向关联技术,这些技术往往是其他学科和领域的,单纯的纵向搜索是很难做到或要费很多时间精力才能发现;
(5)相对于目前流行基于单个词(概念)间的知识图谱,可提供一种更高抽象的语义图网络,其节点是一个更具备具体含义的主题(一组词),是对前者的有效补充,具有特定的应用场景和使用价值;
(6)可以利于人机界面友好,以可视化方式进行交互,整个使用过程具有启发式,流畅自然,操作简单,大大提高了用户的粘性;
(7)可在文本处理时与领域无关和与语种无关,是一种通用型的平台方法,具有广泛的应用场景,除了文本处理(自然语言处理),在图像处理和DNA分析均可提供一种新的分析挖掘方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的主题图谱生成方法的流程示意图。
图2是本发明提供的当目标词语为“查全率”的可视化主题图谱的第一种示例图。
图3是本发明提供的当目标词语为“查全率”的可视化主题图谱的第二种示例图。
图4是本发明提供的当目标词语为“查准率”的可视化主题图谱的第一种示例图。
图5是本发明提供的当目标词语为“查准率”的可视化主题图谱的第二种示例图。
图6是本发明提供的当目标词语为“软件测试”的可视化主题图谱的第一种示例图。
图7是本发明提供的当目标词语为“软件测试”的可视化主题图谱的第二种示例图。
图8是本发明提供的主题图谱生成装置的结构示意图。
图9是本发明提供的主题图谱生成设备的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,在本文描述的一些流程中,包含了按照特定顺序出现的多个操作,但是这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S101、S102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作同样按顺序执行或并行执行。
应当理解,尽管本文可以使用术语第一、第二等等来描述各种单元,这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
应当理解,当将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,当将单元称作与另一个单元“直接相连”或“直接耦合”时,不存在中间单元。应当以类似方式来解释用于描述单元之间关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。
本文使用的术语仅用于描述特定实施例,并不意在限制本发明的示例实施例。如本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解术语“包括”、“包括了”、“包含”和/或“包含了”在本文中使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以不必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
实施例一
如图1~7所示,本实施例提供的所述适用于文本分析或数据挖掘的主题图谱生成方法,其执行的软件主体为主题图谱引擎,并且可以但不限于包括如下步骤。
S101.获取包含海量文档的语料库。
在所述步骤S101中,所述语料库用于为LDA主题模型的训练进程提供足量的训练语料,所述训练语料可由用户提供的或由现有采集软件采集的各种文档数据构成,每篇文档可以但不限于由标题、摘要、关键词、正文、附件名目、附件内容和作者信息等中的一部分字段或几部分字段构成。此外,所述海量文档一般是在万篇文档以上,例如选取十万篇文档构成所述语料库。
S102.对所述语料库中各个文档的词语集合进行数值化处理,然后将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵和文档-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述文档-主题矩阵表示每个文档中出现每个主题的概率。
在所述步骤S102中,考虑后续LDA主题模型的训练算法是无法处理词语(本文中的所述词语可以但不限于包括单词、字符串和/或它们的组合)的输入和输出,因此需要把文档中的词语转换为对应的数字唯一标识,即实现训练样本数值化,方便进行后续的LDA主题模型训练。优化的,可以但不限于按照如下步骤对各个文档的词语集合进行数值化处理:S201.对语料库中的所有文档进行切词处理,获取不同的词语,得到所述语料库的总词语集合和各个文档的词语集合;S202.对所述总词语集合中的所有词语进行唯一编码,得到包含有所有词语和与各个词语对应的数字唯一标识的词典;S203.根据所述词典将文档词语集合中的词语转换为对应的数字唯一标识。
在所述步骤S201中,为了表达更好的语义效果,特别需要现有的中文分词技术和/或英文词组识别技术进行技术支撑,例如对于“飞机设计研究院”或“big data”等,需要将这些词语分别识别为一个独立词语,这样可以使得搜索提示出来的词语表达出更好的语义效果。在所述步骤S202中,对所述总词语集合中的所有词语进行唯一编码的具体方式可以但不限于如下:统计所述总词语集的词语总数为S,然后针对所述总词语集中的各个词语,逐一地按照排列顺序赋予数字编号介于0~S-1之间的整数。进一步优化的,可以但不限于按照如下方式对文档进行切词处理:应用正向最大匹配法进行中文分词,和/或构建数据结构字典树并结合正向最大匹配法进行英文词组识别。
所述正向最大匹配法为现有常用的中文分词方法,其算法原理一般是从左到右将待分词文本(等同于文档)中的几个连续字符与词表(由成千上万个常用的且已经分好的词语组成)中的所有词语逐一匹配,如果匹配上,则切分出一个词语,为了做到最大匹配,并不是第一次匹配到就可以切分的,即从第一个字符开始,当扫描到第二个字符的时候,发现第一个字符已经在词表中了,但还不能切分出来,因为不知道后面的词语能不能组成更长的词(即最大匹配),因此需要扫描迭代,使最大匹配出的词语必须保证下一个扫描不是词表中的词语或词语的前缀才可以结束。英文词组的识别扫描与中文相同,需要将英文空格转换为“|”或者其他具有表征意义的字符,能够表示为一个词组即可。此外,中文分词和英文词组的识别均是采用正向最大匹配算法,为了加快英文词组的识别速度,还可以采用特定的数据结构字典树(又称单词查找树或Trie树,是一种树形结构和一种哈希树的变种,其典型应用是用于统计、排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计,其主要优点是可利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高)来辅助英文词组的识别。
所述LDA主题模型的技术解释和训练过程可参见现有技术文献(例如https://blog.csdn.net/huagong_adu/article/details/7937616和https://blog.csdn.net/u010159842/article/details/80332030),其一般过程为在导入一系列文档的数值化样本和进行参数设置后,通过计算各个文档中每个词语的词频,得到所述主题-词语矩阵和所述文档-主题矩阵。本申请认为文档中的主题是彼此相互关联的复杂语义关联网络,每个主题就是网络中的一个节点,每个文档均被解析表示成出现概率最大的X(一般取值为1~10之间)个主题按照所占百分比的组成,由于自然语言的稀疏性,每个文档的实际包含主题数是远远小于总主题数的,诸如主题预设总数等参数可以根据训练和测试结果进行选取,例如,主题预设总数的范围可在10~1000000之间进行设置。
S103.根据所述主题-词语矩阵获取各个主题的特征词语集合,根据所述文档-主题矩阵获取各个主题的关联主题,其中,所述关联主题是指与某个主题共同出现在同一文档中的另一共现主题;
在所述步骤S103中,优化的,可以但不限于按照如下方式获取各个主题的特征词语集合:针对所述主题-词语矩阵中的各个主题,选取在对应主题中出现概率最大的前M个词语作为特征词语,得到特征词语集合,其中,M为介于1~100之间的自然数,一般可默认为30。另外,可以但不限于按照如下步骤S301~S302获取各个主题的关联主题:S301.针对所述文档-主题矩阵中的各个主题,分别计算其与另一主题共同出现在各篇文档中的共现概率之和;S302.针对所述文档-主题矩阵中的各个主题,选取对应与其共现概率之和最大的前K个另一主题作为关联主题,其中,K为介于3~10之间的自然数,一般可默认为5。例如主题T0与另一主题T1~T12的共现概率之和分别为0.12、0.21、0.19、0.18、0.09、0.35、0.51、0.22、0.28、0.03、0.01和0.01,选取对应与主题T0共现概率之和为0.51、0.35、0.28、0.22和0.21的另一主题T7、T6、T9、T8和T2作为主题T0的关联主题,两主题在某篇论文中的共现概率可通过计算所述论文-主题矩阵中对应位置的元素之积得到。此外,还可以统计各个主题的关联主题数目,并采用双层Hashmap<Hashmap>的数据结构存储三种数据信息:主题、关联主题和关联主题数目。
S104.在确定目标词语后,查找到在特征词语集合中包含所述目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题。
在所述步骤S104中,为了避免单页不能完全展示的问题,优化的,若查找到的目标主题数目、目标关联主题数目或总主题数目超过预设值,则对所述可视化主题图谱进行分页处理,从而可以实现多页展示整个可视化主题图谱的目的。此外,所述目标词语可以但不限于通过用户输入得到。
S105.将查找到的主题结果转换为目标词语的可视化主题图谱,其中,所述可视化主题图谱包含有目标主题的可视化内容、目标关联主题的可视化内容以及目标主题与目标关联主题之间的映射关系。
在所述步骤S105中,具体的,所述目标主题的可视化内容可以但不限于包含有对应目标主题的通用图形(例如方框或椭圆框等)、矩阵序列编号(即在所述主题-词语矩阵和所述文档-主题矩阵中与主题对应的行列号)、特征词语和/或主题总现占比值等,所述目标关联主题的可视化内容可以但不限于包含有对应目标关联主题的通用图形(例如方框或椭圆框等)、矩阵序列编号(即在所述主题-词语矩阵和所述文档-主题矩阵中与主题对应的行列号)、特征词语、主题总现占比值和/或关联程度占比值等,其中,所述主题总现占比值是指对应主题在语料库所有文档中出现的概率之和与所有主题分别在语料库所有文档中出现的总概率之和的比例值(可根据所述文档-主题矩阵统计得到,并通过归一化得到百分比形式),所述关联程度占比值是指对应关联主题和目标主题在语料库所有文档中共现的概率之和与所有非目标主题分别和目标主题在语料库所有文档中共现的总概率之和的比例值(同样可根据所述文档-主题矩阵统计得到,并通过归一化得到百分比形式)。另外,目标主题与目标关联主题之间的映射关系可以但不限于通过连接线表示。此外优化的,为了体现主题间的语义关联性,针对所述可视化主题图谱中某个目标主题的目标关联主题,还可以根据对应的主题总现占比值大小或根据对应的关联程度占比值大小进行降序列表展示。
在所述步骤S105之后,优化的,还包括有如下步骤:S106.输出展示所述可视化主题图谱。
如图2~7所示的且针对三种不同目标词语(即“查全率”、“查准率”和“软件测试”)的两种可视化主题图谱的结果展示,可以直观地感受到对应目标词语的目标主题、目标关联主题、主题的具体特征词和主题间的语义关联网络等信息,进而可以供用户在文本分析或数据挖掘等中进行浏览使用,利于进行科学发现。由此通过前述步骤S101~S105所描述的主题图谱生成方法,可以将概率主题模型LDA的应用达到一个全新的水平,使每个主题成为语义网络中的一个节点,更深刻地反映主题间的复杂语义关联,形成既与传统知识图谱互相呼应又互相补充,但又有独立应用价值的主题图谱,从而不但可以有效地提升传统搜索及推荐的效率和准确率,还可以弥补传统数据挖掘或文本分析在深度和可视化上的不足,利于挖掘出传统方法难以发现的潜在语义关联,实现真正的科学发现,尤其在数据发掘上有巨大的潜在价值。
综上,采用本实施例所提供的适用于文本分析或数据挖掘的主题图谱生成方法,具有如下技术效果:
(1)本实施例提供了一种将概率主题模型LDA的应用达到一个全新水平的新方法,可使每个主题成为语义网络中的一个节点,更深刻地反映主题间的复杂语义关联,形成既与传统知识图谱互相呼应又互相补充,但又有独立应用价值的主题图谱,从而不但可以有效地提升传统搜索及推荐的效率和准确率,还可以弥补传统数据挖掘或文本分析在深度和可视化上的不足,利于挖掘出传统方法难以发现的潜在语义关联,实现真正的科学发现,尤其在数据发掘上有巨大的潜在价值;
(2)可对传统概率主题模型在文本分析或数据发掘方面的应用进行全面的升级,除去传统的生成每个主题,还生成所有主题间的语义关联网络图谱,并采用了系统化的方法,通过可视化交互的方式对知识(数据)进行重新表达(若干个主题总现比例值和关联程度比例值的组成),对每篇文档(数据)进行了更精准的语义表达,从而使得搜索更精确,推荐更个性化;
(3)可以提升数据分析和挖掘的深度和广度,挖掘出潜在语义关联,实现真正的科学发现;
(4)可以帮助科研人员横向思维(现代的科学技术创新都是跨学科的交叉融合),了解自己研究领域的横向关联技术,这些技术往往是其他学科和领域的,单纯的纵向搜索是很难做到或要费很多时间精力才能发现;
(5)相对于目前流行基于单个词(概念)间的知识图谱,可提供一种更高抽象的语义图网络,其节点是一个更具备具体含义的主题(一组词),是对前者的有效补充,具有特定的应用场景和使用价值;
(6)可以利于人机界面友好,以可视化方式进行交互,整个使用过程具有启发式,流畅自然,操作简单,大大提高了用户的粘性;
(7)可在文本处理时与领域无关和与语种无关,是一种通用型的平台方法,具有广泛的应用场景,除了文本处理(自然语言处理),在图像处理和DNA分析均可提供一种新的分析挖掘方法。
实施例二
如图8所示,本实施例提供了一种实现实施例一所述适用于文本分析或数据挖掘的主题图谱生成方法的硬件装置,包括依次通信相连的获取模块、训练模块、分析模块、查找模块和生成模块;所述获取模块,用于获取包含海量文档的语料库;所述训练模块,用于对所述语料库中各个文档的词语集合进行数值化处理,然后将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵和文档-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述文档-主题矩阵表示每个文档中出现每个主题的概率;所述分析模块,用于根据所述主题-词语矩阵获取各个主题的特征词语集合,根据所述文档-主题矩阵获取各个主题的关联主题,其中,所述关联主题是指与某个主题共同出现在同一文档中的另一共现主题;所述查找模块,用于在确定目标词语后,查找到在特征词语集合中包含所述目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题;所述生成模块,用于将查找到的主题结果转换为目标词语的可视化主题图谱,其中,所述可视化主题图谱包含有目标主题的可视化内容、目标关联主题的可视化内容以及目标主题与目标关联主题之间的映射关系。此外,还可以包括有通信连接所述生成模块的显示模块,用于输出展示所述可视化主题图谱。
本实施例提供的主题图谱生成装置的工作过程、工作细节和技术效果,可以参见实施例一,于此不再赘述。
实施例三
如图9所示,本实施例提供了一种实现实施例一所述适用于文本分析或数据挖掘的主题图谱生成方法的硬件设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如实施例一所述适用于文本分析或数据挖掘的主题图谱生成方法的步骤。
本实施例提供的主题图谱生成设备的工作过程、工作细节和技术效果,可以参见实施例一,于此不再赘述。
实施例四
本实施例提供了一种存储包含实施例一所述适用于文本分析或数据挖掘的主题图谱生成方法的计算机程序的计算机存储介质,即在所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述适用于文本分析或数据挖掘的主题图谱生成方法的步骤。其中,计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置,也可以是移动智能设备(如智能手机、PAD或ipad等)。
本实施例提供的计算机存储介质的工作过程、工作细节和技术效果,可以参见实施例一,于此不再赘述。
以上所描述的多个实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备执行各个实施例或者实施例的某些部分所述的方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (10)
1.一种适用于文本分析或数据挖掘的主题图谱生成方法,其特征在于,包括如下步骤:
S101.获取包含海量文档的语料库;
S102.对所述语料库中各个文档的词语集合进行数值化处理,然后将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵和文档-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述文档-主题矩阵表示每个文档中出现每个主题的概率;
S103.根据所述主题-词语矩阵获取各个主题的特征词语集合,根据所述文档-主题矩阵获取各个主题的关联主题,其中,所述关联主题是指与某个主题共同出现在同一文档中的另一共现主题,并按照如下步骤S301~S302获取各个主题的关联主题:
S301.针对所述文档-主题矩阵中的各个主题,分别计算其与另一主题共同出现在各篇文档中的共现概率之和,其中,两主题在某篇论文中的共现概率通过计算所述文档-主题矩阵中对应位置的元素之积得到;
S302.针对所述文档-主题矩阵中的各个主题,选取对应与其共现概率之和最大的前K个另一主题作为关联主题,其中,K为介于3~10之间的自然数;
S104.在确定目标词语后,查找到在特征词语集合中包含所述目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题;
S105.将查找到的主题结果转换为目标词语的可视化主题图谱,其中,所述可视化主题图谱包含有目标主题的可视化内容、目标关联主题的可视化内容以及目标主题与目标关联主题之间的映射关系。
2.如权利要求1所述的一种适用于文本分析或数据挖掘的主题图谱生成方法,其特征在于,在所述步骤S102中,按照如下步骤对各个文档的词语集合进行数值化处理:
S201.对语料库中的所有文档进行切词处理,获取不同的词语,得到所述语料库的总词语集合和各个文档的词语集合;
S202.对所述总词语集合中的所有词语进行唯一编码,得到包含有所有词语和与各个词语对应的数字唯一标识的词典;
S203.根据所述词典将文档词语集合中的词语转换为对应的数字唯一标识。
3.如权利要求2所述的一种适用于文本分析或数据挖掘的主题图谱生成方法,其特征在于,在所述步骤S201中,按照如下方式对文档进行切词处理:
应用正向最大匹配法进行中文分词,和/或构建数据结构字典树并结合正向最大匹配法进行英文词组识别。
4.如权利要求1所述的一种适用于文本分析或数据挖掘的主题图谱生成方法,其特征在于,在所述步骤S103中,按照如下方式获取各个主题的特征词语集合:
针对所述主题-词语矩阵中的各个主题,选取在对应主题中出现概率最大的前M个词语作为特征词语,得到特征词语集合,其中,M为介于1~100之间的自然数。
5.如权利要求1所述的一种适用于文本分析或数据挖掘的主题图谱生成方法,其特征在于,在所述步骤S104中,若查找到的目标主题数目、目标关联主题数目或总主题数目超过预设值,则对所述可视化主题图谱进行分页处理。
6.如权利要求1所述的一种适用于文本分析或数据挖掘的主题图谱生成方法,其特征在于,在所述步骤S105之后,还包括有如下步骤:
S106.输出展示所述可视化主题图谱。
7.如权利要求1所述的一种适用于文本分析或数据挖掘的主题图谱生成方法,其特征在于:
所述目标主题的可视化内容包含有对应目标主题的通用图形、矩阵序列编号、特征词语和/或主题总现占比值,所述目标关联主题的可视化内容包含有对应目标关联主题的通用图形、矩阵序列编号、特征词语、主题总现占比值和/或关联程度占比值,其中,所述主题总现占比值是指对应主题在语料库所有文档中出现的概率之和与所有主题分别在语料库所有文档中出现的总概率之和的比例值,所述关联程度占比值是指对应关联主题和目标主题在语料库所有文档中共现的概率之和与所有非目标主题分别和目标主题在语料库所有文档中共现的总概率之和的比例值。
8.一种适用于文本分析或数据挖掘的主题图谱生成装置,其特征在于,包括依次通信相连的获取模块、训练模块、分析模块、查找模块和生成模块;
所述获取模块,用于获取包含海量文档的语料库;
所述训练模块,用于对所述语料库中各个文档的词语集合进行数值化处理,然后将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵和文档-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述文档-主题矩阵表示每个文档中出现每个主题的概率;
所述分析模块,用于根据所述主题-词语矩阵获取各个主题的特征词语集合,根据所述文档-主题矩阵获取各个主题的关联主题,其中,所述关联主题是指与某个主题共同出现在同一文档中的另一共现主题,并按照如下步骤S301~S302获取各个主题的关联主题:
S301.针对所述文档-主题矩阵中的各个主题,分别计算其与另一主题共同出现在各篇文档中的共现概率之和,其中,两主题在某篇论文中的共现概率通过计算所述文档-主题矩阵中对应位置的元素之积得到;
S302.针对所述文档-主题矩阵中的各个主题,选取对应与其共现概率之和最大的前K个另一主题作为关联主题,其中,K为介于3~10之间的自然数;
所述查找模块,用于在确定目标词语后,查找到在特征词语集合中包含所述目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题;
所述生成模块,用于将查找到的主题结果转换为目标词语的可视化主题图谱,其中,所述可视化主题图谱包含有目标主题的可视化内容、目标关联主题的可视化内容以及目标主题与目标关联主题之间的映射关系。
9.一种适用于文本分析或数据挖掘的主题图谱生成设备,其特征在于,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如权利要求1~7任意一项所述适用于文本分析或数据挖掘的主题图谱生成方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~7任意一项所述适用于文本分析或数据挖掘的主题图谱生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910157161.4A CN109902302B (zh) | 2019-03-01 | 2019-03-01 | 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910157161.4A CN109902302B (zh) | 2019-03-01 | 2019-03-01 | 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902302A CN109902302A (zh) | 2019-06-18 |
CN109902302B true CN109902302B (zh) | 2020-03-24 |
Family
ID=66946115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910157161.4A Active CN109902302B (zh) | 2019-03-01 | 2019-03-01 | 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902302B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377891B (zh) * | 2019-06-19 | 2023-01-06 | 北京百度网讯科技有限公司 | 事件分析文章的生成方法、装置、设备及计算机可读存储介质 |
CN110263140B (zh) * | 2019-06-20 | 2021-06-25 | 北京百度网讯科技有限公司 | 一种主题词的挖掘方法、装置、电子设备及存储介质 |
CN111737482B (zh) * | 2020-04-17 | 2021-02-19 | 郑敏杰 | 一种适用于数据挖掘的全景可视化图谱生成方法及装置 |
CN111666399A (zh) * | 2020-06-23 | 2020-09-15 | 中国平安人寿保险股份有限公司 | 基于知识图谱的智能问答方法、装置和计算机设备 |
CN112199926B (zh) * | 2020-10-16 | 2024-05-10 | 中国地质大学(武汉) | 基于文本挖掘和自然语言处理的地质报告文本可视化方法 |
CN112800242B (zh) * | 2021-01-28 | 2023-07-28 | 平安科技(深圳)有限公司 | 谱系挖掘方法、装置、电子设备及计算机可读存储介质 |
CN113127627B (zh) * | 2021-04-23 | 2023-01-17 | 中国石油大学(华东) | 基于lda主题模型结合诗词知识图谱的诗词推荐方法 |
CN116127054A (zh) * | 2021-11-15 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及计算机程序 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679226A (zh) * | 2017-10-23 | 2018-02-09 | 中国科学院重庆绿色智能技术研究院 | 基于主题的旅游本体构建方法 |
CN107766412A (zh) * | 2017-09-05 | 2018-03-06 | 华南师范大学 | 一种建立主题地图的方法、系统和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9542477B2 (en) * | 2013-12-02 | 2017-01-10 | Qbase, LLC | Method of automated discovery of topics relatedness |
CN106372147B (zh) * | 2016-08-29 | 2020-09-15 | 上海交通大学 | 基于文本网络的异构主题网络构建和可视化方法 |
CN109241290A (zh) * | 2017-07-10 | 2019-01-18 | 华东师范大学 | 一种知识图谱补全方法、装置与存储介质 |
-
2019
- 2019-03-01 CN CN201910157161.4A patent/CN109902302B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766412A (zh) * | 2017-09-05 | 2018-03-06 | 华南师范大学 | 一种建立主题地图的方法、系统和装置 |
CN107679226A (zh) * | 2017-10-23 | 2018-02-09 | 中国科学院重庆绿色智能技术研究院 | 基于主题的旅游本体构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109902302A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902302B (zh) | 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 | |
JP5338238B2 (ja) | ワードの類似性を用いたオントロジーの自動生成 | |
CN108846029B (zh) | 基于知识图谱的情报关联分析方法 | |
CN108228571B (zh) | 对联的生成方法、装置、存储介质及终端设备 | |
CN109255012B (zh) | 机器阅读理解以及减少候选数据集规模的方法、装置 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
CN108304382A (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN109933216B (zh) | 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质 | |
CN107330111A (zh) | 基于通用形式化本体的领域本体的检索方法及装置 | |
CN110795526A (zh) | 一种用于检索系统的数学公式索引创建方法与系统 | |
CN107679124B (zh) | 一种基于动态规划算法的知识图谱中文问答检索方法 | |
CN105956158A (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
CN117272073B (zh) | 文本单位语义距离预计算方法及装置、查询方法及装置 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
CN111931034A (zh) | 数据搜索方法、装置、设备及存储介质 | |
WO2022262632A1 (zh) | 网页搜索方法、装置及存储介质 | |
CN111737482B (zh) | 一种适用于数据挖掘的全景可视化图谱生成方法及装置 | |
CN103019924B (zh) | 输入法智能性评测系统和方法 | |
CN114003706A (zh) | 关键词组合生成模型训练方法及装置 | |
Terko et al. | Neurips conference papers classification based on topic modeling | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |