CN111737482B

CN111737482B - 一种适用于数据挖掘的全景可视化图谱生成方法及装置

Info

Publication number: CN111737482B
Application number: CN202010307843.1A
Authority: CN
Inventors: 郑敏杰
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2021-02-19
Anticipated expiration: 2040-04-17
Also published as: CN111737482A

Abstract

本发明公开了一种适用于数据挖掘的全景可视化图谱生成方法及装置，本发明将概率主题模型和基于神经网络的词向量结合在一起，能够全方位的展示以某个待搜索词语为中心，其相关知识的分布全貌，既有与待搜索词语的关联词语的展示，也有与待搜索词语相匹配主题的展示，还有各个匹配主题与作者和单位的映射关系的展示。通过上述设计，本发明将两种不同方法生成的语义关联互相映照和对比，启发式的展示了当前领域知识的分布特征，发展态势，整个过程流畅，自然，极具启发性和直观性，揭示了某个基本知识概念的聚集性和发散性的特征，大大提高了文本分析和数据挖掘的效率和功效，提升了用户在知识广度和深度上认知水平，从而激发用户创新和科学发现。

Description

一种适用于数据挖掘的全景可视化图谱生成方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种适用于数据挖掘的全景可视化图谱生成方法及装置。

背景技术

数据挖掘(Data mining)又译为资料探勘或数据采矿。它是数据库知识发现(英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

目前，进行数据挖掘大多采用如下两种方式：(1)概率主题模型(LDA)及其各种变种；(2)基于神经网络的词向量(Word2Vec)及其变种。其中，概率主题模型是基于词袋模型，抽象出具有语义连贯性的概率分布作为一个知识点-主题，它体现了自然语言中远距离的语义一致性关联，它刻画了复杂的语意，主题图谱是一种宏观意义上一致性的语义抽象；而神经网络的词向量则是以神经语言模型为基础，将每个词当成一个高维向量，通过上下文对比，依次计算优化，最后生成每个词的向量，通过计算语义相似度，进而生成词语之间的关联知识图谱，它反映了一种语义空间内近距离的关联。

概率主题模型均存在以下缺点：进行数据挖掘完成之后所生成的各个主题相对孤立，缺乏关联性和系统性，没有对所有主题进行整体的抽象总结，使得分析深度和可视化不足，难以提高文本分析或数据挖掘的效率和功效，不利于真正的科学发现；而基于神经网络的词向量存在以下缺点：只能以某个基本知识概念(关键词或词组)为中心，生成相关知识分布全貌(即相关关键词或词组)，无法得到与之相关的主题，使得分析深度和可视化不足，难以提高文本分析或数据挖掘的效率和功效。所以，如何提高数据挖掘的深度和功效，成为一个亟待解决的问题。

发明内容

为了解决现有数据挖掘技术中所存在的挖掘深度和功效不高的的问题，本发明的目的在于提供一种结合概率主题模型和基于神经网络的词向量两种方式对数据进行挖掘，提高了文本分析和数据挖掘的深度、功效以及关联度的全景可视化图谱生成方法及装置、主设备和计算机可读存储介质。

第一方面，本发明提供了一种适用于数据挖掘的全景可视化图谱生成方法，包括：

在获取到语料库后，根据词表对所述语料库中各个文档的词语集合进行数值化处理，得到数值化训练样本，其中，所述语料库中包含有海量的文档；

将所述数值化训练样本输入至Word2Vec模型中进行训练，训练完毕后，得到所述数值化训练样本中各个词语的词向量；

将所述数值化训练样本输入至LDA模型中进行训练，训练完毕后，分别得到数值化训练样本的主题-词语矩阵和文档-主题矩阵，其中，所述主题-词语矩阵表示每个主题中出现每个词语的概率，所述文档-主题矩阵表示每个文档中出现每个主题的概率；

根据所述词向量得到各个词语的相关词语集合，根据所述主题-词语矩阵获取各个主题的特征词语集合，根据所述文档-主题矩阵获取各个主题的关联主题，其中，所述关联主题表示与某个主题共同出现在同一文档中的另一共现主题；

在获取到待搜索词语后，在各个词语的相关词语集合中查找到所述待搜索词语的相关词语集合，在所述特征词语集合中查找到包含有所述待搜索词语的所有目标主题，然后将位于所述待搜索词语的相关词语集合中的词语以及位于所述目标主题的特征词语集合中的词语分别作为所述待搜索词语的关联词语；

在获取到所述待搜索词语后，在所述特征词语集合中查找到包含有所述待搜索词语的所有目标主题，并查找到与各个目标主题对应的目标关联主题，将所有目标主题以及与各个目标主题对应的目标关联主题作为所述待搜索词语的匹配主题；

获取所有目标主题以及所有目标关联主题对应的作者和单位，生成所述匹配主题与作者和单位的映射关系；

将所述关联词语、所述匹配主题以及所述匹配主题与作者和单位的映射关系转换为所述待搜索词语的全景可视化图谱，进行输出展示，其中，所述全景可视化图谱包括有待搜索词语的关联词语的可视化内容、待搜索词语的匹配主题的可视化内容以及匹配主题与作者和单位的映射关系的可视化内容。

基于上述发明内容，本发明将概率主题模型(LDA)与基于神经网络的词向量(Word2Vec)结合在一起，通过神经网络的词向量生成以某个基本知识概念(关键词或词组)为中心的相关知识分布全貌(即相关关键词或词组)，同时还通过概率主题模型生成该基本知识概念为中心的粗颗粒复杂知识关联(即与基本知识概念相匹配的主题)，并将两种模型得出的结果进行相互集成，形成了一种全新的可视化图谱，其能够全方位的展示以某个基本知识概念(关键词或词组，即待搜索词语)为中心，相关知识分布全貌，既有细颗粒度概念级的概念关联(与待搜索词语相关联的词语或术语)，也有粗颗粒复杂知识关联(与待搜索词语相匹配的主题)；另外，本发明还能发生成各个匹配主题与作者和单位的映射关系，能够直观的展示作者单位与知识的关联。通过上述设计，本发明启发式的展示了待搜索词语所属领域知识的分布特征，发展态势，整个过程流畅，自然，极具启发性和直观性，揭示了某个基本知识概念的聚集性和发散性的特征，大大提高了文本分析和数据挖掘的效率和功效，提升了用户在知识广度和深度上认知水平，从而激发用户创新和科学发现。

在一个可能的设计中，采用如下步骤，对所述语料库中各个文档的词语集合进行数值化处理，得到数值化训练样本：

对所述语料库中的所有文档进行切词处理，切词处理完毕后，提取出包含在所述词表中的词语，并统计每个词语出现的频次，得到所述语料库的总词语集合和各个文档的词语集合，其中，在切词处理完毕后，提取出包含在所述词表中的词语，每个均不相同；

对所述总词语集合中的每个词语进行唯一编码，使每个词语对应一个数字唯一标识，编码完成后，得到数字编码词典；

根据所述数字编码词典将文档词语集合中的词语转换为对应的数字唯一标识，得到所述数值化训练样本。

基于上述发明内容，本发明公开了得到数值化训练样本的具体过程，将待训练的转换为数值化数据，可方便模型进行训练，达到较好的训练效果。当然，上述给出的处理过程仅仅作为数值化处理的一种方式。

在一个可能的设计中，对所述语料库中的所有文档进行切词处理包括以下方式：

使用正向最大匹配算法进行中文词组分词和/或英文词组分词；当进行英文词组分词时，还可使用构建数据结构字典树结合正向最大匹配算法的方式进行分词。

基于上述发明内容，本发明公开了切词处理的具体实现方式，能够使用上述两种方式对文档进行切词处理。当然，上述给出的方式仅仅作为切词处理方式的一种。

在一个可能的设计中，根据所述词向量得到各个词语的相关词语集合包括：

针对每个词语，根据该词语对应的词向量，应用欧式距离或空间向量夹角算法，计算该词语与其它词语之间的欧式距离或向量夹角，计算完毕后，选取欧式距离最近或向量夹角最小的前M个其它词语作为相关词语，得到所述相关词语集合，其中，所述M为介于1～100之间的自然数。

基于上述公开的内容，通过计算词语与其它词语之间的欧式距离或向量夹角，并判断欧氏距离的远近以及向量夹角的大小，来判断词语的相似度，进而选取距离最近或向量夹角最小的前M个其它词语作为相关词语，得到相关词语集合。通过上述设计，能够以待搜索词语为中心，生成该待搜索词语的关联词语。当然，上述公开的计算方式及选取方式，仅仅为相关词语获取的一种方式。

在一个可能的设计中，根据所述主题-词语矩阵获取各个主题的特征词语集合包括：

针对所述主题-词语矩阵中的各个主题，选取在对应主题中出现概率最大的前N个词语作为特征词语，得到特征词语集合，其中N为介于1～100之间的自然数。

基于上述公开的内容，能够得到各个主题的特征词语集合，为后续进行待搜索词语的关联词语和匹配主题的查找中，提供可数据基础。当然，上述公开的获取方式仅仅为特征词语获取方式中的一种。

在一个可能的设计中，根据所述文档-主题矩阵获取各个主题的关联主题包括：

针对所述文档-主题矩阵中的各个主题，分别计算其与另一主题出现在各篇文档中的共现概率之和，其中，两主题在某篇文档中的共现概率通过计算所述文档-主题矩阵中对应位置的元素之积得到；

针对所述文档-主题矩阵中的各个主题，选取对应与其共现概率之和最大的前K个另一主题作为关联主题，其中，K为介于3～10之间的自然数。

基于上述发明内容，能够得到各个主题的关联主题，在进行待搜索词语的匹配主题的查找时，能够扩展查找范围，扩大待搜索词语的匹配主题关联性。当然，上述公开的获取方式仅仅为关联主题的获取方式中的一种。

在一个可能的设计中，所述词表包括中文、英文、数字和符号的任意一种或一种以上组合形成的词组或短语。

第二方面，本发明提供了一种适用于数据挖掘的全景可视化图谱生成装置，包括获取模块、数值化处理模块、训练分析模块、查找模块和全景可视化图谱生成模块；

所述获取模块，用于获取包含有海量文档的语料库；

所述数值化处理模块，通信连接所述获取模块，用于根据词表对所述语料库中各个文档的词语集合进行数值化处理，得到数值化训练样本；

所述训练分析模块，通信连接所述数值化处理模块，用于将所述数值化训练样本输入至Word2Vec模型和LDA模型中进行训练，分别得到所述数值化训练样本中各个词语的词向量、所述数值化训练样本的主题-词语矩阵和文档-主题矩阵，同时还根据所述词向量得到各个词语的相关词语集合，根据所述主题-词语矩阵获取各个主题的特征词语集合，根据所述文档-主题矩阵获取各个主题的关联主题；

所述查找模块，通信连接所述训练分析模块，用于在获取到待搜索词语后，查找到待搜索词语的关联词语和匹配主题，同时还查找每个匹配主题对应的作者和单位，生成匹配主题与作者和单位的映射关系；

所述全景可视化图谱生成模块，通信连接所述查找模块，用于将关联词语、匹配主题和匹配主题与作者和单位的映射关系转换为所述待搜索词语的全景可视化图谱，进行输出展示。

第三方面，本发明提供了一种适用于数据挖掘的全景可视化图谱生成主设备，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如上一方面或第一方面中任意一种所述的适用于数据挖掘的全景可视化图谱生成方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行上述任意方面所述的适用于数据挖掘的全景可视化图谱生成方法。

第五方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如上述任意方面所述的适用于数据挖掘的全景可视化图谱生成方法。

本发明的有益效果为：

(1)全景式知识展示，本发明将传统的概率主题模型(LDA)和基于神经网络的词向量(WordtoVector)结合在一起，是在文本分析和数据发掘方面一种新的综合应用，集成了这两种方法在知识挖掘方面的各自优势，其能够全方位的展示以某个基本知识概念(关键词或词组，即待搜索词语)为中心，相关知识分布全貌，既有细颗粒度概念级的概念关联(与待搜索词语相关的关键词或术语)，也有粗颗粒复杂知识关联(与待搜索词语相匹配的主题)，还有各个匹配主题与作者和单位的映射关系，能够直观的展示作者单位与知识的关联。通过上述设计，本发明启发式的展示了当前领域知识的分布特征，发展态势，整个过程流畅，自然，极具启发性和直观性，揭示了某个基本知识概念的聚集性和发散性的特征，大大提高了文本分析和数据挖掘的效率和功效，提升了用户在知识广度和深度上认知水平，从而激发用户创新和科学发现。

(2)全景可视化图谱人机界面友好，以可视化方式进行交互，整个使用过程具有启发式，流畅自然，操作简单，大大提高了用户的粘性。

(3)全景可视化图谱生成方法术具有广泛的应用场景，是一种通用型的平台方法，除了文本处理(自然语言处理)，在图像处理，DNA分析均提供了一种新的分析挖掘方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的适用于数据挖掘的全景可视化图谱生成方法的流程示意图。

图2是本发明提供的对语料库进行数值化处理的流程示意图。

图3是本发明提供的霍夫曼树的结构图示意图。

图4是本发明提供的当待搜索词语为“查全率”时的全景可视化图谱的第一种示例图。

图5是本发明提供的当待搜索词语为“查全率”时的全景可视化图谱的第二种示例图。

图6是本发明提供的当待搜索词语为“查准率”时的全景可视化图谱的第一种示例图。

图7是本发明提供的当待搜索词语为“查准率”时的全景可视化图谱的第二种示例图。

图8是本发明提供的当待搜索词语为“软件测试”时的全景可视化图谱的第一种示例图。

图9是本发明提供的当待搜索词语为“软件测试”时的全景可视化图谱的第二种示例图。

图10是本发明提供的当待搜索词语为“结冰”时的全景可视化图谱的第一种示例图。

图11是本发明提供的当待搜索词语为“结冰”时的全景可视化图谱的第二种示例图。

图12是本发明提供的当待搜索词语为“特高压”时的全景可视化图谱的第一种示例图。

图13是本发明提供的适用于数据挖掘的全景可视化图谱生成装置的结构示意图。

图14是本发明提供的适用于数据挖掘的全景可视化图谱生成主设备的结构示意图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例一

如图1～12所示，本实施例所提供的适用于数据挖掘的全景可视化图谱生成方法，其适用于在处理中心端执行，可以但不限于包括有如下步骤S101～S108。

S101.在获取到语料库后，根据词表对所述语料库中各个文档的词语集合进行数值化处理，得到数值化训练样本，其中，所述语料库中包含有海量的文档。

所述步骤S101则是对语料库进行数值化处理的过程，语料库中包含有海量的文档，能够为LDA模型和Word2Vec模型提供足够的训练数据。而后续在将语料库导入LDA模型和Word2Vec模型中进行训练时，由于上述两个模型的训练算法无法处理词语的输入和输出(在本实施例中所提出的词语可以但不限于：单词、字符串、中文的任意组合)，所以，需要将语料库中各文档中的词语进行数值化处理，使每个词语均对应有唯一数字标识，方便后续使用LDA模型和Word2Vec模型进行训练。

在本实施例中，词表可以但不限于包括中文、英文、数字和符号的任意一种或一种以上组合形成的词组或短语。而语料库可以但不限于为：由用户提供的各种文档数据或者由现有采集软件采集的数据构成，语料库中的每篇文档可以但不限于包括有：标题、摘要、关键词、正文、附件、附件内容、作者和作者单位等一部分字段或几部分字段。

在本实施例中，步骤S101中对语料库进行数值化处理，得到数值化训练样本可以但不限于包括有如下步骤S101a～S101c。

S101a.对所述语料库中的所有文档进行切词处理，切词处理完毕后，提取出包含在所述词表中的词语，并统计每个词语出现的频次，得到所述语料库的总词语集合和各个文档的词语集合，其中，在切词处理完毕后，提取出包含在所述词表中的词语，每个均不相同。

S101b.对所述总词语集合中的每个词语进行唯一编码，使每个词语对应一个数字唯一标识，编码完成后，得到数字编码词典。

S101c.根据所述数字编码词典将文档词语集合中的词语转换为对应的数字唯一标识，得到所述数值化训练样本。

通过步骤S101a～S101c，即可实现对语料库中各文档的数值化处理，得到语料库中各不同词语所对应的唯一数字标识，形成数值化训练样本。

下面对数值化处理进行具体的举例：

例如，选取100000篇用户语料或者通过现有采集软件采集的文档数据作为训练语料，形成语料库，同时，每篇文档包括标题、关键词、摘要和作者字段信息，对上述文档进行中文切词和英文词组识别，然后进行词语统计，当然，需要统计不同的词语，且每个词语均包含在词表中，统计的词语总数为A，然后对每个词语均进行唯一编码，逐一的按照顺序将每个词语编码为0～A-1之间的整数，进而即可实现对语料库的数值化处理。当然，可根据词语出现的频次从到到底进行编码，例如，出现频次最多的词语编码为0，依次往下进行编码，直到最后一个词语。

同时，在步骤S101a中，为了对语料库中可文档在切词后具有更好的语义效果，需要用到现有切词算法对文档中的语句进行切词，切词可以但不限于包括有：中文分词和/或英文词组的识别。例如识别“飞机设计研究院”和“big data”等词语时，就需要将飞机设计研究院”和“big data”识别为一个词语。切词的准确度越高，生成的全景可视化图谱上的词语表达出的语义效果越好。

在本实施例中，举例切词处理算法可以但不限于包括有：使用正向最大匹配算法进行中文词组分词和/或英文词组分词；当进行英文词组分词时，还可使用构建数据结构字典树结合正向最大匹配算法的方式进行分词。

在本实施例中，正向最大匹配算法为一种现有切词算法，其原理为：从左到右将待分词文本(相当于语料库中的文档)中的几个连续字符与词表(现有技术，由成千上万个常用且已经分好的词语组成)匹配，如果匹配上，则切分出一个词。要做到最大匹配，并不是第一次匹配到就可以切分，即从第一个字符开始，当扫描到第二个字符的时候，发现第一个字符已经在词表中了，但还不能切分出来，因为不知道后面的词语能不能组成更长的词(实现最大匹配)，需要不断进行扫描迭代，直到下一个扫描的字符不是词表中的词或词的前缀才能结束。

而英文词组的识别扫描与中文分词原理相同，只需要将英文空格转换为“|”或者其它具有表征意义的字符，能够表示为一个词组即可。

在本实施例中，在进行英文词组的识别时，可以采用构建数据结构字典树与正向最大匹配算法相结合的方式加快英文词组的识别速度。

数据结构字典树又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串(但不仅限于字符串)，所以经常被搜索引擎系统用于文本词频统计。其优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

数据结构字典树包括3个性质：(1)根节点不包含字符，除根节点外每一个节点都只包含一个字符；(2)从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串；(3)每个节点的所有子节点包含的字符都不相同。

数据结构字典树的基本操作有：查找、插入和删除。

数据结构字典树搜索项目的方法为：(1)从根结点开始一次搜索；(2)取得要查找关键词的第一个字母，并根据该字母选择对应的子树并转到该子树继续进行检索；(3)在相应的子树上，取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。(4)迭代过程；(5)在某个结点处，关键词的所有字母已被取出，则读取附在该结点上的信息，即完成查找。

在完成语料库的数值化处理，得到数值化训练样本后，即可将数值化训练样本导入LDA模型和Word2Vec模型中进行训练，并根据训练结果得出各个词语的相关词语集合、各个主题的特征词语集合以及各个主题的关联主题，如步骤S102、步骤S103和步骤S104所示：

S102.将所述数值化训练样本输入至Word2Vec模型中进行训练，训练完毕后，得到所述数值化训练样本中各个词语的词向量。

S103.将所述数值化训练样本输入至LDA模型中进行训练，训练完毕后，分别得到数值化训练样本的主题-词语矩阵和文档-主题矩阵，其中，所述主题-词语矩阵表示每个主题中出现每个词语的概率，所述文档-主题矩阵表示每个文档中出现每个主题的概率。

S104.根据所述词向量得到各个词语的相关词语集合，根据所述主题-词语矩阵获取各个主题的特征词语集合，根据所述文档-主题矩阵获取各个主题的关联主题，其中，所述关联主题表示与某个主题共同出现在同一文档中的另一共现主题。

在本实施例中，Word2Vec模型是一种现有训练模型，其相关的技术解释和训练过程可参见现有技术文献(https://www.cnblogs.com/Finley/p/6043769.html)，其一般过程为在导入一系列文档的数值化样本和进行参数设置后，选择两种不同训练模式中任何一种：CBOW(ContinuousBag-of-WordsModel)和Skip-gram(ContinuousSkip-gramModel)；以及选择两种加速方法中的任何一种：NegativeSample和HierarchicalSoftmax；以及通过训练可导出各个词语的词向量。

例如，在本实施例中，选用了Skip-Gram训练模型和Hierarchical Softmax加速方法。而Word2Vec模型中的迭代次数Epoch、向量维度Vectorsize和学习率Learningrate等参数，可以根据训练和测试结果进行实际选取，而本实施例中，设定Word2Vec模型的Epoch选取范围为10～25之间，Vectorsize选取范围为45～100之间,Learningrate的选取范围为0.001～0.03之间(推荐使用默认0.025)，使用大数据开源框架SPARK进行训练。

下面以此词表记录数为A，Epoch为15，Vectorsize＝50，Learningrate＝0.025为例，对本实施例中Word2Vec的训练过程作出说明。在这种情况下，对于每一个时刻输入的词或字符，可执行如下步骤：

(1)中文分词和英文词组识别。采用上述提出的切词算法进行中文分词和英文词组的识别。

(2)构造词典，统计词频。这一步需要遍历一遍所有文本，找出所有出现过的词，并统计各词的出现频率。将当前时刻的词或字符转换成一个0～(A-1)的数字标识，并将数字标识转换为一个A维的独热(one－hot)向量。这一步则是进行数值化处理。

(3)构造树形结构。依照出现概率构造Huffman(霍夫曼)树，所有分类都应该处于叶节点。

(4)生成节点所在的二进制码。如图3所示，22对应的二进制码为00，而17对应的是100。也就是说，这个二进制码反映了节点在树中的位置，能按照编码从根节点一步步找到对应的叶节点。

(5)初始化各非叶节点的中间向量和叶节点中的词向量。霍夫曼树中的各个节点，都存储着一个长为m的向量，但叶节点和非叶结点中的向量的含义不同。叶节点中存储的是各词的词向量，是作为神经网络的输入的，而非叶结点中存储的是中间向量，对应于神经网络中隐含层的参数，与输入一起决定分类结果。

(6)训练中间向量和词向量。首先将词B附近的n-1个词的词向量相加作为系统的输入，并且按照词B在步骤4中生成的二进制码，一步步的进行分类并按照分类结果训练中间向量和词向量。例如，对于17节点，我们已经知道其二进制码是100。那么在第一个中间节点应该将对应的输入分类到右边。如果分类到左边，则表明分类错误，需要对向量进行修正。第二个，第三个节点也是这样，以此类推，直到达到叶节点。因此对于单个单词来说，最多只会改动其路径上的节点的中间向量，而不会改动其他节点。

经过上述步骤之后，即可得到每一个词语对应的设定维度的词向量。

在使用Word2Vec模型对数值化训练样本进行训练后，即可得到每个词语的词向量，最后，根据词向量即可得到各个词语的相关词语集合。

在本实施例中，各个词语的相关词语集合的获取可以但不限于包括有如下步骤：

针对每个词语，根据该词语对应的词向量，应用欧式距离或空间向量夹角算法，计算该词语与其它词语之间的欧式距离或向量夹角，计算完毕后，选取欧式距离最近或向量夹角最小的前M个其它词语作为相关词语，得到所述相关词语集合，其中，所述M为介于1～100之间的自然数。在本实施例中，采用与其它词语之间的欧式距离升序排列，欧式距离越小代表语义越相似，取前M个，M默认值为30。

同时，还需要将数值化训练样本导入LDA模型中进行训练，得到数值化训练样本的主题-词语矩阵和文档-主题矩阵。

在本实例中，LDA模型也为一种现有训模型，其详细技术解释和训练过程可参见现有技术文献(例如参见网页：https://blog.csdn.net/huagong_adu/article/details/7937616和https://blog.csdn.net/u010159842/article/details/80332030)，其一般过程为在导入一系列文档的数值化样本和进行参数设置后，通过计算各个文档中每个词语的词频，得到所述主题-词语矩阵和文档-主题矩阵，其中，所述文档-主题矩阵表示每个文档中出现每个主题的概率。本申请认为文档中的主题是彼此相互关联的复杂语义关联网络，每个主题就是网络中的一个节点，每个文档均被解析表示成出现概率最大的X(一般取值为1～10之间)个主题按照所占百分比的组成，由于自然语言的稀疏性，每个文档的实际包含主题数是远远小于总主题数的，诸如主题预设总数等参数可以根据训练和测试结果进行选取，例如，主题预设总数的范围可在10～1000000之间进行设置。

通过上述设计，在经过LDA模型进行训练后，即可得到数值化训练样本的主题-词语矩阵和文档-主题矩阵，最后，再根据主题-词语矩阵即可获取各个主题的特征词语集合，根据文档-主题矩阵即可获取各个主题的关联主题。

在本实施例中，举例根据所述主题-词语矩阵获取各个主题的特征词语集合可以不限于包括如下方式：

针对所述主题-词语矩阵中的各个主题，选取在对应主题中出现概率最大的前N个词语作为特征词语，得到特征词语集合，其中N为介于1～100之间的自然数。在本实施例中，举例N为30个。

在本实施例中，举例根据所述文档-主题矩阵获取各个主题的关联主题可以但不限于包括如下步骤：

针对所述文档-主题矩阵中的各个主题，分别计算其与另一主题出现在各篇文档中的共现概率之和，其中，两主题在某篇文档中的共现概率通过计算所述文档-主题矩阵中对应位置的元素之积得到。此外，在本实施例中，还可统计各个主题的关联主题数据，并采用双层Hashmap<Hashmap>的数据结构存储三种数据信息，三种数据信息分别为主题、关联主题和关联主题数目。

针对所述文档-主题矩阵中的各个主题，选取对应与其共现概率之和最大的前K个另一主题作为关联主题，其中，K为介于3～10之间的自然数。在本实施例中，举例K具体为5。

下面对关联主题的选取进行具体的举例：

例如，主题G1与各个主题G2～G12的共现概率之和分别为：0.11、0.55、0.22、0.35、0.66、0.10、0.51、0.54、0.21、0.41、0.45，选取与主题G1的共现概率之和最大的5个主题作为关联主题，即分别选取0.66、0.55、0.54、0.51和0.45对应的主题作为G1的关联主体，即G6、G3、G9、G8和G12主题作为G1的关联主题。

通过步骤S101～S104以及各步骤中含有的子步骤，即可建立数据挖掘的分析模型，当用户输入一个词语后，即可根据上述模型对输入的词语进行挖掘，得到与之相关的各个词语、主题、作者、作者单位等数据，并形成全景可视化图谱进行直观的展示，搜索过程如步骤S105～S108所示。

S105.在获取到待搜索词语后，在各个词语的相关词语集合中查找到所述待搜索词语的相关词语集合，在所述特征词语集合中查找到包含有所述待搜索词语的所有目标主题，然后将位于所述待搜索词语的相关词语集合中的词语以及位于所述目标主题的特征词语集合中的词语分别作为所述待搜索词语的关联词语。

步骤S105则是搜索待搜索词语的关联词语的过程，即通过上述构建的LDA模型和Word2Vec模型对待搜索模型进行数据挖掘，在上述相关词语集合以及特征词语集合中，查找待搜索词语的关联词语。

在本实施例中，待搜索词语的关联词语的选取还是按照上提到的，选取与待搜索词语欧式距离最小的前M个作为关联词语。

例如，待搜索词语为“查全率”，那么与“查全率”语义最相关的词语可以但不限于：语义相似度、文档相关度等等，步骤S105则是将与待搜索词语语义最相关的若干个词语均挖掘出来。

S106.在获取到所述待搜索词语后，在所述特征词语集合中查找到包含有所述待搜索词语的所有目标主题，并查找到与各个目标主题对应的目标关联主题，将所有目标主题以及与各个目标主题对应的目标关联主题作为所述待搜索词语的匹配主题。

步骤S106则是对待搜索词语的关联主题进行挖掘的过程，即在上述的特征词语集合和各个关联主题中，挖掘出与待搜索词语相关的主题，将挖掘的出主题作为待搜索词语的匹配主题。

S107.获取所有目标主题以及所有目标关联主题对应的作者和单位，生成所述匹配主题与作者和单位的映射关系。

在本实施例，还可以根据挖掘出的每篇主题，获取每篇主题对应的作者及单位，形成知识、作者及作者单位的关联展示。对用户了解相关知识及领域具有很强的直观性。

S108.将所述关联词语、所述匹配主题以及所述匹配主题与作者和单位的映射关系转换为所述待搜索词语的全景可视化图谱，进行输出展示，其中，所述全景可视化图谱包括有待搜索词语的关联词语的可视化内容、待搜索词语的匹配主题的可视化内容以及匹配主题与作者和单位的映射关系的可视化内容。

步骤S108则是将步骤S105、S106和S107挖掘的结果进行输出展示的过程，即将待搜索词语的关联词语、匹配主题以及匹配主题与作者和单位的映射关系转换为待搜索词语的全景可视化图谱，直观的展示为用户。

在本实施例中，全景可视化图谱上展示的内容可以但不限于包括有：待搜索词语的关联词语的可视化内容(即关联词语的展示)、待搜索词语的匹配主题(匹配主题的展示)的可视化内容以及匹配主题与作者和单位的映射关系的可视化内容(匹配主题对应的作者及单位展示)。

在本实施例中，所述匹配主题的可视化内容可以但不限于包含有对应匹配主题的通用图形(例如方框或椭圆框等)、矩阵序列编号(即在所述主题-词语矩阵和所述文档-主题矩阵中与主题对应的行列号)、特征词语和/或主题总现占比值等。另外，匹配主题与作者及单位的映射关系可以但不限于通过连接线表示，同理，待搜索词语、关联词语、匹配主题以及匹配主题与作者及单位映射关系，上述4者之前均可采用连接线进行关联。

例如，如图4～12和图12所示，图4～11给出了待搜索词语分别为“查全率”、“查准率”、“软件测试”和“结冰”时，输出的两种全景可视化图谱的示意图。其中，图4是待搜索词语为“查全率”时的全景可视化图谱的第一种示例图，即给出了关联词语、匹配主题以及匹配主题与作者和单位映射关系的全景可视化图谱，如图5则是待搜索词语为“查全率”时的全景可视化图谱的第二种示例图，即在全景可视化图谱上未显示匹配主题与作者和映射关系，其余待搜索词语的全景可视化图谱的图示与查全率一致，于此不多加赘述。而图12给出了待搜索词语为“特高压”时的全景可视化图谱的第一种示例图。

在本实施例中，待搜索词语、关联词语和匹配主题可用一级节点、二级节点和三级节点来表示，即每一个待搜索词语均有关联词语，即即一级节点就是根节点是用户输入的检索词语，例如用户输入放入待搜索词语为“查全率”，那么“查全率”就是一级节点，和“查全率”语义最为相关的词语，例如“语义相似度”、“文档相关度”等词语是二级节点，和二级节点“语义相似度”语义最为相关的是三级节点，例如“检索模型”、“查询扩展”，将三个等级的节点全部展示给用户。同时，与待搜索词语相关的匹配主题及匹配主题与作者和单位的映射关系也为二级节点，并展示在全景可视化图谱上，如4～12所示。

同时，如图10和图12所示，全景可视化图谱中的关联词语和匹配主题中的词存在关联和耦合，它体现了特定领域知识研究发展的态势和特征，比如，当待搜索词语为“结冰”时，其匹配主题和其全景可视化图谱中很多概念(关联词语)相互关联，体现在“结冰”这个非常细分的研究领域，目前的研究热点内容较为集中，概念相对聚合，属于早期阶段，而待搜索词语为“特高压”时，其关匹配主题中，既有和全景可视化图谱中的关联词语相关联的主题，又有与其余他4个匹配主题相关联的主题，体现了在这个领域的丰富成熟的发展态势，深入的应用场景。

由此通过步骤S101～步骤S108所详细描述的适用于数据挖掘的全景可视化图谱生成方法，其能够全方位的展示以以某个基本知识概念(关键词或词组)为中心，相关知识的分布全貌，既有细颗粒度概念级的概念关联(关键词或术语)，也有粗颗粒复杂知识关联(与基本知识概念相匹配的主题)，还有各个匹配主题与作者和单位的映射关系，能够直观的展示作者单位与知识的关联。通过上述设计，本发明启发式的展示了当前领域知识的分布特征，发展态势，整个过程流畅，自然，极具启发性和直观性，揭示了某个基本知识概念的聚集性和发散性的特征，大大提高了文本分析和数据挖掘的效率和功效，提升了用户在知识广度和深度上认知水平，从而激发用户创新和科学发现。

实施例二

如图13所述，本实施例提供了一种实现实施例一所述的适用于数据挖掘的全景可视化图谱生成方法的硬件装置，包括获取模块、数值化处理模块、训练分析模块、查找模块和全景可视化图谱生成模块。

所述获取模块，用于获取包含有海量文档的语料库。

所述数值化处理模块，通信连接所述获取模块，用于根据词表对所述语料库中各个文档的词语集合进行数值化处理，得到数值化训练样本。

所述训练分析模块，通信连接所述数值化处理模块，用于将所述数值化训练样本输入至Word2Vec模型和LDA模型中进行训练，分别得到所述数值化训练样本中各个词语的词向量、所述数值化训练样本的主题-词语矩阵和文档-主题矩阵，同时还根据所述词向量得到各个词语的相关词语集合，根据所述主题-词语矩阵获取各个主题的特征词语集合，根据所述文档-主题矩阵获取各个主题的关联主题。

所述查找模块，通信连接所述训练分析模块，用于在获取到待搜索词语后，查找到待搜索词语的关联词语和匹配主题，同时还查找每个匹配主题对应的作者和单位，生成匹配主题与作者和单位的映射关系。

本实施例提供的硬件装置的工作过程、工作细节和技术效果，可以参见实施例一，于此不再赘述。

实施例三

如图14所示，本实施例提供了一种执行实施例一中所述的适用于数据挖掘的全景可视化图谱生成方法的主设备，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如实施例一所述的适用于数据挖掘的全景可视化图谱生成方法。

具体举例的，所述存储器可以但不限于包括随机存取存储器(RAM)、只读存储器(ROM)、闪存(Flash Memory)、先进先出存储器(FIFO)和/或先进后出存储器(FILO)等等；所述处理器可以不限于采用型号为STM32F105系列的微处理器；所述收发器可以但不限于为WiFi(无线保真)无线收发器、蓝牙无线收发器、GPRS(General Packet Radio Service，通用分组无线服务技术)无线收发器和/或ZigBee(紫蜂协议，基于IEEE802.15.4标准的低功耗局域网协议)无线收发器等。此外，所述主设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例提供的主设备的工作过程、工作细节和技术效果，可以参见实施例一，于此不再赘述。

实施例四

本实施例提供了一种存储包含有实施例一所述的适用于数据挖掘的全景可视化图谱生成方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如实施例一所述的适用于数据挖掘的全景可视化图谱生成方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例提供的计算机可读存储介质的工作过程、工作细节和技术效果，可以参见实施例一，于此不再赘述。

实施例五

本实施例提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如实施例一所述的适用于数据挖掘的全景可视化图谱生成方法，其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

以上所描述的多个实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备执行各个实施例或者实施例的某些部分所述的方法。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.一种适用于数据挖掘的全景可视化图谱生成方法，其特征在于，包括：

2.根据权利要求1所述的一种适用于数据挖掘的全景可视化图谱生成方法，其特征在于，采用如下步骤，对所述语料库中各个文档的词语集合进行数值化处理，得到数值化训练样本：

3.根据权利要求2所述的一种适用于数据挖掘的全景可视化图谱生成方法，其特征在于，对所述语料库中的所有文档进行切词处理包括以下方式：

4.根据权利要求1所述的一种适用于数据挖掘的全景可视化图谱生成方法，其特征在于，根据所述词向量得到各个词语的相关词语集合包括：

5.根据权利要求1所述的一种适用于数据挖掘的全景可视化图谱生成方法，其特征在于，根据所述主题-词语矩阵获取各个主题的特征词语集合包括：

6.根据权利要求1所述的一种适用于数据挖掘的全景可视化图谱生成方法，其特征在于，根据所述文档-主题矩阵获取各个主题的关联主题包括：

7.根据权利要求1所述的一种适用于数据挖掘的全景可视化图谱生成方法，其特征在于：所述词表包括中文、英文、数字和符号的任意一种或一种以上组合形成的词组或短语。

8.一种适用于数据挖掘的全景可视化图谱生成装置，其特征在于，包括获取模块、数值化处理模块、训练分析模块、查找模块和全景可视化图谱生成模块；

所述获取模块，用于获取包含有海量文档的语料库；

9.一种适用于数据挖掘的全景可视化图谱生成主设备，其特征在于：包括依次相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～7任意一项所述的适用于数据挖掘的全景可视化图谱生成方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7任意一项所述的适用于数据挖掘的全景可视化图谱生成方法。