CN110737777A

CN110737777A - 一种基于ghsom算法的知识地图构建方法

Info

Publication number: CN110737777A
Application number: CN201910800395.6A
Authority: CN
Inventors: 张浩洋; 周良
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2020-01-31

Abstract

本发明公开了一种基于GHSOM算法的知识地图构建方法，GHSOM是多层分级结构，每一层包含数个独立的成长型SOM，通过增长规模来在一定详细程度上描述数据集。在构建知识地图时，首先对待分类的文本数据集进行数据预处理，通过结合中文分词、关键词提取、文件向量生成等技术手段，生成用于GHSOM算法验算的初始输入向量，然后利用GHSOM算法对文本进行聚类分析，并最终建立知识地图。本发明的先进性主要体现在更短的计算时间，并提供更丰富的有序性表达能力。本发明采用最新的数据挖掘技术成果，将改进的GHSOM算法应用于知识地图的构建，并尝试使用这种方法建立专门领域的知识地图。结果表明，利用该方法构建的专业领域知识地图在地图的精确率和召回率上有显著的提高。

Description

一种基于GHSOM算法的知识地图构建方法

技术领域

本发明涉及一种基于GHSOM算法的知识地图构建方法，属于数据挖掘技术领域。

背景技术

随着计算机技术的飞速发展，特别是Internet技术的不断应用，人们利用网络信息技术产生和搜集数据的能力有了大幅度的提高，数据呈现了飞快的增长趋势。如何从海量的数据中获取所需要的信息成为了一个迫切需要研究的问题。面对这样的挑战，数据挖掘(Data Mining)技术应运而生，使用数据挖掘技术能够从这些海量数据中获取隐含的有用信息。然而，由于数据的爆炸性增长，如何使用数据挖掘技术快速有效地从海量数据中获取隐含有用的信息是目前迫切需要解决的问题。

布鲁克斯提出的“知识地图”主要是指人类的客观知识，他认为人类的知识结构可以绘制成以各个知识单元概念为节点的学科认识地图。在知识地图构建方法方面的研究与尝试主要有：潘旭伟等提出了面向知识管理的知识建模技术，对知识载体、知识内容信息和知识情境进行建模。苏海等利用5W1H方法对产品开发过程中的知识元进行建模并构建知识地图。叶范波等对产品设计过程的知识进行了定义和描述。潘星等给出了一种基于概念聚类的知识地图模型。此外，主题图中的主题建模方法以及本体建模技术可以应用到知识地图的知识建模中，利用主题、本体建模工具可以提高建模的效率及准确性，节省人力和时间。现有常用的本体编辑工具有Ontosaurus、WebOnto、Protege2000等，常用的本体及主题图描述语言有KIF、Ontolingua、CycL等。利用这些描述语言及辅助构建工具可以统一知识的描述格式，有利于知识在不同平台之间共享，有利于知识地图的及时更新及知识概念的合并。利用本体对知识地图进行构建的一些例子有：苑忠磊等研究了面向流程的企业知识地图及其本体实现；潘有能等研究了基于本体的组织知识地图构建；褚芳芳等研究了制造企业知识地图及其本体实现。

在大数据不断发展的新阶段，知识地图的构建应该结合数据挖掘及人工智能技术。数据挖掘和人工智能技术可以应用于知识地图模型中资源层与描述层之间。数据挖掘中的关联挖掘可以帮助从数据库、知识库及文本中发现概念，丰富已有知识地图中的概念，关联规则的发现可以帮助提取概念之间的层次性关系及确定适当的抽象层次等。在应用数据挖掘及人工智能技术构建知识地图方面：陈文华等利用文本挖掘中的聚类技术对文本进行聚类，并提取出代表文本的关键词以辅助知识地图的构建。邱登裕等研究了构建企业知识地图时使用信息检索及数据挖掘技术应考虑的问题及存在的挑战，应用数据挖掘技术实现了将企业中的文件阶层式分类架构转换成知识地图形式，并且设计了文件之间的关联规则，预估可能相关的所有文件，将企业中的文件做适当的呈现，精确地挖掘出关联文件。H.Chouyin研究了用于管理项目知识的情境导向型知识地图，分析挖掘项目参与人员的项目经验记录，包括项目背景情境信息、人员技能信息等，当新项目组建时提供相关项目经验和推荐项目参与人员。Lin Furen等研究了对等网环境下知识地图的构建，提出了基于ESOM算法的知识地图构建的方法。

在已有的文本聚类算法中，SOM算法拥有一个显著的缺点，即它的架构必须预先地被定义，动态增长的SOM变体往往会产生难以处理的巨大地图。这就导致了GHSOM算法的产生，它根据数据分布以分层方式增长，允许在数据的子部分中进行层次分解。

发明内容

本发明所要解决的技术问题是：提供一种基于GHSOM算法的知识地图构建方法，将改进的GHSOM算法应用于知识地图的构建中，并使用这种方法建立专门领域的知识地图，克服现有技术的不足，设计合理、快速准确且可视性强。

本发明为解决上述技术问题采用以下技术方案：

一种基于GHSOM算法的知识地图构建方法，包括如下步骤：

步骤1，收集待处理文本，生成文本集，对文本集进行数据预处理，得到文件向量；

步骤2，将步骤1得到的全部文件向量作为GHSOM算法的初始输入向量，计算第0层神经单元的量化误差；

步骤3，构建第1层映射为2*2个神经单元的SOM，采用K-means方法对第1层每个神经单元进行初始化，并设置当前网络为活动网络，活动网络层级数为1；

步骤4，采用SOM训练算法训练当前拥有的活动网络；

步骤5，训练完成后，计算活动网络内所有神经单元的量化误差以及当前活动网络的平均量化误差；

步骤6，判断步骤5计算得到的平均量化误差是否达到级内终止条件，若达到则转入步骤7，否则，选取活动网络中量化误差最大的神经单元标记为误差神经元，计算误差神经元邻域内各神经单元到误差神经元的距离，将其中最大距离对应的神经单元作为误差神经元的最远邻近神经元，在误差神经元和最远邻近神经元之间插入一行新的神经单元，重置SOM训练算法的参数，并返回步骤4；

步骤7，对活动网络所有神经单元逐个验证全局终止条件，当所有神经单元均满足全局终止条件时，完成对当前活动网络的验证；当存在神经单元不满足全局终止条件时，对于不满足全局终止条件的神经单元，计算该单元四个邻居的模型向量值，然后构建以这四个模型向量值为初始值的2*2新映射网络，并设置新映射网络为活动网络，层级数加1，将映射在该单元上的文件向量作为训练数据，返回步骤4；

步骤8，完成一个活动网络的验证时，将该活动网络的父亲单元所在网络设置为活动网络，当层级数为1时聚类结束，否则层级数减1，并返回步骤7；

步骤9，根据聚类结果，为不同聚类集合选定主题词，并建立原始文本段落至知识地图聚类结果的链接。

作为本发明的一种优选方案，所述步骤1的具体过程为：

步骤1.1，收集待处理文本，生成文本集，以段落为单位对文本集进行切分，得到段落文本；

步骤1.2，对各段落文本进行中文分词处理，并按照中文停用词表去除停用词；

步骤1.3，根据步骤1.2得到的结果，依据TF-IDF方法提取各段落文本的关键词；

步骤1.4，利用基于维基百科中文语料库的doc2vec模型将关键词转化为词向量，为各段落文本生成维度相同的文件向量。

作为本发明的一种优选方案，步骤2所述神经单元的量化误差，计算公式为：

其中，qe_il表示第i层第l个神经单元的量化误差，C_l表示映射到第l个神经单元的文件向量集合，x_j表示映射到第l个神经单元的第j个文件向量，m_l表示映射到第l个神经单元的所有文件向量的平均值。

作为本发明的一种优选方案，步骤5所述当前活动网络的平均量化误差，计算公式为：

其中，MQE_m表示当前活动网络的平均量化误差，m为活动网络所在层级数，n为当前网络层级中所有神经单元的数量，μ为当前网络层级中所有神经单元的集合，qe_il表示第i层第l个神经单元的量化误差。

作为本发明的一种优选方案，步骤6所述级内终止条件为：

MQE_m＜τ1·qe_il

其中，MQE_m表示当前活动网络的平均量化误差，qe_il表示第i层第l个神经单元的量化误差，τ1为预先设置的决定知识地图大小的水平生长参数。

作为本发明的一种优选方案，步骤7所述全局终止条件为：

qe_il＜τ2·qe₀₁

其中，qe_il表示第i层第l个神经单元的量化误差，qe₀₁表示第0层第1个神经单元的量化误差，τ2为预先设置的决定知识地图阶层深度的参数。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明在文本聚类领域中的应用体现了其自组织性。在毫无教师信号的前提下，自动将文本分成了不同的类别，并用不同映射神经元的相邻关系显示了文本的相似性。整个聚类过程减少了人工对其分类数量等的干预，并且在聚类不充分的类别中自动进行进一步分类，使分类结果更加准确。

2、本发明通过组织大量文本集的内部逻辑内容，为管理和使用人员提供尽可能全面、综合、易查找的知识线索，方便快速寻找知识内容。

3、利用本发明方法构建的专业领域知识地图在地图的精确率和召回率上有显著的提高。

附图说明

图1是本发明GHSOM算法总体流程图。

图2是本发明知识地图构建流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明环境为处于基于python 3.6版本的Anaconda实验环境中。

整个知识地图构建过程如图2所示，首先，收集待处理文本，生成文本集，对文本集进行数据预处理，预处理的内容包括：

(1)以段落为基本单位对文本集进行切分，以提高知识地图构建结果的精确度和召回率；

(2)按段进行中文分词处理，按照中文停用词表去除停用词；

(3)根据分词结果，依据TF-IDF方法锁定并提取相关关键词；

(4)根据预先训练好的基于维基百科中文语料库的doc2vec模型将关键词转化为词向量，为各段文字生成维度相同的文件向量，并依次产生每篇短文本的文件向量。

随后，利用GHSOM演算法发展并构建知识地图，具体过程如图1所示，为：

(5)将上一步生成的全部文件向量作为GHSOM算法的初始输入向量，带入GHSOM算法中，进行第0层单元的量化误差计算；

增长过程的起点是在第0层，用仅有单个单元的SOM测量输入数据的总偏差，即量化误差。第i层第l个单元的量化误差qe_il的计算公式如下所示：

其中，C_l为映射到第i层神经单元上的输入向量集(由于在第0层中只有一个神经单元，所以C_l为前述步骤中生成的全部文件特征向量)；m_l代表C_l中所有输入向量的平均值。下述步骤中提到的各层单元的量化误差均采用此公式计算。

(6)构建第1层映射为2*2个神经单元的SOM。在第0层单元的量化误差计算完成后，GHSOM的训练从其第一层SOM开始。该第一层最初由相当少量的单元组成，在本方法中采用了2*2的单位网格。然后，为这些单元中的每一个向量额外分配一个与其维度相同的权重向量，用随机值初始化，并设置此网络为活动网络，活动网络层级数为1。

(7)使用传统的SOM训练算法训练当前拥有的活动网络。SOM训练算法为文本聚类过程中的常规算法，具体算法步骤与流程在此不再详述。

(8)上述训练完成后，利用公式(1)计算活动网络内所有神经元的量化误差qe_il，并根据平均量化误差MQE定义式：

计算当前网络的MQE_m值。其中，m为活动网络所在层级数，qe_il为量化误差(本层所有输入向量中，投射到此神经单元上的子向量集μ的量化误差)，μ为当前网络层级中所有神经单元的集合，n为μ中所有神经单元的数量。

(9)根据上一步的计算结果，验证级内终止条件：

MQE_m＜τ1·qe_il (3)

其中，qe_il是计算MQE_m时活动网络所在层级数m对应的上一层单元的量化误差，τ1是由人工预先设定的决定地图大小的水平生长参数。

当上述条件成立时，转第(10)步。当上述条件不成立时，选取活动网络中量化误差值最大的神经单元，标记为误差神经元e，然后计算误差神经元邻域内各神经元到误差神经元的距离，其中具有最大距离的神经元为误差神经元的最远邻近神经元，称之为最相异的邻居d，最后在e和d之间插入一行新的单元，重置SOM参数，转第(7)步；

最相异的邻居d的计算公式如下所示：

其中，m_e为误差神经元的权值向量，N_e是e的邻居集。

(10)根据公式(1)，对所有活动网络单元逐个验证全局终止条件：

qe_il＜τ2·qe₀₁ (5)

其中，τ2为预先由人工设定的决定知识地图阶层深度的参数，qe₀₁为第0层仅有的唯一一个单元的量化误差。当发现条件不满足上式的单元时，计算该单元四个邻居的模型向量值，然后构建以此四个向量值为初始值的2*2新映射网络，并设置新建网络为活动网络，层级数加1，将映射在该单元上的数据作为训练数据，转第(7)步；当条件满足时，完成对当前网络的验证。

(11)完成一个活动网络的验证时，将此网络父亲单元所在网络设置为活动网络，当层级数为1时结束并完成算法。否则，层级数减1，转第(10)步。

(12)根据文本聚类结果，为不同聚类进行人工选定主题词，确保每个聚类都有贴近其主要内容的主题词。

(13)建立原始文本段至知识地图聚类结果集的链接，方便利用知识地图上的相关索引找到原始文本文件，提高获取知识的获取精度与速度，为知识查找提供方便。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于GHSOM算法的知识地图构建方法，其特征在于，包括如下步骤：

步骤4，采用SOM训练算法训练当前拥有的活动网络；

2.根据权利要求1所述基于GHSOM算法的知识地图构建方法，其特征在于，所述步骤1的具体过程为：

3.根据权利要求1所述基于GHSOM算法的知识地图构建方法，其特征在于，步骤2所述神经单元的量化误差，计算公式为：

4.根据权利要求1所述基于GHSOM算法的知识地图构建方法，其特征在于，步骤5所述当前活动网络的平均量化误差，计算公式为：

5.根据权利要求1所述基于GHSOM算法的知识地图构建方法，其特征在于，步骤6所述级内终止条件为：

MQE_m＜τ1·qe_il

6.根据权利要求1所述基于GHSOM算法的知识地图构建方法，其特征在于，步骤7所述全局终止条件为：

qe_il＜τ2·qe₀₁