CN106991127B

CN106991127B - 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Info

Publication number: CN106991127B
Application number: CN201710129359.2A
Authority: CN
Inventors: 魏笔凡; 吴蓓; 刘均; 郑庆华; 郭朝彤; 郑元浩; 吴科炜
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2017-03-06
Filing date: 2017-03-06
Publication date: 2020-01-10
Anticipated expiration: 2037-03-06
Also published as: CN106991127A

Abstract

本发明一种基于拓扑特征扩展的知识主题短文本层次分类方法，能够有效的对知识主题短文本进行组织和管理，解决互联网海量知识短文本造成的信息过载问题。其包括以下步骤：1)初始文本特征构建；2)基于拓扑特征的短文本特征扩展；3)异构知识主题间的迁移学习方法。通过采集多个知识主题对应的短文本长度做初步的量化统计和分析，明确了知识主题短文本文本特征的稀疏程度。通过短文本之间的词共现情况构建并分析知识主题短文本网络，最终选取社区特征有效扩展文本特征。通过计算知识主题之间的KL散度来度量域的差异性，进而选择辅助数据；将层次分类问题转换为多分类问题，有效的对知识主题短文本进行组织和管理。

Description

一种基于拓扑特征扩展的知识主题短文本层次分类方法

技术领域

本发明涉及数据挖掘领域，具体为一种基于拓扑特征扩展的知识主题短文本层次分类方法。

背景技术

随着科学技术的发展，人类知识爆炸式增长，互联网上各类开放知识源已成为人们交流信息及获取知识的重要来源，一方面极大地促进了知识的传播和应用，但同时也加剧了知识碎片化现象。知识碎片化现象容易引发学习者认知过载，导致“注意力分散效应”，也容易造成学习者认知偏差等问题。由于各开放知识源知识载体是“短文本”，所以如何有效的对短文本进行组织和管理是解决知识碎片化现象问题的关键，是有重要意义的一项工作。

为了有效组织和管理互联网上的海量知识主题短文本，通常按照知识体系结构对短文本进行分类，以更好地方便学习者快速认识到知识主题的各个分面，以及学习各个分面上短文本的内容，对知识主题各个分面有更加深入的认识，从而高效地完成对知识主题的认知过程，提高学习者的学习效率。基于知识体系结构具有层次特征，多分类方法是解决层次分类问题的主要方法之一，因此我们将知识主题短文本分类问题转换成多分类问题。

申请人经过查新，没有找到有关对知识主题短文本进行层次分类的专利，因而检索了一篇与本专利相关的已授权的中国专利：一种基于特征扩展的中文短文本分类方法，授权公告号为ZL201210446997.4；在该专利中，发明人提供一种基于特征扩展的中文短文本分类方法，通过从长文本语料库中提取信息来丰富短文本所携带的信息量。但该发明所述方法针对对象并非知识领域的短文本，没有考虑到知识领域知识主题异构性问题，以及知识体系结构的层次特征。

发明内容

针对现有技术中存在的问题，本发明提供一种基于拓扑特征扩展的知识主题短文本层次分类方法，能够有效的对知识主题短文本进行组织和管理，解决互联网海量知识短文本造成的信息过载问题。

本发明是通过以下技术方案来实现：

一种基于拓扑特征扩展的知识主题短文本层次分类方法，包括以下步骤：

1)初始文本特征构建；

1-1)对短文本进行预处理，构建短文本文件系统；

1-2)以短文本文件系统作为整体，计算其初始熵值；

以词的出现及不出现为条件，计算词在系统中的条件熵；将短文本文件系统的初始熵和条件熵的差值作为信息增益，并以信息增益作为指标对词进行排序，选择大于一定阈值的词作为特征，即特征词，从而构建向量空间模型，得到特征空间；

1-3)将短文本文本内容映射到特征空间，得到用特征词表示的短文本；通过TF-IDF方法计算特征词的权重，从而得到短文本的初始文本特征向量；

2)基于拓扑特征的短文本特征扩展；

2-1)短文本网络的构建；输入某一知识主题下短文本集合以及短文本之间的共现词阈值alpha；统计短文本包含特征词的数量并存放在二维数组中，然后遍历后续短文本并统计文件之间的共现词数量，完成和后续文本比较后，如果数组中任一维度的数值不小于alpha，那么认为该文本和相应文本之间有关联；最后保存根据共现词阈值alpha构建的网络拓扑结构，即以该知识主题下短文本为节点的网络结构；

2-2)短文本网络的修复；将知识主题下网络节点分为两部分：一是孤立节点集合S₁，二是非孤立节点集合S₂，其中孤立节点与其他节点之间没有大于阈值的共现词特征；对于S₁中的点，分别计算其与S₂中各个节点的语义距离，选择语义距离最短的节点将该节点与其相连，并从S₁删除该节点，向S₂添加该节点，重复该操作直到S₁为空，完成短文本网络的修复；

2-3)短文本网络社区结构的划分；使用Louvain算法进行社区结构的划分：首先通过优化短文本网络的局部模块度来寻找最小社区；聚集属于同一社区的节点，以社区为节点来建立新的网络；迭代执行上述社区结构的划分步骤，直到获得整体最大模块度并产生稳定的社区结构；

2-4)短文本文本特征扩展；对于某一知识主题下的一个待分类的短文本，通过所述步骤1)获取其初始文本特征，然后通过计算语义距离的方法计算其和各个社区的语义距离，最后将每个短文本归属到语义距离最短的社区中，将各个社区的特征作为对应的拓扑特征，从而用拓扑特征扩展文本特征，得到最终基于拓扑特征扩展的文本特征向量；

3)异构知识主题间的迁移学习方法；

3-1)基于KL散度的知识主题距离的度量；

统计同一知识领域下两个不同知识主题特征向量的频率分布情况，即特征词在该知识主题的短文本中出现的概率，并按照其出现的频率将特征空间中的特征进行排序；

对于进行排序后的特征空间中每个特征词，统计其在不同短文本中出现的频率，统计其概率分布，得到特征向量概率分布矩阵；

在两个不同知识主题的特征空间中截取相同的长度，使两特征空间中特征向量的维度一致，特征词一一对应，采用KL散度方法计算两个不同知识主题下特征向量概率分布矩阵的差异性，得到两个不同知识主题的距离；

3-2)基于Multi-TrAdaBoost的知识主题短文本多分类；选择基于KL散度距离能够满足训练数据集数量要求的知识主题短文本数据集作为辅助数据集，结合基于网络拓扑特征扩展后的短文本特征，利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习，并将短文本层次分类问题转换成多分类问题，最终对短文本实现层次分类。

优选的，所述的步骤1-2)中以短文本文件系统作为整体，其初始熵值的计算过程如下；

其中：T_i为知识主题T的子主题，以短文本文件系统作为整体，计算其初始熵值；p(Ti)表示取得子主题T_i的概率；

条件熵计算过程如下；

其中：w为词表W＝{w₁，w₂，...，w_m}中的词，p(T_i|w)表示词w出现时的条件概率，

表示词w不出现时的条件概率；

以文件系统的初始熵和条件熵的差值作为信息增益，表示该特征带来的信息增益量，其计算过程为：

IG(T|w)＝Entropy(T)-Entropy(T|w)。

优选的，所述的步骤2-1)的具体操作如下表所示：

2-1-1)输入同一知识主题下的短文本集合，共现词个数阈值alpha；读取短文本集合，初始化弧的数目N_arc＝0；构造短文本文件ID和短文本内容之间的映射Map<fileID,fragKwg>；统计短文本包含特征词的数量缓存在featureAppear二维数组中；

2-1-2)根据给定共现词阈值alpha，构建短文本之间的关联网络，存储在二维数组coNet中；

2-1-3)将二维数组coNet写入.net文件中，获得以同一知识主题下短文本为节点构成的网络结构。

优选的，所述的步骤2-2)中语义距离计算过程为：

其中：a和b是两个不同的短文本；是短文本a在第j维度上各个词向量的平均值；

代表短文本a中第p个词在第j维度上的向量值；C_a为短文本a中包含的词数目；X_a代表短文本a的质心向量；

是短文本b在第j维度上各个词向量的平均值；

代表短文本b中第q个词在第j维度上的向量值；C_b为短文本b中包含的词数目；X_b代表短文本b的质心向量；d₁为词向量的维度；Dis表示两个短文本之间的欧氏距离。

优选的，所述的步骤2-3)中模块度的计算公式如下：

其中：e为短文本网络中的边数目；A_uv代表网络中节点u与节点v之间边的数目；k_u代表节点u的度；C_u代表节点u所属的社团；k_v代表节点v的度；C_v代表节点v所属的社团；当且仅当C_u＝C_v，δ(C_u，C_v)＝1，否则，δ(C_u，C_v)＝0。

优选的，所述的步骤3-1)中KL散度的计算公式如下：

其中：P代表未分类的知识主题KT_u的概率分布，Q代表已分类知识主题KT_l的概率分布，P_r和Q_r代表P和Q的第r个分量，d₂为两概率分布的维度，D_KL(P||Q)表示从P分布到Q分布的距离。

优选的，所述的步骤3-2)中Multi-TrAdaBoost的具体操作为：

3-2-1)输入两个标注的训练数据集

和

未标注的数据集D_t；基础多分类器Learner以及最大迭代次数N；

3-2-2)初始化；设置初始权值向量其中，

表示

的数据个数，

表示的数据个数；

初始化

表示进行第一次迭代；

3-2-3)迭代计算；

3.1设置迭代次数k＝1，2，...，N；

3.2归一化训练实例的权重分布

其中W^k是第k次迭代后的权重向量，

是W^k的第l个向量；

3.3调用基础多分类器Learner，依据合并后的训练数据集D以及D上的权重分布p^k和未标注数据D_t，得到一个D_t上的分类器h_k；

3.4计算h_k在源数据集D_s2上的错误率：

需要满足ε_k≤0.5；

3.5设置β_k＝ε_k/(1-ε_k)，

3.6设置新的权重向量如下：

3-2-4)输出最终的迁移学习多分类器；

优选的，步骤1-1)中，所述的预处理包括去掉短文本中的标点符号、去掉多余的空格、去掉停用词，并将各种形式的词进行还原处理，其中，词形还原处理用到斯坦福大学的CoreNLP开源系统。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供的基于拓扑特征扩展的知识主题短文本层次分类方法，主要包括初始文本特征构建、基于拓扑特征的短文本特征扩展及异构知识主题间的迁移学习这三部分。

通过采集多个知识主题对应的短文本长度做初步的量化统计和分析，将文本内容映射到特征空间，表示成数值向量形式，以便于分类器识别，发现短文本向特征空间映射得到的向量长度占特征空间的2％～5％，即明确了知识主题短文本文本特征的稀疏程度。

通过短文本之间的词共现情况构建并分析知识主题短文本网络；对于与其他短文本之间没有共现词或共现词个数未达到设定的阈值的孤立短文本，采用词向量的方法对知识主题短文本知识网络进行修复，最终选取社区特征有效扩展文本特征。

通过计算知识主题之间的KL散度来度量域的差异性，进而选择辅助数据；基于单个知识主题的层次结构规模较小，将层次分类问题转换为多分类问题，采用Multi-TrAdaBoost方法充分利用辅助数据帮助短文本进行多分类，达到了有效迁移知识的目的，大大提升了分类性能，并且能够有效的对知识主题短文本进行组织和管理，解决互联网海量知识短文本造成的信息过载问题。

附图说明

图1是本发明实例中所述基于拓扑特征扩展的知识主题短文本层次分类方法的流程图。

图2是本发明实例中所述知识主题层次结构样例图；

图3是本发明实例中所述的“Binary tree”主题短文本网络划分的可视化结果示意图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明提供的基于拓扑特征扩展的知识主题短文本层次分类方法，包括如下3个过程：

1)初始文本特征构建：

1-1)对短文本进行预处理，构建短文本文件系统。预处理包括去掉短文本文本中的标点符号、去掉多余的空格、去掉停用词，并将各种形式的词进行还原处理，其中，词形还原处理用到斯坦福大学的CoreNLP开源系统。

1-2)采用信息熵的方法进行文本特征选择，其计算过程如下：

其中：T_i为知识主题T的子主题，以短文本文件系统作为整体，计算其初始熵值；p(Ti)表示取得子主题T_i的概率。

因此以词的出现及不出现为条件，计算词在系统中的条件熵，如下。

表示词w不出现时的条件概率。

IG(T|w)＝Entropg(T)-Entropy(T|w)

以文件系统的初始熵和条件熵的差值作为信息增益，表示以词w表示的特征带来的信息增益量。

将信息增益量排序，选择大于一定阈值的词作为特征，即特征词，从而构建向量空间模型(VSM)。VSM由Salton等人提出，可形式化描述如下：

给定特征空间

其中f表示特征空间的维度；文本集合D＝{d₁，d₂，...，d_n}，n表示集合中文本总数目，文本d_i∈D向特征空间映射得到的特征向量表示为其中，

表示文本d_i对应特征空间中第k个向量的权重。

1-3)将短文本文本内容映射到特征空间，并采用TF-IDF方法计算特征词的权重，其计算公式如下所示：

其中：tf_ki为特征词v_k在文本d_i中出现的频次比例，表示v_k在d_i中的重要程度；df_k为v_k在整个文本集合D中的出现频率，这样削弱了该词表现单个文本的能力，计算文本总数目n与集合D中含有v_k的文本数目的比值的对数值。

最终得到短文本的初始文本特征向量。

2)基于拓扑特征的短文本特征扩展：

2-1)短文本网络的构建。考虑到同一知识主题下的短文本之间存在词共现现象，即出现在一个短文本中的词也在另一个短文本中出现，将此重叠出现的词定义为共现词，对共现词定义形式化描述如下：

对于一个词语t，短文本ks_i，ks_j：如果t∈ks_i，t∈ks_j，那么称t为ks_i，ks_j之间的共现词；如果ks_i∩ks_j＝{t_m+1，t_m+2，...，t_m+n}，那么称ks_i，ks_j为n-词共现，n为ks_i与ks_j的共现词数量；对于给定的阈值α，如果n≥α，那么ks_i，ks_j互相关联。

输入某一知识主题下短文本集合(.txt文件列表)以及短文本之间的共现词阈值alpha；对短文本包含特征词的情况作初步统计并存放在二维数组中，然后遍历后续短文本文件列表并统计文件之间的共现词情况，完成和后续文本比较后，如果数组中任一维度的数值不小于alpha，那么认为该文本和相应文本之间有关联；最后以.net文件格式输出根据共现词阈值alpha构建的网络结构，即以该知识主题下短文本为节点的网络结构。其具体操作如下所示：

a)输入同一知识主题下的短文本集合，共现词个数阈值alpha；

b)读取短文本集合，初始化弧的数目N_arc＝0；构造短文本文件ID和短文本内容之间的映射Map<fileID,fragKwg>；统计短文本包含特征词的情况缓存在featureAppear二维数组中；

c)根据给定共现词阈值alpha，构建短文本之间的关联网络，存储在二维数组coNet中；

d)将二维数组coNet写入.net文件中，获得以同一知识主题下短文本为节点构成的网络结构。

2-2)短文本网络的修复。将知识主题下网络节点分为两部分：一是孤立节点集合S₁，二是非孤立节点集合S₂；其中孤立节点与其他节点之间没有大于阈值的共现词特征，因此深入挖掘其语义特征，对于S₁中的点，分别计算其与S₂中各个节点的语义距离，选择语义距离最短的节点将该节点与其相连，并从S₁删除该节点，向S₂添加该节点，重复该操作直到S₁为空，完成短文本网络的修复。其中选择Word2Vec的方法来获得词向量，将每个词看作在一定维度空间分布的离散的点，每个短文本看成这些离散的点聚集成的簇，通过计算两个簇之间质心的欧氏距离来计算短文本之间的距离。语义距离计算过程为：

其中：a和b是两个不同的短文本；

是短文本a在第j维度上各个词向量的平均值；

是短文本b在第j维度上各个词向量的平均值；代表短文本b中第q个词在第j维度上的向量值；C_b为短文本b中包含的词数目；X_b代表短文本b的质心向量；d₁为词向量的维度；Dis表示两个短文本之间的欧氏距离。

2-3)短文本网络社区结构划分。使用Louvain算法进行社区结构的划分：首先通过优化局部模块度来寻找最小社区；聚集属于同一社区的节点，以社区为节点来建立新的网络；迭代执行上述两个社区结构的划分步骤，直到获得整体最大模块度并产生稳定的社区结构，如图3所示，知识主题“Binary tree”短文本网络社区结构划分结果。

2-4)短文本文本特征扩展。对于某一知识主题下的一个待分类的短文本，首先提取文本特征，然后通过计算语义距离的方法计算其和各个社区的语义距离，最后将其归属到语义距离最短的社区中，将各个社区的特征作为对应的拓扑特征，从而用拓扑特征扩展文本特征，得到最终基于拓扑特征扩展的文本特征向量。例如，知识主题KT1的文本特征维度为414，按照条件熵的方法约减后其维度为245，KT1中的一个实例，将文本特征映射到特征空间得到权重为{0.027,0.438,…,0.045}，通过基于拓扑特征方法扩展后，KT1的短文本网络共划分6个社区，该实例归属社区编号为6，因此将该实例特征扩展为：{0.027,0.438,…,0.045,0.000,0.000,0.000,0.000,0.000,1.000}，其中，扩展的六位数值表示该实例在社区6中出现，而不出现在社区1—5中。

3)异构知识主题间的迁移学习方法：

3-1)基于KL散度的知识主题距离的度量分为三个步骤：

①向量空间中的特征排序。统计同一知识领域下的两个不同知识主题的特征的频率分布，即特征词在该知识主题的短文本中出现的概率，并按照其出现的频率将特征空间中的特征排序；

②特征向量概率分布矩阵计算。对于进行特征排序的特征空间中每个特征词，统计其在不同短文本中出现的频率，统计其概率分布情况，得到特征向量概率分布矩阵；

③计算两个不同知识主题的差异性。在两个知识主题的特征空间中截取相同的长度，使两特征空间中特征向量的维度一致，特征词一一对应，采用KL散度方法计算两个知识主题下特征向量概率分布矩阵的差异性，得到两知识主题的距离。KL散度即相对熵，是信息论领域衡量两个概率分布距离的基础公式，其计算如式所示：

其中：P代表未分类，即待训练的知识主题KT_u的概率分布，Q代表已分类，即已知的知识主题KT_l的概率分布，P_r和Q_r代表P和Q的第r个分量，d₂为两概率分布的维度，D_KL(P||Q)表示从P分布到Q分布的距离；

3-2)基于Multi-TrAdaBoost的知识主题短文本多分类，其中包括训练数据集和测试数据集。选择基于KL散度距离能够满足训练数据集数量要求的1个或多个知识主题短文本数据集作为辅助数据集，利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习，并将短文本层次分类问题转换成多分类问题，结合基于拓扑特征扩展的短文本特征最终对短文本实现层次分类。具体操作如下所示：