CN106991127B - 一种基于拓扑特征扩展的知识主题短文本层次分类方法 - Google Patents

一种基于拓扑特征扩展的知识主题短文本层次分类方法 Download PDF

Info

Publication number
CN106991127B
CN106991127B CN201710129359.2A CN201710129359A CN106991127B CN 106991127 B CN106991127 B CN 106991127B CN 201710129359 A CN201710129359 A CN 201710129359A CN 106991127 B CN106991127 B CN 106991127B
Authority
CN
China
Prior art keywords
short text
knowledge
short
feature
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710129359.2A
Other languages
English (en)
Other versions
CN106991127A (zh
Inventor
魏笔凡
吴蓓
刘均
郑庆华
郭朝彤
郑元浩
吴科炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201710129359.2A priority Critical patent/CN106991127B/zh
Publication of CN106991127A publication Critical patent/CN106991127A/zh
Application granted granted Critical
Publication of CN106991127B publication Critical patent/CN106991127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Creation or modification of classes or clusters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种基于拓扑特征扩展的知识主题短文本层次分类方法,能够有效的对知识主题短文本进行组织和管理,解决互联网海量知识短文本造成的信息过载问题。其包括以下步骤:1)初始文本特征构建;2)基于拓扑特征的短文本特征扩展;3)异构知识主题间的迁移学习方法。通过采集多个知识主题对应的短文本长度做初步的量化统计和分析,明确了知识主题短文本文本特征的稀疏程度。通过短文本之间的词共现情况构建并分析知识主题短文本网络,最终选取社区特征有效扩展文本特征。通过计算知识主题之间的KL散度来度量域的差异性,进而选择辅助数据;将层次分类问题转换为多分类问题,有效的对知识主题短文本进行组织和管理。

Description

一种基于拓扑特征扩展的知识主题短文本层次分类方法
技术领域
本发明涉及数据挖掘领域,具体为一种基于拓扑特征扩展的知识主题短文本层次分类方法。
背景技术
随着科学技术的发展,人类知识爆炸式增长,互联网上各类开放知识源已成为人们交流信息及获取知识的重要来源,一方面极大地促进了知识的传播和应用,但同时也加剧了知识碎片化现象。知识碎片化现象容易引发学习者认知过载,导致“注意力分散效应”,也容易造成学习者认知偏差等问题。由于各开放知识源知识载体是“短文本”,所以如何有效的对短文本进行组织和管理是解决知识碎片化现象问题的关键,是有重要意义的一项工作。
为了有效组织和管理互联网上的海量知识主题短文本,通常按照知识体系结构对短文本进行分类,以更好地方便学习者快速认识到知识主题的各个分面,以及学习各个分面上短文本的内容,对知识主题各个分面有更加深入的认识,从而高效地完成对知识主题的认知过程,提高学习者的学习效率。基于知识体系结构具有层次特征,多分类方法是解决层次分类问题的主要方法之一,因此我们将知识主题短文本分类问题转换成多分类问题。
申请人经过查新,没有找到有关对知识主题短文本进行层次分类的专利,因而检索了一篇与本专利相关的已授权的中国专利:一种基于特征扩展的中文短文本分类方法,授权公告号为ZL201210446997.4;在该专利中,发明人提供一种基于特征扩展的中文短文本分类方法,通过从长文本语料库中提取信息来丰富短文本所携带的信息量。但该发明所述方法针对对象并非知识领域的短文本,没有考虑到知识领域知识主题异构性问题,以及知识体系结构的层次特征。
发明内容
针对现有技术中存在的问题,本发明提供一种基于拓扑特征扩展的知识主题短文本层次分类方法,能够有效的对知识主题短文本进行组织和管理,解决互联网海量知识短文本造成的信息过载问题。
本发明是通过以下技术方案来实现:
一种基于拓扑特征扩展的知识主题短文本层次分类方法,包括以下步骤:
1)初始文本特征构建;
1-1)对短文本进行预处理,构建短文本文件系统;
1-2)以短文本文件系统作为整体,计算其初始熵值;
以词的出现及不出现为条件,计算词在系统中的条件熵;将短文本文件系统的初始熵和条件熵的差值作为信息增益,并以信息增益作为指标对词进行排序,选择大于一定阈值的词作为特征,即特征词,从而构建向量空间模型,得到特征空间;
1-3)将短文本文本内容映射到特征空间,得到用特征词表示的短文本;通过TF-IDF方法计算特征词的权重,从而得到短文本的初始文本特征向量;
2)基于拓扑特征的短文本特征扩展;
2-1)短文本网络的构建;输入某一知识主题下短文本集合以及短文本之间的共现词阈值alpha;统计短文本包含特征词的数量并存放在二维数组中,然后遍历后续短文本并统计文件之间的共现词数量,完成和后续文本比较后,如果数组中任一维度的数值不小于alpha,那么认为该文本和相应文本之间有关联;最后保存根据共现词阈值alpha构建的网络拓扑结构,即以该知识主题下短文本为节点的网络结构;
2-2)短文本网络的修复;将知识主题下网络节点分为两部分:一是孤立节点集合S1,二是非孤立节点集合S2,其中孤立节点与其他节点之间没有大于阈值的共现词特征;对于S1中的点,分别计算其与S2中各个节点的语义距离,选择语义距离最短的节点将该节点与其相连,并从S1删除该节点,向S2添加该节点,重复该操作直到S1为空,完成短文本网络的修复;
2-3)短文本网络社区结构的划分;使用Louvain算法进行社区结构的划分:首先通过优化短文本网络的局部模块度来寻找最小社区;聚集属于同一社区的节点,以社区为节点来建立新的网络;迭代执行上述社区结构的划分步骤,直到获得整体最大模块度并产生稳定的社区结构;
2-4)短文本文本特征扩展;对于某一知识主题下的一个待分类的短文本,通过所述步骤1)获取其初始文本特征,然后通过计算语义距离的方法计算其和各个社区的语义距离,最后将每个短文本归属到语义距离最短的社区中,将各个社区的特征作为对应的拓扑特征,从而用拓扑特征扩展文本特征,得到最终基于拓扑特征扩展的文本特征向量;
3)异构知识主题间的迁移学习方法;
3-1)基于KL散度的知识主题距离的度量;
统计同一知识领域下两个不同知识主题特征向量的频率分布情况,即特征词在该知识主题的短文本中出现的概率,并按照其出现的频率将特征空间中的特征进行排序;
对于进行排序后的特征空间中每个特征词,统计其在不同短文本中出现的频率,统计其概率分布,得到特征向量概率分布矩阵;
在两个不同知识主题的特征空间中截取相同的长度,使两特征空间中特征向量的维度一致,特征词一一对应,采用KL散度方法计算两个不同知识主题下特征向量概率分布矩阵的差异性,得到两个不同知识主题的距离;
3-2)基于Multi-TrAdaBoost的知识主题短文本多分类;选择基于KL散度距离能够满足训练数据集数量要求的知识主题短文本数据集作为辅助数据集,结合基于网络拓扑特征扩展后的短文本特征,利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习,并将短文本层次分类问题转换成多分类问题,最终对短文本实现层次分类。
优选的,所述的步骤1-2)中以短文本文件系统作为整体,其初始熵值的计算过程如下;
Figure BDA0001239501000000041
其中:Ti为知识主题T的子主题,以短文本文件系统作为整体,计算其初始熵值;p(Ti)表示取得子主题Ti的概率;
条件熵计算过程如下;
Figure BDA0001239501000000042
其中:w为词表W={w1,w2,...,wm}中的词,p(Ti|w)表示词w出现时的条件概率,
Figure BDA0001239501000000043
表示词w不出现时的条件概率;
以文件系统的初始熵和条件熵的差值作为信息增益,表示该特征带来的信息增益量,其计算过程为:
IG(T|w)=Entropy(T)-Entropy(T|w)。
优选的,所述的步骤2-1)的具体操作如下表所示:
2-1-1)输入同一知识主题下的短文本集合,共现词个数阈值alpha;读取短文本集合,初始化弧的数目Narc=0;构造短文本文件ID和短文本内容之间的映射Map<fileID,fragKwg>;统计短文本包含特征词的数量缓存在featureAppear二维数组中;
2-1-2)根据给定共现词阈值alpha,构建短文本之间的关联网络,存储在二维数组coNet中;
2-1-3)将二维数组coNet写入.net文件中,获得以同一知识主题下短文本为节点构成的网络结构。
优选的,所述的步骤2-2)中语义距离计算过程为:
Figure BDA0001239501000000051
Figure BDA0001239501000000052
Figure BDA0001239501000000053
其中:a和b是两个不同的短文本;是短文本a在第j维度上各个词向量的平均值;
Figure BDA0001239501000000055
代表短文本a中第p个词在第j维度上的向量值;Ca为短文本a中包含的词数目;Xa代表短文本a的质心向量;
Figure BDA0001239501000000056
是短文本b在第j维度上各个词向量的平均值;
Figure BDA0001239501000000057
代表短文本b中第q个词在第j维度上的向量值;Cb为短文本b中包含的词数目;Xb代表短文本b的质心向量;d1为词向量的维度;Dis表示两个短文本之间的欧氏距离。
优选的,所述的步骤2-3)中模块度的计算公式如下:
Figure BDA0001239501000000058
其中:e为短文本网络中的边数目;Auv代表网络中节点u与节点v之间边的数目;ku代表节点u的度;Cu代表节点u所属的社团;kv代表节点v的度;Cv代表节点v所属的社团;当且仅当Cu=Cv,δ(Cu,Cv)=1,否则,δ(Cu,Cv)=0。
优选的,所述的步骤3-1)中KL散度的计算公式如下:
Figure BDA0001239501000000061
其中:P代表未分类的知识主题KTu的概率分布,Q代表已分类知识主题KTl的概率分布,Pr和Qr代表P和Q的第r个分量,d2为两概率分布的维度,DKL(P||Q)表示从P分布到Q分布的距离。
优选的,所述的步骤3-2)中Multi-TrAdaBoost的具体操作为:
3-2-1)输入两个标注的训练数据集
Figure BDA0001239501000000067
Figure BDA00012395010000000613
未标注的数据集Dt;基础多分类器Learner以及最大迭代次数N;
3-2-2)初始化;设置初始权值向量其中,
Figure BDA0001239501000000069
表示
Figure BDA00012395010000000610
的数据个数,
Figure BDA00012395010000000611
表示的数据个数;
初始化
Figure BDA0001239501000000063
表示进行第一次迭代;
3-2-3)迭代计算;
3.1设置迭代次数k=1,2,...,N;
3.2归一化训练实例的权重分布
其中Wk是第k次迭代后的权重向量,
Figure BDA0001239501000000065
是Wk的第l个向量;
3.3调用基础多分类器Learner,依据合并后的训练数据集D以及D上的权重分布pk和未标注数据Dt,得到一个Dt上的分类器hk
3.4计算hk在源数据集Ds2上的错误率:
Figure BDA0001239501000000066
需要满足εk≤0.5;
3.5设置βk=εk/(1-εk),
Figure BDA0001239501000000071
3.6设置新的权重向量如下:
Figure BDA0001239501000000072
3-2-4)输出最终的迁移学习多分类器;
优选的,步骤1-1)中,所述的预处理包括去掉短文本中的标点符号、去掉多余的空格、去掉停用词,并将各种形式的词进行还原处理,其中,词形还原处理用到斯坦福大学的CoreNLP开源系统。
与现有技术相比,本发明具有以下有益的技术效果:
本发明提供的基于拓扑特征扩展的知识主题短文本层次分类方法,主要包括初始文本特征构建、基于拓扑特征的短文本特征扩展及异构知识主题间的迁移学习这三部分。
通过采集多个知识主题对应的短文本长度做初步的量化统计和分析,将文本内容映射到特征空间,表示成数值向量形式,以便于分类器识别,发现短文本向特征空间映射得到的向量长度占特征空间的2%~5%,即明确了知识主题短文本文本特征的稀疏程度。
通过短文本之间的词共现情况构建并分析知识主题短文本网络;对于与其他短文本之间没有共现词或共现词个数未达到设定的阈值的孤立短文本,采用词向量的方法对知识主题短文本知识网络进行修复,最终选取社区特征有效扩展文本特征。
通过计算知识主题之间的KL散度来度量域的差异性,进而选择辅助数据;基于单个知识主题的层次结构规模较小,将层次分类问题转换为多分类问题,采用Multi-TrAdaBoost方法充分利用辅助数据帮助短文本进行多分类,达到了有效迁移知识的目的,大大提升了分类性能,并且能够有效的对知识主题短文本进行组织和管理,解决互联网海量知识短文本造成的信息过载问题。
附图说明
图1是本发明实例中所述基于拓扑特征扩展的知识主题短文本层次分类方法的流程图。
图2是本发明实例中所述知识主题层次结构样例图;
图3是本发明实例中所述的“Binary tree”主题短文本网络划分的可视化结果示意图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明提供的基于拓扑特征扩展的知识主题短文本层次分类方法,包括如下3个过程:
1)初始文本特征构建:
1-1)对短文本进行预处理,构建短文本文件系统。预处理包括去掉短文本文本中的标点符号、去掉多余的空格、去掉停用词,并将各种形式的词进行还原处理,其中,词形还原处理用到斯坦福大学的CoreNLP开源系统。
1-2)采用信息熵的方法进行文本特征选择,其计算过程如下:
Figure BDA0001239501000000081
其中:Ti为知识主题T的子主题,以短文本文件系统作为整体,计算其初始熵值;p(Ti)表示取得子主题Ti的概率。
因此以词的出现及不出现为条件,计算词在系统中的条件熵,如下。
Figure BDA0001239501000000091
其中:w为词表W={w1,w2,...,wm}中的词,p(Ti|w)表示词w出现时的条件概率,
Figure BDA0001239501000000092
表示词w不出现时的条件概率。
IG(T|w)=Entropg(T)-Entropy(T|w)
以文件系统的初始熵和条件熵的差值作为信息增益,表示以词w表示的特征带来的信息增益量。
将信息增益量排序,选择大于一定阈值的词作为特征,即特征词,从而构建向量空间模型(VSM)。VSM由Salton等人提出,可形式化描述如下:
给定特征空间
Figure BDA0001239501000000096
其中f表示特征空间的维度;文本集合D={d1,d2,...,dn},n表示集合中文本总数目,文本di∈D向特征空间映射得到的特征向量表示为其中,
Figure BDA0001239501000000094
表示文本di对应特征空间中第k个向量的权重。
1-3)将短文本文本内容映射到特征空间,并采用TF-IDF方法计算特征词的权重,其计算公式如下所示:
其中:tfki为特征词vk在文本di中出现的频次比例,表示vk在di中的重要程度;dfk为vk在整个文本集合D中的出现频率,这样削弱了该词表现单个文本的能力,计算文本总数目n与集合D中含有vk的文本数目的比值的对数值。
最终得到短文本的初始文本特征向量。
2)基于拓扑特征的短文本特征扩展:
2-1)短文本网络的构建。考虑到同一知识主题下的短文本之间存在词共现现象,即出现在一个短文本中的词也在另一个短文本中出现,将此重叠出现的词定义为共现词,对共现词定义形式化描述如下:
对于一个词语t,短文本ksi,ksj:如果t∈ksi,t∈ksj,那么称t为ksi,ksj之间的共现词;如果ksi∩ksj={tm+1,tm+2,...,tm+n},那么称ksi,ksj为n-词共现,n为ksi与ksj的共现词数量;对于给定的阈值α,如果n≥α,那么ksi,ksj互相关联。
输入某一知识主题下短文本集合(.txt文件列表)以及短文本之间的共现词阈值alpha;对短文本包含特征词的情况作初步统计并存放在二维数组中,然后遍历后续短文本文件列表并统计文件之间的共现词情况,完成和后续文本比较后,如果数组中任一维度的数值不小于alpha,那么认为该文本和相应文本之间有关联;最后以.net文件格式输出根据共现词阈值alpha构建的网络结构,即以该知识主题下短文本为节点的网络结构。其具体操作如下所示:
a)输入同一知识主题下的短文本集合,共现词个数阈值alpha;
b)读取短文本集合,初始化弧的数目Narc=0;构造短文本文件ID和短文本内容之间的映射Map<fileID,fragKwg>;统计短文本包含特征词的情况缓存在featureAppear二维数组中;
c)根据给定共现词阈值alpha,构建短文本之间的关联网络,存储在二维数组coNet中;
d)将二维数组coNet写入.net文件中,获得以同一知识主题下短文本为节点构成的网络结构。
2-2)短文本网络的修复。将知识主题下网络节点分为两部分:一是孤立节点集合S1,二是非孤立节点集合S2;其中孤立节点与其他节点之间没有大于阈值的共现词特征,因此深入挖掘其语义特征,对于S1中的点,分别计算其与S2中各个节点的语义距离,选择语义距离最短的节点将该节点与其相连,并从S1删除该节点,向S2添加该节点,重复该操作直到S1为空,完成短文本网络的修复。其中选择Word2Vec的方法来获得词向量,将每个词看作在一定维度空间分布的离散的点,每个短文本看成这些离散的点聚集成的簇,通过计算两个簇之间质心的欧氏距离来计算短文本之间的距离。语义距离计算过程为:
Figure BDA0001239501000000111
Figure BDA0001239501000000113
其中:a和b是两个不同的短文本;
Figure BDA0001239501000000114
是短文本a在第j维度上各个词向量的平均值;
Figure BDA0001239501000000115
代表短文本a中第p个词在第j维度上的向量值;Ca为短文本a中包含的词数目;Xa代表短文本a的质心向量;
Figure BDA0001239501000000116
是短文本b在第j维度上各个词向量的平均值;代表短文本b中第q个词在第j维度上的向量值;Cb为短文本b中包含的词数目;Xb代表短文本b的质心向量;d1为词向量的维度;Dis表示两个短文本之间的欧氏距离。
2-3)短文本网络社区结构划分。使用Louvain算法进行社区结构的划分:首先通过优化局部模块度来寻找最小社区;聚集属于同一社区的节点,以社区为节点来建立新的网络;迭代执行上述两个社区结构的划分步骤,直到获得整体最大模块度并产生稳定的社区结构,如图3所示,知识主题“Binary tree”短文本网络社区结构划分结果。
2-4)短文本文本特征扩展。对于某一知识主题下的一个待分类的短文本,首先提取文本特征,然后通过计算语义距离的方法计算其和各个社区的语义距离,最后将其归属到语义距离最短的社区中,将各个社区的特征作为对应的拓扑特征,从而用拓扑特征扩展文本特征,得到最终基于拓扑特征扩展的文本特征向量。例如,知识主题KT1的文本特征维度为414,按照条件熵的方法约减后其维度为245,KT1中的一个实例,将文本特征映射到特征空间得到权重为{0.027,0.438,…,0.045},通过基于拓扑特征方法扩展后,KT1的短文本网络共划分6个社区,该实例归属社区编号为6,因此将该实例特征扩展为:{0.027,0.438,…,0.045,0.000,0.000,0.000,0.000,0.000,1.000},其中,扩展的六位数值表示该实例在社区6中出现,而不出现在社区1—5中。
3)异构知识主题间的迁移学习方法:
3-1)基于KL散度的知识主题距离的度量分为三个步骤:
①向量空间中的特征排序。统计同一知识领域下的两个不同知识主题的特征的频率分布,即特征词在该知识主题的短文本中出现的概率,并按照其出现的频率将特征空间中的特征排序;
②特征向量概率分布矩阵计算。对于进行特征排序的特征空间中每个特征词,统计其在不同短文本中出现的频率,统计其概率分布情况,得到特征向量概率分布矩阵;
③计算两个不同知识主题的差异性。在两个知识主题的特征空间中截取相同的长度,使两特征空间中特征向量的维度一致,特征词一一对应,采用KL散度方法计算两个知识主题下特征向量概率分布矩阵的差异性,得到两知识主题的距离。KL散度即相对熵,是信息论领域衡量两个概率分布距离的基础公式,其计算如式所示:
Figure BDA0001239501000000121
其中:P代表未分类,即待训练的知识主题KTu的概率分布,Q代表已分类,即已知的知识主题KTl的概率分布,Pr和Qr代表P和Q的第r个分量,d2为两概率分布的维度,DKL(P||Q)表示从P分布到Q分布的距离;
3-2)基于Multi-TrAdaBoost的知识主题短文本多分类,其中包括训练数据集和测试数据集。选择基于KL散度距离能够满足训练数据集数量要求的1个或多个知识主题短文本数据集作为辅助数据集,利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习,并将短文本层次分类问题转换成多分类问题,结合基于拓扑特征扩展的短文本特征最终对短文本实现层次分类。具体操作如下所示:
3-2-1)输入两个标注的训练数据集
Figure BDA00012395010000001312
Figure BDA00012395010000001314
Figure BDA00012395010000001313
未标注的数据集Dt;基础多分类器Learner以及最大迭代次数N;
3-2-2)初始化;设置初始权值向量
Figure BDA0001239501000000131
其中,
Figure BDA0001239501000000138
表示
Figure BDA0001239501000000139
的数据个数,
Figure BDA00012395010000001310
表示
Figure BDA00012395010000001311
的数据个数;
初始化
Figure BDA0001239501000000137
表示进行第一次迭代;
3-2-3)迭代计算;
3.1设置迭代次数k=1,2,...,N;
3.2归一化训练实例的权重分布
Figure BDA0001239501000000132
其中,Wk是第k次迭代后的权重向量,是Wk的第l个向量;
3.3调用基础多分类器Learner,依据合并后的训练数据集D以及D上的权重分布pk和未标注数据Dt,得到一个Dt上的分类器hk
3.4计算hk在源数据集Ds2上的错误率:
Figure BDA0001239501000000134
需要满足εk≤0.5;
3.5设置βk=εk/(1-εk),
Figure BDA0001239501000000135
3.6设置新的权重向量如下:
Figure BDA0001239501000000136
3-2-4)输出最终的迁移学习多分类器如下,
Figure BDA0001239501000000141

Claims (8)

1.一种基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于,包括以下步骤:
1)初始文本特征构建;
1-1)对短文本进行预处理,构建短文本文件系统;
1-2)以短文本文件系统作为整体,计算其初始熵值;
以词的出现及不出现为条件,计算词在系统中的条件熵;将短文本文件系统的初始熵和条件熵的差值作为信息增益,并以信息增益作为指标对词进行排序,选择大于一定阈值的词作为特征,即特征词,从而构建向量空间模型,得到特征空间;
1-3)将短文本文本内容映射到特征空间,得到用特征词表示的短文本;通过TF-IDF方法计算特征词的权重,从而得到短文本的初始文本特征向量;
2)基于拓扑特征的短文本特征扩展;
2-1)短文本网络的构建;输入某一知识主题下短文本集合以及短文本之间的共现词阈值alpha;统计短文本包含特征词的数量并存放在二维数组中,然后遍历后续短文本并统计文件之间的共现词数量,完成和后续文本比较后,如果数组中任一维度的数值不小于alpha,那么认为该文本和相应文本之间有关联;最后保存根据共现词阈值alpha构建的网络拓扑结构,即以该知识主题下短文本为节点的网络结构;
2-2)短文本网络的修复;将知识主题下网络节点分为两部分:一是孤立节点集合S1,二是非孤立节点集合S2,其中孤立节点与其他节点之间没有大于阈值的共现词特征;
对于S1中的点进行如下操作,分别计算S1中的点与S2中各个节点的语义距离,选择语义距离最短的节点,将S2中与S1中的点的语义距离最短的节点与S1中的点相连,并从S1删除该节点,向S2添加该节点,重复该操作直到S1为空,完成短文本网络的修复;
2-3)短文本网络社区结构的划分;使用Louvain算法进行社区结构的划分:首先通过优化短文本网络的局部模块度来寻找最小社区;聚集属于同一社区的节点,以社区为节点来建立新的网络;迭代执行上述社区结构的划分步骤,直到获得整体最大模块度并产生稳定的社区结构;
2-4)短文本文本特征扩展;对于某一知识主题下的一个待分类的短文本,通过所述步骤1)获取其初始文本特征,然后通过计算语义距离的方法计算其和各个社区的语义距离,最后将每个短文本归属到语义距离最短的社区中,将各个社区的特征作为对应的拓扑特征,从而用拓扑特征扩展文本特征,得到最终基于拓扑特征扩展的文本特征向量;
3)异构知识主题间的迁移学习方法;
3-1)基于KL散度的知识主题距离的度量;
统计同一知识领域下两个不同知识主题特征向量的频率分布情况,即特征词在该知识主题的短文本中出现的概率,并按照其出现的频率将特征空间中的特征进行排序;
对于进行排序后的特征空间中每个特征词,统计其在不同短文本中出现的频率,统计其概率分布,得到特征向量概率分布矩阵;
在两个不同知识主题的特征空间中截取相同的长度,使两特征空间中特征向量的维度一致,特征词一一对应,采用KL散度方法计算两个不同知识主题下特征向量概率分布矩阵的差异性,得到两个不同知识主题的距离;
3-2)基于Multi-TrAdaBoost的知识主题短文本多分类;选择基于KL散度距离能够满足训练数据集数量要求的知识主题短文本数据集作为辅助数据集,结合基于网络拓扑特征扩展后的短文本特征,利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习,并将短文本层次分类问题转换成多分类问题,最终对短文本实现层次分类。
2.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤1-2)中以短文本文件系统作为整体,其初始熵值的计算过程如下;
Figure FDA0002105075900000031
其中:Ti为知识主题T的子主题,以短文本文件系统作为整体,计算其初始熵值;p(Ti)表示取得子主题Ti的概率;
条件熵计算过程如下;
Figure FDA0002105075900000032
其中:w为词表W={w1,w2,...,wm}中的词,p(Ti|w)表示词w出现时的条件概率,
Figure FDA0002105075900000033
表示词w不出现时的条件概率;
以文件系统的初始熵和条件熵的差值作为信息增益,表示该特征带来的信息增益量,其计算过程为:
IG(T|w)=Entropy(T)-Entropy(T|w)。
3.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤2-1)的具体操作如下表所示:
2-1-1)输入同一知识主题下的短文本集合,共现词个数阈值alpha;读取短文本集合,初始化弧的数目Narc=0;构造短文本文件ID和短文本内容之间的映射Map<fileID,fragKwg>;统计短文本包含特征词的数量缓存在featureAppear二维数组中;
2-1-2)根据给定共现词阈值alpha,构建短文本之间的关联网络,存储在二维数组coNet中;
2-1-3)将二维数组coNet写入.net文件中,获得以同一知识主题下短文本为节点构成的网络结构。
4.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤2-2)中语义距离计算过程为:
Figure FDA0002105075900000041
Figure FDA0002105075900000042
Figure FDA0002105075900000043
其中:a和b是两个不同的短文本;
Figure FDA0002105075900000044
是短文本a在第j维度上各个词向量的平均值;
Figure FDA0002105075900000045
代表短文本a中第p个词在第j维度上的向量值;Ca为短文本a中包含的词数目;Xa代表短文本a的质心向量;
Figure FDA0002105075900000046
是短文本b在第j维度上各个词向量的平均值;代表短文本b中第q个词在第j维度上的向量值;Cb为短文本b中包含的词数目;Xb代表短文本b的质心向量;d1为词向量的维度;Dis表示两个短文本之间的欧氏距离。
5.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤2-3)中模块度的计算公式如下:
Figure FDA0002105075900000048
其中:e为短文本网络中的边数目;Auv代表网络中节点u与节点v之间边的数目;ku代表节点u的度;Cu代表节点u所属的社团;kv代表节点v的度;Cv代表节点v所属的社团;当且仅当Cu=Cv,δ(Cu,Cv)=1,否则,δ(Cu,Cv)=0。
6.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤3-1)中KL散度的计算公式如下:
Figure FDA0002105075900000051
其中:P代表未分类的知识主题KTu的概率分布,Q代表已分类知识主题KTl的概率分布,Pr和Qr代表P和Q的第r个分量,d2为两概率分布的维度,DKL(P||Q)表示从P分布到Q分布的距离。
7.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤3-2)中Multi-TrAdaBoost的具体操作为:
3-2-1)输入两个标注的训练数据集
Figure FDA0002105075900000053
Figure FDA0002105075900000054
未标注的数据集Dt;基础多分类器Learner以及最大迭代次数N;
3-2-2)初始化;设置初始权值向量
Figure FDA0002105075900000055
其中,
Figure FDA0002105075900000056
表示
Figure FDA0002105075900000057
的数据个数,
Figure FDA0002105075900000058
表示的数据个数;
初始化表示进行第一次迭代;
3-2-3)迭代计算;
3.1设置迭代次数k=1,2,...,N;
3.2归一化训练实例的权重分布
Figure FDA00021050759000000511
其中Wk是第k次迭代后的权重向量,
Figure FDA00021050759000000512
是Wk的第l个向量;
3.3调用基础多分类器Learner,依据合并后的训练数据集D以及D上的权重分布pk和未标注数据Dt,得到一个Dt上的分类器hk
3.4计算hk在源数据集Ds2上的错误率:
Figure FDA0002105075900000061
需要满足εk≤0.5;
3.5设置βk=εk/(1-εk),
Figure FDA0002105075900000062
3.6设置新的权重向量如下:
3-2-4)输出最终的迁移学习多分类器;
Figure FDA0002105075900000064
8.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:步骤1-1)中,所述的预处理包括去掉短文本中的标点符号、去掉多余的空格、去掉停用词,并将各种形式的词进行还原处理,其中,词形还原处理用到斯坦福大学的CoreNLP开源系统。
CN201710129359.2A 2017-03-06 2017-03-06 一种基于拓扑特征扩展的知识主题短文本层次分类方法 Active CN106991127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710129359.2A CN106991127B (zh) 2017-03-06 2017-03-06 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710129359.2A CN106991127B (zh) 2017-03-06 2017-03-06 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Publications (2)

Publication Number Publication Date
CN106991127A CN106991127A (zh) 2017-07-28
CN106991127B true CN106991127B (zh) 2020-01-10

Family

ID=59412654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710129359.2A Active CN106991127B (zh) 2017-03-06 2017-03-06 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Country Status (1)

Country Link
CN (1) CN106991127B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10812589B2 (en) * 2017-10-28 2020-10-20 Tusimple, Inc. Storage architecture for heterogeneous multimedia data
CN107784112B (zh) * 2017-11-06 2020-03-03 广州赛宝认证中心服务有限公司 短文本数据增强方法、系统及检测认证服务平台
CN108304519B (zh) * 2018-01-24 2020-08-18 西安交通大学 一种基于图数据库的知识森林构建方法
CN109344252B (zh) * 2018-09-12 2021-12-07 东北大学 基于优质主题扩展的微博文本分类方法及系统
CN109657478B (zh) * 2018-12-20 2023-12-19 中国人民解放军战略支援部队信息工程大学 一种异构性的量化方法及系统
CN110209814B (zh) * 2019-05-23 2021-02-02 西安交通大学 一种利用领域建模从百科知识网站抽取知识主题的方法
CN110889282B (zh) * 2019-11-28 2023-03-21 哈尔滨工程大学 一种基于深度学习的文本情感分析方法
CN111737482B (zh) * 2020-04-17 2021-02-19 郑敏杰 一种适用于数据挖掘的全景可视化图谱生成方法及装置
CN112800214B (zh) * 2021-01-29 2023-04-18 西安交通大学 基于主题共现网络和外部知识的主题识别方法、系统及设备
CN114168708B (zh) * 2021-11-15 2022-06-14 哈尔滨工业大学 一种基于多域特征的个性化生物通路检索方法
CN114722897B (zh) * 2022-03-01 2024-09-10 西北工业大学 一种提高战场综合态势信息处理效率的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于类别结构的文本层次分类方法研究;祝翠玲;《中国博士学位论文全文数据库信息科技辑》;20111115;第I138-79页 *

Also Published As

Publication number Publication date
CN106991127A (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
CN106991127B (zh) 一种基于拓扑特征扩展的知识主题短文本层次分类方法
Li et al. Key word extraction for short text via word2vec, doc2vec, and textrank
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN111611801B (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN108595688A (zh) 基于在线学习的潜在语义跨媒体哈希检索方法
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
CN110287329B (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN110807101A (zh) 一种科技文献大数据分类方法
CN107329954B (zh) 一种基于文档内容和相互关系的主题检测方法
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
CN109508385A (zh) 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
CN113673252B (zh) 一种基于字段语义的数据表自动join推荐方法
Qin et al. A big data text coverless information hiding based on topic distribution and TF-IDF
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
CN112487200A (zh) 一种改进的包含多重边信息与多任务学习的深度推荐方法
Lai et al. Transconv: Relationship embedding in social networks
CN105404677A (zh) 一种基于树形结构的检索方法
WO2022262632A1 (zh) 网页搜索方法、装置及存储介质
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN111737482B (zh) 一种适用于数据挖掘的全景可视化图谱生成方法及装置
CN104714977A (zh) 一种实体与知识库项的关联方法及装置
CN113254688A (zh) 一种基于深度哈希的商标检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant