CN106991127B - 一种基于拓扑特征扩展的知识主题短文本层次分类方法 - Google Patents
一种基于拓扑特征扩展的知识主题短文本层次分类方法 Download PDFInfo
- Publication number
- CN106991127B CN106991127B CN201710129359.2A CN201710129359A CN106991127B CN 106991127 B CN106991127 B CN 106991127B CN 201710129359 A CN201710129359 A CN 201710129359A CN 106991127 B CN106991127 B CN 106991127B
- Authority
- CN
- China
- Prior art keywords
- short text
- knowledge
- short
- feature
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims description 61
- 238000009826 distribution Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 13
- 238000013526 transfer learning Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000006386 neutralization reaction Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract 1
- 238000013508 migration Methods 0.000 abstract 1
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明一种基于拓扑特征扩展的知识主题短文本层次分类方法,能够有效的对知识主题短文本进行组织和管理,解决互联网海量知识短文本造成的信息过载问题。其包括以下步骤:1)初始文本特征构建;2)基于拓扑特征的短文本特征扩展;3)异构知识主题间的迁移学习方法。通过采集多个知识主题对应的短文本长度做初步的量化统计和分析,明确了知识主题短文本文本特征的稀疏程度。通过短文本之间的词共现情况构建并分析知识主题短文本网络,最终选取社区特征有效扩展文本特征。通过计算知识主题之间的KL散度来度量域的差异性,进而选择辅助数据;将层次分类问题转换为多分类问题,有效的对知识主题短文本进行组织和管理。
Description
技术领域
本发明涉及数据挖掘领域,具体为一种基于拓扑特征扩展的知识主题短文本层次分类方法。
背景技术
随着科学技术的发展,人类知识爆炸式增长,互联网上各类开放知识源已成为人们交流信息及获取知识的重要来源,一方面极大地促进了知识的传播和应用,但同时也加剧了知识碎片化现象。知识碎片化现象容易引发学习者认知过载,导致“注意力分散效应”,也容易造成学习者认知偏差等问题。由于各开放知识源知识载体是“短文本”,所以如何有效的对短文本进行组织和管理是解决知识碎片化现象问题的关键,是有重要意义的一项工作。
为了有效组织和管理互联网上的海量知识主题短文本,通常按照知识体系结构对短文本进行分类,以更好地方便学习者快速认识到知识主题的各个分面,以及学习各个分面上短文本的内容,对知识主题各个分面有更加深入的认识,从而高效地完成对知识主题的认知过程,提高学习者的学习效率。基于知识体系结构具有层次特征,多分类方法是解决层次分类问题的主要方法之一,因此我们将知识主题短文本分类问题转换成多分类问题。
申请人经过查新,没有找到有关对知识主题短文本进行层次分类的专利,因而检索了一篇与本专利相关的已授权的中国专利:一种基于特征扩展的中文短文本分类方法,授权公告号为ZL201210446997.4;在该专利中,发明人提供一种基于特征扩展的中文短文本分类方法,通过从长文本语料库中提取信息来丰富短文本所携带的信息量。但该发明所述方法针对对象并非知识领域的短文本,没有考虑到知识领域知识主题异构性问题,以及知识体系结构的层次特征。
发明内容
针对现有技术中存在的问题,本发明提供一种基于拓扑特征扩展的知识主题短文本层次分类方法,能够有效的对知识主题短文本进行组织和管理,解决互联网海量知识短文本造成的信息过载问题。
本发明是通过以下技术方案来实现:
一种基于拓扑特征扩展的知识主题短文本层次分类方法,包括以下步骤:
1)初始文本特征构建;
1-1)对短文本进行预处理,构建短文本文件系统;
1-2)以短文本文件系统作为整体,计算其初始熵值;
以词的出现及不出现为条件,计算词在系统中的条件熵;将短文本文件系统的初始熵和条件熵的差值作为信息增益,并以信息增益作为指标对词进行排序,选择大于一定阈值的词作为特征,即特征词,从而构建向量空间模型,得到特征空间;
1-3)将短文本文本内容映射到特征空间,得到用特征词表示的短文本;通过TF-IDF方法计算特征词的权重,从而得到短文本的初始文本特征向量;
2)基于拓扑特征的短文本特征扩展;
2-1)短文本网络的构建;输入某一知识主题下短文本集合以及短文本之间的共现词阈值alpha;统计短文本包含特征词的数量并存放在二维数组中,然后遍历后续短文本并统计文件之间的共现词数量,完成和后续文本比较后,如果数组中任一维度的数值不小于alpha,那么认为该文本和相应文本之间有关联;最后保存根据共现词阈值alpha构建的网络拓扑结构,即以该知识主题下短文本为节点的网络结构;
2-2)短文本网络的修复;将知识主题下网络节点分为两部分:一是孤立节点集合S1,二是非孤立节点集合S2,其中孤立节点与其他节点之间没有大于阈值的共现词特征;对于S1中的点,分别计算其与S2中各个节点的语义距离,选择语义距离最短的节点将该节点与其相连,并从S1删除该节点,向S2添加该节点,重复该操作直到S1为空,完成短文本网络的修复;
2-3)短文本网络社区结构的划分;使用Louvain算法进行社区结构的划分:首先通过优化短文本网络的局部模块度来寻找最小社区;聚集属于同一社区的节点,以社区为节点来建立新的网络;迭代执行上述社区结构的划分步骤,直到获得整体最大模块度并产生稳定的社区结构;
2-4)短文本文本特征扩展;对于某一知识主题下的一个待分类的短文本,通过所述步骤1)获取其初始文本特征,然后通过计算语义距离的方法计算其和各个社区的语义距离,最后将每个短文本归属到语义距离最短的社区中,将各个社区的特征作为对应的拓扑特征,从而用拓扑特征扩展文本特征,得到最终基于拓扑特征扩展的文本特征向量;
3)异构知识主题间的迁移学习方法;
3-1)基于KL散度的知识主题距离的度量;
统计同一知识领域下两个不同知识主题特征向量的频率分布情况,即特征词在该知识主题的短文本中出现的概率,并按照其出现的频率将特征空间中的特征进行排序;
对于进行排序后的特征空间中每个特征词,统计其在不同短文本中出现的频率,统计其概率分布,得到特征向量概率分布矩阵;
在两个不同知识主题的特征空间中截取相同的长度,使两特征空间中特征向量的维度一致,特征词一一对应,采用KL散度方法计算两个不同知识主题下特征向量概率分布矩阵的差异性,得到两个不同知识主题的距离;
3-2)基于Multi-TrAdaBoost的知识主题短文本多分类;选择基于KL散度距离能够满足训练数据集数量要求的知识主题短文本数据集作为辅助数据集,结合基于网络拓扑特征扩展后的短文本特征,利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习,并将短文本层次分类问题转换成多分类问题,最终对短文本实现层次分类。
优选的,所述的步骤1-2)中以短文本文件系统作为整体,其初始熵值的计算过程如下;
其中:Ti为知识主题T的子主题,以短文本文件系统作为整体,计算其初始熵值;p(Ti)表示取得子主题Ti的概率;
条件熵计算过程如下;
以文件系统的初始熵和条件熵的差值作为信息增益,表示该特征带来的信息增益量,其计算过程为:
IG(T|w)=Entropy(T)-Entropy(T|w)。
优选的,所述的步骤2-1)的具体操作如下表所示:
2-1-1)输入同一知识主题下的短文本集合,共现词个数阈值alpha;读取短文本集合,初始化弧的数目Narc=0;构造短文本文件ID和短文本内容之间的映射Map<fileID,fragKwg>;统计短文本包含特征词的数量缓存在featureAppear二维数组中;
2-1-2)根据给定共现词阈值alpha,构建短文本之间的关联网络,存储在二维数组coNet中;
2-1-3)将二维数组coNet写入.net文件中,获得以同一知识主题下短文本为节点构成的网络结构。
优选的,所述的步骤2-2)中语义距离计算过程为:
其中:a和b是两个不同的短文本;是短文本a在第j维度上各个词向量的平均值;代表短文本a中第p个词在第j维度上的向量值;Ca为短文本a中包含的词数目;Xa代表短文本a的质心向量;是短文本b在第j维度上各个词向量的平均值;代表短文本b中第q个词在第j维度上的向量值;Cb为短文本b中包含的词数目;Xb代表短文本b的质心向量;d1为词向量的维度;Dis表示两个短文本之间的欧氏距离。
优选的,所述的步骤2-3)中模块度的计算公式如下:
其中:e为短文本网络中的边数目;Auv代表网络中节点u与节点v之间边的数目;ku代表节点u的度;Cu代表节点u所属的社团;kv代表节点v的度;Cv代表节点v所属的社团;当且仅当Cu=Cv,δ(Cu,Cv)=1,否则,δ(Cu,Cv)=0。
优选的,所述的步骤3-1)中KL散度的计算公式如下:
其中:P代表未分类的知识主题KTu的概率分布,Q代表已分类知识主题KTl的概率分布,Pr和Qr代表P和Q的第r个分量,d2为两概率分布的维度,DKL(P||Q)表示从P分布到Q分布的距离。
优选的,所述的步骤3-2)中Multi-TrAdaBoost的具体操作为:
3-2-3)迭代计算;
3.1设置迭代次数k=1,2,...,N;
3.2归一化训练实例的权重分布
3.3调用基础多分类器Learner,依据合并后的训练数据集D以及D上的权重分布pk和未标注数据Dt,得到一个Dt上的分类器hk;
3.4计算hk在源数据集Ds2上的错误率:
需要满足εk≤0.5;
3.6设置新的权重向量如下:
3-2-4)输出最终的迁移学习多分类器;
优选的,步骤1-1)中,所述的预处理包括去掉短文本中的标点符号、去掉多余的空格、去掉停用词,并将各种形式的词进行还原处理,其中,词形还原处理用到斯坦福大学的CoreNLP开源系统。
与现有技术相比,本发明具有以下有益的技术效果:
本发明提供的基于拓扑特征扩展的知识主题短文本层次分类方法,主要包括初始文本特征构建、基于拓扑特征的短文本特征扩展及异构知识主题间的迁移学习这三部分。
通过采集多个知识主题对应的短文本长度做初步的量化统计和分析,将文本内容映射到特征空间,表示成数值向量形式,以便于分类器识别,发现短文本向特征空间映射得到的向量长度占特征空间的2%~5%,即明确了知识主题短文本文本特征的稀疏程度。
通过短文本之间的词共现情况构建并分析知识主题短文本网络;对于与其他短文本之间没有共现词或共现词个数未达到设定的阈值的孤立短文本,采用词向量的方法对知识主题短文本知识网络进行修复,最终选取社区特征有效扩展文本特征。
通过计算知识主题之间的KL散度来度量域的差异性,进而选择辅助数据;基于单个知识主题的层次结构规模较小,将层次分类问题转换为多分类问题,采用Multi-TrAdaBoost方法充分利用辅助数据帮助短文本进行多分类,达到了有效迁移知识的目的,大大提升了分类性能,并且能够有效的对知识主题短文本进行组织和管理,解决互联网海量知识短文本造成的信息过载问题。
附图说明
图1是本发明实例中所述基于拓扑特征扩展的知识主题短文本层次分类方法的流程图。
图2是本发明实例中所述知识主题层次结构样例图;
图3是本发明实例中所述的“Binary tree”主题短文本网络划分的可视化结果示意图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明提供的基于拓扑特征扩展的知识主题短文本层次分类方法,包括如下3个过程:
1)初始文本特征构建:
1-1)对短文本进行预处理,构建短文本文件系统。预处理包括去掉短文本文本中的标点符号、去掉多余的空格、去掉停用词,并将各种形式的词进行还原处理,其中,词形还原处理用到斯坦福大学的CoreNLP开源系统。
1-2)采用信息熵的方法进行文本特征选择,其计算过程如下:
其中:Ti为知识主题T的子主题,以短文本文件系统作为整体,计算其初始熵值;p(Ti)表示取得子主题Ti的概率。
因此以词的出现及不出现为条件,计算词在系统中的条件熵,如下。
IG(T|w)=Entropg(T)-Entropy(T|w)
以文件系统的初始熵和条件熵的差值作为信息增益,表示以词w表示的特征带来的信息增益量。
将信息增益量排序,选择大于一定阈值的词作为特征,即特征词,从而构建向量空间模型(VSM)。VSM由Salton等人提出,可形式化描述如下:
给定特征空间其中f表示特征空间的维度;文本集合D={d1,d2,...,dn},n表示集合中文本总数目,文本di∈D向特征空间映射得到的特征向量表示为其中,表示文本di对应特征空间中第k个向量的权重。
1-3)将短文本文本内容映射到特征空间,并采用TF-IDF方法计算特征词的权重,其计算公式如下所示:
其中:tfki为特征词vk在文本di中出现的频次比例,表示vk在di中的重要程度;dfk为vk在整个文本集合D中的出现频率,这样削弱了该词表现单个文本的能力,计算文本总数目n与集合D中含有vk的文本数目的比值的对数值。
最终得到短文本的初始文本特征向量。
2)基于拓扑特征的短文本特征扩展:
2-1)短文本网络的构建。考虑到同一知识主题下的短文本之间存在词共现现象,即出现在一个短文本中的词也在另一个短文本中出现,将此重叠出现的词定义为共现词,对共现词定义形式化描述如下:
对于一个词语t,短文本ksi,ksj:如果t∈ksi,t∈ksj,那么称t为ksi,ksj之间的共现词;如果ksi∩ksj={tm+1,tm+2,...,tm+n},那么称ksi,ksj为n-词共现,n为ksi与ksj的共现词数量;对于给定的阈值α,如果n≥α,那么ksi,ksj互相关联。
输入某一知识主题下短文本集合(.txt文件列表)以及短文本之间的共现词阈值alpha;对短文本包含特征词的情况作初步统计并存放在二维数组中,然后遍历后续短文本文件列表并统计文件之间的共现词情况,完成和后续文本比较后,如果数组中任一维度的数值不小于alpha,那么认为该文本和相应文本之间有关联;最后以.net文件格式输出根据共现词阈值alpha构建的网络结构,即以该知识主题下短文本为节点的网络结构。其具体操作如下所示:
a)输入同一知识主题下的短文本集合,共现词个数阈值alpha;
b)读取短文本集合,初始化弧的数目Narc=0;构造短文本文件ID和短文本内容之间的映射Map<fileID,fragKwg>;统计短文本包含特征词的情况缓存在featureAppear二维数组中;
c)根据给定共现词阈值alpha,构建短文本之间的关联网络,存储在二维数组coNet中;
d)将二维数组coNet写入.net文件中,获得以同一知识主题下短文本为节点构成的网络结构。
2-2)短文本网络的修复。将知识主题下网络节点分为两部分:一是孤立节点集合S1,二是非孤立节点集合S2;其中孤立节点与其他节点之间没有大于阈值的共现词特征,因此深入挖掘其语义特征,对于S1中的点,分别计算其与S2中各个节点的语义距离,选择语义距离最短的节点将该节点与其相连,并从S1删除该节点,向S2添加该节点,重复该操作直到S1为空,完成短文本网络的修复。其中选择Word2Vec的方法来获得词向量,将每个词看作在一定维度空间分布的离散的点,每个短文本看成这些离散的点聚集成的簇,通过计算两个簇之间质心的欧氏距离来计算短文本之间的距离。语义距离计算过程为:
其中:a和b是两个不同的短文本;是短文本a在第j维度上各个词向量的平均值;代表短文本a中第p个词在第j维度上的向量值;Ca为短文本a中包含的词数目;Xa代表短文本a的质心向量;是短文本b在第j维度上各个词向量的平均值;代表短文本b中第q个词在第j维度上的向量值;Cb为短文本b中包含的词数目;Xb代表短文本b的质心向量;d1为词向量的维度;Dis表示两个短文本之间的欧氏距离。
2-3)短文本网络社区结构划分。使用Louvain算法进行社区结构的划分:首先通过优化局部模块度来寻找最小社区;聚集属于同一社区的节点,以社区为节点来建立新的网络;迭代执行上述两个社区结构的划分步骤,直到获得整体最大模块度并产生稳定的社区结构,如图3所示,知识主题“Binary tree”短文本网络社区结构划分结果。
2-4)短文本文本特征扩展。对于某一知识主题下的一个待分类的短文本,首先提取文本特征,然后通过计算语义距离的方法计算其和各个社区的语义距离,最后将其归属到语义距离最短的社区中,将各个社区的特征作为对应的拓扑特征,从而用拓扑特征扩展文本特征,得到最终基于拓扑特征扩展的文本特征向量。例如,知识主题KT1的文本特征维度为414,按照条件熵的方法约减后其维度为245,KT1中的一个实例,将文本特征映射到特征空间得到权重为{0.027,0.438,…,0.045},通过基于拓扑特征方法扩展后,KT1的短文本网络共划分6个社区,该实例归属社区编号为6,因此将该实例特征扩展为:{0.027,0.438,…,0.045,0.000,0.000,0.000,0.000,0.000,1.000},其中,扩展的六位数值表示该实例在社区6中出现,而不出现在社区1—5中。
3)异构知识主题间的迁移学习方法:
3-1)基于KL散度的知识主题距离的度量分为三个步骤:
①向量空间中的特征排序。统计同一知识领域下的两个不同知识主题的特征的频率分布,即特征词在该知识主题的短文本中出现的概率,并按照其出现的频率将特征空间中的特征排序;
②特征向量概率分布矩阵计算。对于进行特征排序的特征空间中每个特征词,统计其在不同短文本中出现的频率,统计其概率分布情况,得到特征向量概率分布矩阵;
③计算两个不同知识主题的差异性。在两个知识主题的特征空间中截取相同的长度,使两特征空间中特征向量的维度一致,特征词一一对应,采用KL散度方法计算两个知识主题下特征向量概率分布矩阵的差异性,得到两知识主题的距离。KL散度即相对熵,是信息论领域衡量两个概率分布距离的基础公式,其计算如式所示:
其中:P代表未分类,即待训练的知识主题KTu的概率分布,Q代表已分类,即已知的知识主题KTl的概率分布,Pr和Qr代表P和Q的第r个分量,d2为两概率分布的维度,DKL(P||Q)表示从P分布到Q分布的距离;
3-2)基于Multi-TrAdaBoost的知识主题短文本多分类,其中包括训练数据集和测试数据集。选择基于KL散度距离能够满足训练数据集数量要求的1个或多个知识主题短文本数据集作为辅助数据集,利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习,并将短文本层次分类问题转换成多分类问题,结合基于拓扑特征扩展的短文本特征最终对短文本实现层次分类。具体操作如下所示:
3-2-3)迭代计算;
3.1设置迭代次数k=1,2,...,N;
3.3调用基础多分类器Learner,依据合并后的训练数据集D以及D上的权重分布pk和未标注数据Dt,得到一个Dt上的分类器hk;
3.4计算hk在源数据集Ds2上的错误率:
需要满足εk≤0.5;
3.6设置新的权重向量如下:
3-2-4)输出最终的迁移学习多分类器如下,
Claims (8)
1.一种基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于,包括以下步骤:
1)初始文本特征构建;
1-1)对短文本进行预处理,构建短文本文件系统;
1-2)以短文本文件系统作为整体,计算其初始熵值;
以词的出现及不出现为条件,计算词在系统中的条件熵;将短文本文件系统的初始熵和条件熵的差值作为信息增益,并以信息增益作为指标对词进行排序,选择大于一定阈值的词作为特征,即特征词,从而构建向量空间模型,得到特征空间;
1-3)将短文本文本内容映射到特征空间,得到用特征词表示的短文本;通过TF-IDF方法计算特征词的权重,从而得到短文本的初始文本特征向量;
2)基于拓扑特征的短文本特征扩展;
2-1)短文本网络的构建;输入某一知识主题下短文本集合以及短文本之间的共现词阈值alpha;统计短文本包含特征词的数量并存放在二维数组中,然后遍历后续短文本并统计文件之间的共现词数量,完成和后续文本比较后,如果数组中任一维度的数值不小于alpha,那么认为该文本和相应文本之间有关联;最后保存根据共现词阈值alpha构建的网络拓扑结构,即以该知识主题下短文本为节点的网络结构;
2-2)短文本网络的修复;将知识主题下网络节点分为两部分:一是孤立节点集合S1,二是非孤立节点集合S2,其中孤立节点与其他节点之间没有大于阈值的共现词特征;
对于S1中的点进行如下操作,分别计算S1中的点与S2中各个节点的语义距离,选择语义距离最短的节点,将S2中与S1中的点的语义距离最短的节点与S1中的点相连,并从S1删除该节点,向S2添加该节点,重复该操作直到S1为空,完成短文本网络的修复;
2-3)短文本网络社区结构的划分;使用Louvain算法进行社区结构的划分:首先通过优化短文本网络的局部模块度来寻找最小社区;聚集属于同一社区的节点,以社区为节点来建立新的网络;迭代执行上述社区结构的划分步骤,直到获得整体最大模块度并产生稳定的社区结构;
2-4)短文本文本特征扩展;对于某一知识主题下的一个待分类的短文本,通过所述步骤1)获取其初始文本特征,然后通过计算语义距离的方法计算其和各个社区的语义距离,最后将每个短文本归属到语义距离最短的社区中,将各个社区的特征作为对应的拓扑特征,从而用拓扑特征扩展文本特征,得到最终基于拓扑特征扩展的文本特征向量;
3)异构知识主题间的迁移学习方法;
3-1)基于KL散度的知识主题距离的度量;
统计同一知识领域下两个不同知识主题特征向量的频率分布情况,即特征词在该知识主题的短文本中出现的概率,并按照其出现的频率将特征空间中的特征进行排序;
对于进行排序后的特征空间中每个特征词,统计其在不同短文本中出现的频率,统计其概率分布,得到特征向量概率分布矩阵;
在两个不同知识主题的特征空间中截取相同的长度,使两特征空间中特征向量的维度一致,特征词一一对应,采用KL散度方法计算两个不同知识主题下特征向量概率分布矩阵的差异性,得到两个不同知识主题的距离;
3-2)基于Multi-TrAdaBoost的知识主题短文本多分类;选择基于KL散度距离能够满足训练数据集数量要求的知识主题短文本数据集作为辅助数据集,结合基于网络拓扑特征扩展后的短文本特征,利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习,并将短文本层次分类问题转换成多分类问题,最终对短文本实现层次分类。
3.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤2-1)的具体操作如下表所示:
2-1-1)输入同一知识主题下的短文本集合,共现词个数阈值alpha;读取短文本集合,初始化弧的数目Narc=0;构造短文本文件ID和短文本内容之间的映射Map<fileID,fragKwg>;统计短文本包含特征词的数量缓存在featureAppear二维数组中;
2-1-2)根据给定共现词阈值alpha,构建短文本之间的关联网络,存储在二维数组coNet中;
2-1-3)将二维数组coNet写入.net文件中,获得以同一知识主题下短文本为节点构成的网络结构。
7.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤3-2)中Multi-TrAdaBoost的具体操作为:
初始化表示进行第一次迭代;
3-2-3)迭代计算;
3.1设置迭代次数k=1,2,...,N;
3.3调用基础多分类器Learner,依据合并后的训练数据集D以及D上的权重分布pk和未标注数据Dt,得到一个Dt上的分类器hk;
3.4计算hk在源数据集Ds2上的错误率:
需要满足εk≤0.5;
3.6设置新的权重向量如下:
3-2-4)输出最终的迁移学习多分类器;
8.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:步骤1-1)中,所述的预处理包括去掉短文本中的标点符号、去掉多余的空格、去掉停用词,并将各种形式的词进行还原处理,其中,词形还原处理用到斯坦福大学的CoreNLP开源系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710129359.2A CN106991127B (zh) | 2017-03-06 | 2017-03-06 | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710129359.2A CN106991127B (zh) | 2017-03-06 | 2017-03-06 | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106991127A CN106991127A (zh) | 2017-07-28 |
CN106991127B true CN106991127B (zh) | 2020-01-10 |
Family
ID=59412654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710129359.2A Active CN106991127B (zh) | 2017-03-06 | 2017-03-06 | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106991127B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10812589B2 (en) * | 2017-10-28 | 2020-10-20 | Tusimple, Inc. | Storage architecture for heterogeneous multimedia data |
CN107784112B (zh) * | 2017-11-06 | 2020-03-03 | 广州赛宝认证中心服务有限公司 | 短文本数据增强方法、系统及检测认证服务平台 |
CN108304519B (zh) * | 2018-01-24 | 2020-08-18 | 西安交通大学 | 一种基于图数据库的知识森林构建方法 |
CN109344252B (zh) * | 2018-09-12 | 2021-12-07 | 东北大学 | 基于优质主题扩展的微博文本分类方法及系统 |
CN109657478B (zh) * | 2018-12-20 | 2023-12-19 | 中国人民解放军战略支援部队信息工程大学 | 一种异构性的量化方法及系统 |
CN110209814B (zh) * | 2019-05-23 | 2021-02-02 | 西安交通大学 | 一种利用领域建模从百科知识网站抽取知识主题的方法 |
CN110889282B (zh) * | 2019-11-28 | 2023-03-21 | 哈尔滨工程大学 | 一种基于深度学习的文本情感分析方法 |
CN111737482B (zh) * | 2020-04-17 | 2021-02-19 | 郑敏杰 | 一种适用于数据挖掘的全景可视化图谱生成方法及装置 |
CN112800214B (zh) * | 2021-01-29 | 2023-04-18 | 西安交通大学 | 基于主题共现网络和外部知识的主题识别方法、系统及设备 |
CN114168708B (zh) * | 2021-11-15 | 2022-06-14 | 哈尔滨工业大学 | 一种基于多域特征的个性化生物通路检索方法 |
CN114722897B (zh) * | 2022-03-01 | 2024-09-10 | 西北工业大学 | 一种提高战场综合态势信息处理效率的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441663A (zh) * | 2008-12-02 | 2009-05-27 | 西安交通大学 | 一种基于lzw压缩算法的中文文本分类特征词典生成方法 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
-
2017
- 2017-03-06 CN CN201710129359.2A patent/CN106991127B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441663A (zh) * | 2008-12-02 | 2009-05-27 | 西安交通大学 | 一种基于lzw压缩算法的中文文本分类特征词典生成方法 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
Non-Patent Citations (1)
Title |
---|
基于类别结构的文本层次分类方法研究;祝翠玲;《中国博士学位论文全文数据库信息科技辑》;20111115;第I138-79页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106991127A (zh) | 2017-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106991127B (zh) | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 | |
Li et al. | Key word extraction for short text via word2vec, doc2vec, and textrank | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN103279478B (zh) | 一种基于分布式互信息文档特征提取方法 | |
CN111611801B (zh) | 一种识别文本地域属性的方法、装置、服务器及存储介质 | |
CN108595688A (zh) | 基于在线学习的潜在语义跨媒体哈希检索方法 | |
CN109063147A (zh) | 基于文本相似度的在线课程论坛内容推荐方法及系统 | |
CN110287329B (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN110807101A (zh) | 一种科技文献大数据分类方法 | |
CN107329954B (zh) | 一种基于文档内容和相互关系的主题检测方法 | |
CN108647322A (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN109508385A (zh) | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 | |
CN109145083B (zh) | 一种基于深度学习的候选答案选取方法 | |
CN113673252B (zh) | 一种基于字段语义的数据表自动join推荐方法 | |
Qin et al. | A big data text coverless information hiding based on topic distribution and TF-IDF | |
CN113190593A (zh) | 一种基于数字人文知识图谱的搜索推荐方法 | |
CN112487200A (zh) | 一种改进的包含多重边信息与多任务学习的深度推荐方法 | |
Lai et al. | Transconv: Relationship embedding in social networks | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
WO2022262632A1 (zh) | 网页搜索方法、装置及存储介质 | |
CN113139558A (zh) | 确定物品的多级分类标签的方法和装置 | |
CN111737482B (zh) | 一种适用于数据挖掘的全景可视化图谱生成方法及装置 | |
CN104714977A (zh) | 一种实体与知识库项的关联方法及装置 | |
CN113254688A (zh) | 一种基于深度哈希的商标检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |