CN104391942B - 基于语义图谱的短文本特征扩展方法 - Google Patents
基于语义图谱的短文本特征扩展方法 Download PDFInfo
- Publication number
- CN104391942B CN104391942B CN201410686237.XA CN201410686237A CN104391942B CN 104391942 B CN104391942 B CN 104391942B CN 201410686237 A CN201410686237 A CN 201410686237A CN 104391942 B CN104391942 B CN 104391942B
- Authority
- CN
- China
- Prior art keywords
- theme
- keyword
- candidate keywords
- short text
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000000205 computational method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 230000008707 rearrangement Effects 0.000 claims 1
- 239000000463 material Substances 0.000 abstract description 10
- 206010068052 Mosaicism Diseases 0.000 abstract description 6
- 210000003765 sex chromosome Anatomy 0.000 abstract description 6
- 230000000153 supplemental effect Effects 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000004744 fabric Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 229910000673 Indium arsenide Inorganic materials 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000001027 hydrothermal synthesis Methods 0.000 description 1
- RPQDHPTXJYYUPQ-UHFFFAOYSA-N indium arsenide Chemical compound [In]#[As] RPQDHPTXJYYUPQ-UHFFFAOYSA-N 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- -1 microblogging Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Abstract
本发明公开了一种基于语义图谱的短文本特征扩展方法,包括以下步骤:利用短文本训练数据集进行主题建模,抽取主题词分布;对主题词分布进行重排序;构建候选关键词词典和主题‑关键词语义图谱;基于链接分析的方法计算候选关键词和种子关键词的综合相似度评价,选择最相似的候选关键词完成对短文本的扩展。本发明方法较基于语言模型的短文本特征表示方法操作简单,执行效率高,而且充分利用关键词之间的语义关联信息,较传统的基于词袋模型的短文本特征表示方法,有效缓解了数据稀疏性问题和语义敏感性问题,不依赖于外部大规模辅助训练语料或者搜索引擎。
Description
技术领域
本发明涉及文本挖掘技术领域,是一种基于主题-关键词语义图谱和链接分析的短文本特征扩展方法,可应用于短文本分类、聚类任务中的特征表示,并最终应用于知识问答,用户意图理解和智能检索等子领域。
背景技术
随着大数据时代的到来,互联网以及各种移动终端都产生了大量的短文本信息,比如网页检索片段、微博、产品评论、新闻标题以及各种微信息等,而特定用户所关注的有用信息也被海量的资源所湮没。如何让系统智能管理和更好的使用这些海量的数据资源,面临着巨大的挑战。因此一种高精度的短文本分类方法可以帮助系统加深对短文本内容的理解,对于构建智能网络和智能系统有重要作用。短文本特征扩展是实现短文本特征有效表示的一种必要手段,短文本的高精度自动分类是文本挖掘领域中一个重要的子问题。与其紧密相关的技术领域包括:知识问答、用户意图理解、智能信息检索等。目前,短文本分类任务的一个显著特征是总体数据量巨大,但是由于短文本长度的限制,其包含的词共现和上下文信息不足。传统的特征表示方法和分类模型面临严重的数据稀疏性问题,同时由于受到同义词和多义词的影响,快速准确的进行短文本的自动分类,仍然是一项极具挑战性的技术。因此,如何获得短文本特征的有效表示并改善其分类性能是一个亟待解决的问题。
针对海量短文本的自动分类技术展开的各项研究,主要是集中在如何选取更好的特征表达上,以解决由于短文本自身特性所造成的稀疏性和歧义性问题。目前,短文本特征的表示方法大体上可分为两种,一种是使用语言模型将短文本在特征空间中映射为有效的特征向量;另一种 是对短文本内容进行信息扩展,然后基于词袋模型对短文本特征进行表示。
基于语言模型的短文本特征表示,主要是利用深度学习算法先对词进行向量表示,然后再合成句子,或者直接对句子进行向量表示。但是该方法模型繁琐,执行复杂度较高,而且在句子层面的特征表示尚不能满足应用需求。传统的词袋模型在对短文本进行特征表示时,简单易操作,而且时间复杂度较低,但是存在严重的数据稀疏性问题,而且忽略了词语之间的语义信息。此外,主题上很相关的短文本可能含有非常少的重叠关键词,导致短文本之间的相似度难以有效计算,将直接影响分类任务的性能。目前针对该问题,主流的技术主要是使用潜在的语义信息或者相关的关键词对短文本进行信息扩展。而这些扩展信息的获得往往需要大规模的外部辅助语料或者借助搜索引擎,其中辅助训练语料和目标短文本数据集要求具有语义一致性。然而这些大规模训练语料的收集是很耗时耗力的。基于搜索引擎的特征扩展方法,首先是提取短文本中出现的关键词作为Query,通过搜索引擎进行检索,然后将返回的结果作为扩展信息。但是这种方法的时间复杂度很大,特别是在处理海量短文本时,是不可取的。
综上所述,基于传统词袋模型的短文本特征表示技术主要存在以下两个问题:一是短文本中词共现不足,以及关键词出现在不同的上下文环境中表达不同的语义,即短文本在特征表示时存在数据稀疏性和语义敏感性问题;二是依赖外部大规模的辅助训练语料或者搜索引擎,而外部训练语料要求与目标数据集具有语义一致性,这一点使其难以搜集。基于搜索引擎的方法时间复杂度较大,难以适应海量数据或者在线数据的处理。这些问题都使得短文本的相似度计算面临着巨大困难,严重影响分类任务的性能。本发明提出一种短文本特征的扩展方法,可以在很大程度上弥补传统词袋模型的缺点,并进一步改善短文本分类的性能。
发明内容
针对上述两个主要问题,本发明提出了一种基于语义图谱的短文本 特征扩展方法,解决了传统词袋模型对短文本特征表示中的数据稀疏性问题和语义敏感性问题,并最终改善短文本的分类性能。
本发明所提出的一种基于语义图谱的短文本特征扩展方法包括以下步骤:
步骤1,使用短文本训练数据集进行主题建模,提取每一个主题下的关键词概率分布;
步骤2,采用基于主题概率分布的指数变换排序方法,对每一个主题下的关键词分布进行重排序,获得重排序的主题表示;
步骤3,基于重排序的主题表示,对于每一个主题,选择前N个关键词生成由候选关键词构成的候选关键词词典,并构建主题-关键词语义图谱;
步骤4,采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文本进行过滤,将匹配到的短语作为种子关键词,利用主题-关键词语义图谱,候选关键词词典中所有元素的相似度,提取前V个最相似的候选关键词对所述种子关键词进行扩展。
优选的,步骤2中基于主题概率分布的指数变换排序方法,其评分计算方法是对每一个主题下关键词的分布进行指数变换然后对每一个关键词估计一个显著度值SAS,公式为
其中,是主题Z下第i个关键词的概率分布值,K是总的主题个数。
优选的,步骤3中主题-关键词语义图谱构建方法为:
步骤3.1:对于每一个重排序的主题,选择前N个关键词作为候选关键词,所有主题的候选关键词构成候选关键词词典;
步骤3.2,将每一个主题选取的候选关键词作为叶子节点,相应的主题索引作为父亲节点,生成一个有向二分图的团簇,所有的主题构成一个主题-关键词语义图谱;
步骤3.3,将步骤2中计算所得显著度值,设置为主题-关键词语义 图谱中父亲节点指向叶子节点的连接边上的权值。
优选的,种子关键词和候选关键词的相似度的计算包括以下步骤:
步骤4.1:计算种子关键词和候选关键词词典中所有元素的结构相似度,公式为,
SR(swi,cwj)=SAS(swi)SAS(cwj)s(swi,cwj)
其中,swi是目标短文本中第i个种子关键词,cwj是候选关键词词典中第j个候选关键词,SAS(swi)为swi的显著度值,SAS(cwj)为swi的显著度值,s(swi,cwj)是传统基于链接分析的结构相似度计算方法计算的swi与cwj的相似度的值,SR(swi,cwj)是计算出的swi与cwj结构相似度的值。
步骤4.2:计算种子关键词和候选关键词词典中所有元素的语义相似度,包括如下步骤:
a、提取swi对应的主题分布向量提取cwj对应的主题分布向量
b、利用和计算种子关键词和候选关键词的K-L散度,并以该值作为语义相似度;
步骤4.3:综合结构相似度和语义相似度对关键词进行综合评分,公式为
其中,KL(swi,cwj)是种子关键词swi和候选关键词cwj之间的K-L散度,CScore(swi,cwj)是计算出的swi与cwj结构相似度和语义相似度的综合评分。
优选的,选取种子关键词时,对种子关键词所属主题数目进行统计,如果所属主题数目大于一定阈值,应将种子关键词剔除。
优选的,步骤1中的建模方法为采用基于二元词组的主题模型直接对短文本数据集中的词共现进行建模。
本发明所提出的一种基于语义图谱的短文本特征扩展方法,首先基 于短文本数据集训练主题模型,得到一个关键词词典和对应的主题分布,经重排序后构建主题-关键词语义图谱。然后利用所述关键词词典对目标短文本进行关键词过滤,得到数目较少而且主题集中的种子关键词,同时可以滤除98%以上的停用词,有效降低了噪声对分类任务的影响。最后基于所述主题-关键词语义图谱,使用链接分析的方法选择有效的候选关键词对目标短文本进行扩展。本发明不依赖于外部大规模辅助训练语料,通过对目标短文本中出现的少量种子关键词进行扩展,在保证主题集中的前提下,在一定程度上有效解决短文本特征表示中的稀疏性问题和语义敏感性问题,并最终改善短文本的分类性能。本发明主要针对短文本的特征表示进行语义扩展,并应用于短文本分类、聚类等任务,但是对于知识问答、用户意图理解、智能检索等其他相关领域亦具有借鉴意义。
附图说明
图1是本发明一种基于语义图谱的短文本特征扩展方法的流程图。
图2a是本发明方法的主题模型结构图。
图2b是传统的主题模型结构图。
图3a是传统方法构建的主题-关键词语义图谱。
图3b是本发明中构建的主题-关键词语义图谱。
图3c是本发明构建的语义图谱的部分连接结构。
图4是本发明方法的主题-关键词幂律分布曲线图。
图5a是本发明方法在测试数据集上的精度-主题数对比曲线图。
图5b是本发明在测试数据集上的精度-关键词扩展数对比曲线图。
图6是本发明方法在测试数据集上运行耗时-主题数曲线关系图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提出了一种基于语义图谱的短文本特征扩展方法,具体为基于主题-关键词语义图谱和链接分析的短文本特征扩展方法,能在一定程度上充分挖掘主题词之间的语义关系,可以快速、准确的提取和种子关键词最相关的信息,完成对目标短文本特征表示的扩展。本发明的基本特征主要有以下六个方面:一是不依赖与外部大规模辅助训练语料,直接使用短文本数据集进行主题建模,提高建模效率,以及确保模型和目标数据的语义一致性;二是提出一种基于主题概率分布的指数变换排序方法,对每一个主题下的关键词分布进行重排序,使得每一个主题表示更加显著;三是提出并应用了一种主题-关键词语义图谱的构建方法,可以直观的展现每一个关键词和主题的归属关系以及归属度大小,能够反映关键词之间的语义关联,同时适合随机游走模型的训练;四是提出一种基于链接分析的加权结构相似度计算方法,其时间复杂度为O(knd),该算法通过自动挖掘主题-关键词之间的链接关系得到关键词之间的结构相似度;五是在训练阶段将词典中所有关键词之间的结构相似度计算完毕,使得在测试阶段对目标短文本的特征扩展效率大幅度提升;六是基于主题的概率分布计算关键词之间的K-L散度,作为对所述结构相似度的补充,更准确的提取候选关键词以完成对目标短文本的特征表示进行扩展;实验证明,与其它方法相比,本发明所提方法,能够在保证短文本特征扩展效率的前提下,进一步提高短文本分类的准确度。
本发明的目的在于,从短文本的训练数据集中提取语义相关的关键词对测试数据集中的短文本的特征表示进行扩展,以解决传统词袋模型对短文本特征表示中的数据稀疏性问题和语义敏感性问题,并最终改善短文本的分类性能。
如图1所示,本实施例包括以下步骤:
步骤1,使用短文本训练数据集进行主题建模,提取每一个主题下的关键词概率分布;
由于短文本不同于普通的长文本,其长度有限,不能包含足够的上下文信息,以及词共现信息,因此本发明采用基于二元词组的主题模型(Biterm Topic Model,BTM)直接对整个训练语料(即短文本数据集)中的词共现进行建模,以有效降低数据稀疏性对主题建模的影响。所述 主题模型假设整个训练语料可以被建模为多个主题的混合模型,每一个二元词组独立的从某个确定的主题中抽取。表1是所述主题模型中使用的参数及定义说明,如图2a所示,对短文本的建模过程进一步包括以下步骤:
步骤1.1,提取训练语料中每一条短文本的二元词组构建训练数据集BT,同时初始化主题数K,狄利克雷分布超参数α,β。
步骤1.2,基于整个训练语料抽取一个主题分布θ~Dir(α)。
所述主题分布直接对词共现进行建模,训练语料中的所有短文本共享所述主题分布,这不同于传统的主题模型(比如latent Dirichlet allocation,LDA)如图2b所示,对短文本的生成过程进行建模,每一条短文本都独立地抽取一个主题分布。
步骤1.3,对每一个主题,抽取一个关键词分布作为对所述主题的表示。是长度为V的向量,每一个元素表示对应关键词属于所述主题的概率,或者对应的关键词对所述主题的贡献大小,其中V是关键词词典的大小。
步骤1.4,为了对训练集中的二元词组bt={wi,wj}进行建模,首先抽取一个特定的主题z~Multi(θ),然后在所述主题下连续抽取两个关键词所述二元词组的联合分布可以写为,
最后,考虑到每一个二元词组都是从一个特定的主题下独立地抽取,因此当狄利克雷超参数已知的情况下,整个训练语料的似然分布可以写为,
表1
步骤2,采用基于主题概率分布的指数变换排序方法,对每一个主题下的关键词分布进行重排序,获得重排序的主题表示;
一个主题Z是由一系列语义相关的关键词组成的词袋所表征,而所述主题的语义信息正是由这些排列靠前的关键词进行定义。而由于多义词和同义词的影响,直接基于主题Z的分布对关键词进行排序,难以得到与所述主题在语义上高度一致的结果,其中 如图3a所示,很多关键词同时与多个主题相关联,存在严重的语义敏感性问题。关键词和所属的主题数之间存在幂律分布关系,如图4所示,当主题数k=100时,一个关键词最多可同时属于17个主题。在短文本分类任务中,这些关键词被认为是噪声信息,而难以靠简单的去停用词对这部分信息进行屏蔽。
为了解决这个问题,本发明方法提出对每一个主题下关键词的分布 进行指数变换得到类似于tfidf的关键词频数特征,然后对每一个关键词估计一个显著度值,
其中,是主题Z下第i个关键词的概率分布值。
基于所述显著度值对主题模型抽取的关键词词典进行重排序,结果如表2所示,每一行代表一个主题下的关键词分布,同时对应于图3b中的一个团簇。对比可见,图3b较图3a的链接关系有明显改善,即本发明所提的关键词重排序方法能够有效提高主题的显著性。
表2
步骤3,基于重排序的主题表示,对于每一个主题,选择前N个关键词生成由候选关键词构成的候选关键词词典,并构建主题-关键词语义图谱;
从图3b中观察可见,经过重排序后,主题-关键词之间的链接关系变得更加显著,但是还是有不少关键词同时与多个主题相关联。这部分关键词并不能为分类任务贡献有力地鉴别信息。为了解决这个问题,本发明方法提出通过构建主题-关键词图谱,进一步挖掘潜在的链接结构信息,对主题模型提取的语义信息进行增强。
基于重排序的主题表示,对于每一个主题,该方法选择前N个关键词作为叶子节点,相应的主题索引作为父亲节点生成一个团簇,如图3所示,所有的主题最终生成一个有向的二分主题-关键词语义图谱,所述图谱的所有叶子节点构成一个关键词词典,其大小不超过主题模型所生成词袋大小的40%,用户对所述目标短文本进行种子关键词的过滤。图3c是所述构建的主题-关键词语义图谱的部分连接结构,连接边上的权值ai,j是词典中第j个关键词对第i个主题的贡献量,由公式(4)计算得出,所述语义图谱的连接结构作为一个模块在本方法流程中加以应用。其中,每一个叶子节点都有一个k维的主题概率向量对应于矩阵的第j列,可用于表示第j个关键词对每一个主题的归属度。本发明所提主题-关键词语义图谱构建方法,在尽量保证主题信息量的前提下,有效减少了图谱中节点的总数目,使得随机游走模型在训练过程中效率更高。
步骤4,采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文本进行过滤,将匹配到的短语作为种子关键词,利用主题-关键词语义图谱,候选关键词词典中所有元素的相似度,提取前V个最相似的候选关键词对所述种子关键词进行扩展。
针对分类任务的特性,短文本特征的理想扩展信息是那些主题意义显著的关键词,对于同时属于多个主题的关键词被认为是噪声或者不能够提供有力的鉴别信息。对所述短文本的扩展,又可分为以下步骤:
步骤4.1,利用步骤3中构建的关键词词典,对短文本进行过滤;首先对所述短文本进行预处理,包括对于中文语料进行分词,英文语料进行词干化等,然后去停用词。最后,利用所述关键词词典对所述处理后的短文本中的短语进行匹配,匹配到的短语作为种子关键词sw;为了 进一步的优化,可以选取种子关键词时,对种子关键词所属主题数目进行统计,如果所属主题数目大于一定阈值,应将种子关键词剔除。
步骤4.2,基于所述主题-关键词语义图谱,使用链接分析的方法计算关键词的结构相似度。
基于链接分析的结构相似度计算方法SimRank,假设在语义图谱的连接结构中,任意两个节点如果链接到同一个节点,那么它们是相似的,而且这种相似具有传递性。SimRank是一种迭代计算的随机游走算法,通过挖掘图的结构信息计算节点对的相似度评分。基于所述思想,本发明提出一种基于主题-关键词语义图谱的关键词对的结构相似度计算方法。
如图3c所示,对于二分图中的任意一个叶子节点w,其入度节点的集合表示为I(w),每一个入度节点为Ii(w),其中,1≤i≤|I(w)|。然后,关键词节点wa和wb之间的SimRank评分可由下式计算得到,
其中,C∈(0.1)是相似度传播的衰减因子。特别的,当|I(wa)|=0或者|I(wb)|=0时,定义SimRank评分等于0。由公式(5)可以看出,所述SimRank计算公式具有对称性,满足其它相似度计算方法的共性s(wa,wb)=s(wb,wa)。此外,SimRank是一种迭代的固定点算法,其时间复杂度是O(lnd),其中l是迭代次数,n是图中的节点个数,d是叶子节点的平均入度数。
图3c中,如前所述,主题-关键词链接边上的权值是显著度值,可表示该关键词对当前主题的贡献大小。然而,传统的SimRank算法只是挖掘节点之间的链接信息,不能充分利用这些重要的权值信息去选择 最具表达能力的关键词,以完成对短文本的特征扩展。因此,本发明方法提出一种对SimRank改进的算法,称为主题SimRank,如下式,
SR(wa,wb)=SAS(wa)SAS(wb)s(wa,wb) (6)
依据公式(6),本实施例中计算种子关键词和候选关键词词典中所有元素的结构相似度的公式为,
SR(swi,cwj)=SAS(swi)SAS(cwj)s(swi,cwj) (7)
其中,swi是目标短文本中第i个种子关键词,cwj是候选关键词词典中第j个候选关键词,SAS(swi)为swi的显著度值,SAS(cwj)为cwj的显著度值,s(swi,cwj)是传统基于链接分析的结构相似度计算方法的计算值。
在测试数据集上的实验表明,基于本发明提出的主题SimRank计算方法,在图3c中,可以得到w2比w1更相似与wi,因为w1同时属于多个主题,其对于相似度的贡献被多条链接路径分享。这种特性恰好可用于解决关键词的多义性问题,使得同一个主题下的关键词分布进一步得到纯化,同时对于步骤2和步骤3中提出的问题在一定程度上得到弥补,在对短文本进行关键词扩展时也可以减少噪声的引入。
步骤4.3,计算种子关键词和候选关键词词典中所有元素的语义相似度。
如步骤3中所述,主题-关键词语义图谱的每一个叶子节点都对应一个主题分布向量可以刻画该关键词对每一个主题的归属度。为了从所述关键词词典中选择出可靠的候选关键词cw,以完成对种子关键词sw的扩展,本发明方法提出利用计算所述候选关键词和种子关键词的K-L(Kullback-Leibler)散度,以度量它们的语义相似度,如下式,
其中, 是swi对应的主题分布向量,是cwj对应的主题分布向量。由上式可见,KL(swi,cwj)也是对称的,便于和公式(6)进行融合。
步骤4.4,,综合结构相似度和语义相似度对关键词进行综合评分,对短文本中出现的关键词进行扩展,以完成短文本特征表示的增强。
为了对所述种子关键词sw和候选关键词cw进行综合语义量化,本发明方法提出将公式(6)和公式(8)进行融合,如下式,
对于每一个种子关键词,利用公式(9)计算它与所有候选关键词的综合评分,并作降序排列,选择前v个候选关键词作为对所述种子关键词的扩展。
综上所述,在完成对短文本中出现的所有种子关键词的扩展后,就得到了所述短文本的扩展特征表示,下一步通过特征选择和特征数值量化即可得到所述短文本的最终特征表示向量。
为了全面准确的评估本发明所提出的方法的性能,本发明基于Search snippets数据集进行测试。其中,Search snippets是网页的搜索片段数据集,共包含8类,文本平均长度18.07个词语,数据集共包含训练样本10060条文本,以及2280条测试文本。
基于Search snippets数据集,对短文本进行特征表示后,采用最大熵分类器(Maximum Entropy Classifier)和LibSVM分类器作为评测工具。分别改变主题模型的主题个数k和对于每一个种子关键词的特征扩展数v,得到的分类结果对比曲线图如图5a和图5b所示。当主题数k=10,扩展数v=9时,本发明方法获得86.78%的识别率,同以往方法相比至少降低错识率10.01%。本发明方法的耗时对比曲线如图6所示。
综上所述,本发明提出的一种基于语义图谱的短文本特征扩展方法, 能充分挖掘训练数据集中的潜在语义信息,以完成对短文本特征表示的扩展,有效缓解短文本在特征表示上固有的稀疏性和语义敏感性问题。基于真实数据集的测试,证明了本发明较以往方法,能够大幅增强短文本的特征表示能力,并能够进一步提高短文本分类任务的精度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于语义图谱的短文本特征扩展方法,其特征在于,包括以下步骤:
步骤1,使用短文本训练数据集进行主题建模,提取每一个主题下的关键词概率分布;
步骤2,采用基于主题概率分布的指数变换排序方法,对每一个主题下的关键词分布进行重排序,获得重排序的主题表示;
步骤3,基于重排序的主题表示,对于每一个主题,选择前N个关键词生成由候选关键词构成的候选关键词词典,并构建主题-关键词语义图谱;
步骤4,采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文本进行过滤,将匹配到的短语作为种子关键词,利用主题-关键词语义图谱,候选关键词词典中所有元素的相似度,提取前V个最相似的候选关键词对所述种子关键词进行扩展;
步骤2中基于主题概率分布的指数变换排序方法,其评分计算方法是对每一个主题下关键词的分布进行指数变换然后对每一个关键词估计一个显著度值
公式为
其中,是主题Z下第i个关键词的概率分布值,K是总的主题个数。
2.根据权利要求1所述的方法,其特征在于,步骤3中主题-关键词语义图谱构建方法为:
步骤3.1:对于每一个重排序的主题,选择前N个关键词作为候选关键词,所有主题的候选关键词构成候选关键词词典;
步骤3.2,将每一个主题选取的候选关键词作为叶子节点,相应的主题索引作为父亲节点,生成一个有向二分图的团簇,所有的主题构成一个主题-关键词语义图谱;
步骤3.3,将步骤2中计算所得显著度值,设置为主题-关键词语义图谱中父亲节点指向叶子节点的连接边上的权值。
3.根据权利要求1或2中任一项所述的方法,其特征在于,种子关键词和候选关键词的相似度的计算包括以下步骤:
步骤4.1:计算种子关键词和候选关键词词典中所有元素的结构相似度,公式为.
SR(swi,cwj)=SAS(swi)SAS(cwj)s(swi,cwj)
其中,swi是目标短文本中第i个种子关键词,cwj是候选关键词词典中第j个候选关键词,SAS(swi)为swi的显著度值,SAS(cwj)cwj为cwj的显著度值,s(swi,cwj)是传统基于链接分析的结构相似度计算方法计算的swi与cwj的相似度的值,SR(swi,cwj)是计算出的swi与cwj结构相似度的值;
步骤4.2:计算种子关键词和候选关键词词典中所有元素的语义相似度,包括如下步骤:
a、提取swi对应的主题分布向量提取cwj对应的主题分布向量
b、利用和计算种子关键词和候选关键词的K-L散度,并以该值作为语义相似度;
步骤4.3:综合结构相似度和语义相似度对关键词进行综合评分,公式为
<mrow>
<mi>C</mi>
<mi>S</mi>
<mi>c</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>sw</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>cw</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>S</mi>
<mi>R</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>sw</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>cw</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>K</mi>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>sw</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>cw</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,KL(swi,cwj)是种子关键词swi和候选关键词cwj之间的K-L散度,CScore(swi,cwj)是计算出的swi与cwj结构相似度和语义相似度的综合评分。
4.根据权利要求3所述的方法,其特征在于,选取种子关键词时,对种子关键词所属主题数目进行统计,如果所属主题数目大于一定阈值,应将种子关键词剔除。
5.根据权利要求4所述的方法,其特征在于,步骤1中的建模方法为采用基于二元词组的主题模型直接对短文本数据集中的词共现进行建模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410686237.XA CN104391942B (zh) | 2014-11-25 | 2014-11-25 | 基于语义图谱的短文本特征扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410686237.XA CN104391942B (zh) | 2014-11-25 | 2014-11-25 | 基于语义图谱的短文本特征扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104391942A CN104391942A (zh) | 2015-03-04 |
CN104391942B true CN104391942B (zh) | 2017-12-01 |
Family
ID=52609846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410686237.XA Active CN104391942B (zh) | 2014-11-25 | 2014-11-25 | 基于语义图谱的短文本特征扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104391942B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765769B (zh) * | 2015-03-06 | 2018-04-27 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN104820724B (zh) * | 2015-05-29 | 2017-12-08 | 蓝舰信息科技南京有限公司 | 文本类教育资源知识点预测模型获得方法及模型应用方法 |
CN105653706B (zh) * | 2015-12-31 | 2018-04-06 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
CN105488033B (zh) * | 2016-01-26 | 2018-01-02 | 中国人民解放军国防科学技术大学 | 关联计算的预处理方法及装置 |
CN105808768B (zh) * | 2016-03-19 | 2019-03-26 | 浙江大学 | 一种基于图书的概念-描述词知识网络的构建方法 |
CN105893551B (zh) * | 2016-03-31 | 2019-03-05 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN106294662A (zh) * | 2016-08-05 | 2017-01-04 | 华东师范大学 | 基于上下文感知主题的查询表示及混合检索模型建立方法 |
CN106355429A (zh) * | 2016-08-16 | 2017-01-25 | 北京小米移动软件有限公司 | 图像素材的推荐方法及装置 |
CN106897262A (zh) * | 2016-12-09 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置以及处理方法和装置 |
CN107122494B (zh) * | 2017-05-22 | 2020-06-26 | 南京大学 | 基于社团发现的主题模型构建方法 |
CN107229731B (zh) * | 2017-06-08 | 2021-05-25 | 百度在线网络技术(北京)有限公司 | 用于分类数据的方法和装置 |
CN107463552A (zh) * | 2017-07-20 | 2017-12-12 | 北京奇艺世纪科技有限公司 | 一种生成视频主题名称的方法和装置 |
CN110069669B (zh) * | 2017-12-01 | 2021-08-24 | 北京搜狗科技发展有限公司 | 一种关键词标记方法和装置 |
CN108038627B (zh) * | 2017-12-27 | 2022-06-07 | 科大讯飞股份有限公司 | 一种对象评估方法及装置 |
CN109086375B (zh) * | 2018-07-24 | 2021-10-22 | 武汉大学 | 一种基于词向量增强的短文本主题抽取方法 |
CN109271514B (zh) * | 2018-09-14 | 2022-03-15 | 华南师范大学 | 短文本分类模型的生成方法、分类方法、装置及存储介质 |
CN110969022B (zh) * | 2018-09-29 | 2023-10-27 | 北京国双科技有限公司 | 语义确定方法及相关设备 |
CN109543034B (zh) * | 2018-11-07 | 2021-07-16 | 中山大学 | 基于知识图谱的文本聚类方法、装置及可读存储介质 |
US11568266B2 (en) * | 2019-03-15 | 2023-01-31 | Baidu Usa Llc | Systems and methods for mutual learning for topic discovery and word embedding |
CN110188204B (zh) * | 2019-06-11 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110309154B (zh) * | 2019-06-28 | 2021-06-29 | 京东数字科技控股有限公司 | 基于图谱的实体特征选择方法、装置、设备和存储介质 |
CN110390061B (zh) * | 2019-07-29 | 2020-07-21 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN110889443A (zh) * | 2019-11-21 | 2020-03-17 | 成都数联铭品科技有限公司 | 无监督文本分类系统及方法 |
CN111078884B (zh) * | 2019-12-13 | 2023-08-15 | 北京小米智能科技有限公司 | 一种关键词提取方法、装置及介质 |
CN111291573A (zh) * | 2020-01-21 | 2020-06-16 | 高小翎 | 有向图意义导向模型驱动的短语语义挖掘方法 |
CN111639486A (zh) * | 2020-04-30 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 段落搜索方法、装置、电子设备及存储介质 |
CN111832308B (zh) * | 2020-07-17 | 2023-09-08 | 思必驰科技股份有限公司 | 语音识别文本连贯性处理方法和装置 |
CN112100399B (zh) * | 2020-09-09 | 2023-12-22 | 杭州凡闻科技有限公司 | 基于知识体系的知识图谱模型的创建方法及图谱检索方法 |
CN112270615A (zh) * | 2020-10-26 | 2021-01-26 | 西安邮电大学 | 基于语义计算的复杂装备制造bom智能分解方法 |
CN113114986B (zh) * | 2021-03-30 | 2023-04-28 | 深圳市冠标科技发展有限公司 | 基于画面和声音同步的预警方法及相关设备 |
CN114970523B (zh) * | 2022-05-20 | 2022-11-29 | 浙江省科技信息研究院 | 一种基于文本语义增强的主题提示式关键词提取方法 |
CN116842148B (zh) * | 2023-05-17 | 2023-12-05 | 北京易聊科技有限公司 | 无标注语料下的问答自动抽取方法及系统 |
CN116738054A (zh) * | 2023-06-19 | 2023-09-12 | 联洋国融(上海)科技有限公司 | 一种结合用户意图的文本深度分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030084245A (ko) * | 2002-04-26 | 2003-11-01 | 문성업 | 인터넷검색엔진과 연계한 역 탐색기의 구현 방법 |
CN101477566A (zh) * | 2009-01-19 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种用于候选主题词广告投放的方法及装置 |
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101730835B (zh) * | 2007-06-20 | 2014-02-12 | 关西涂料株式会社 | 涂料颜色数据库的创建方法、使用数据库的检索方法、及其系统、程序和记录介质 |
-
2014
- 2014-11-25 CN CN201410686237.XA patent/CN104391942B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030084245A (ko) * | 2002-04-26 | 2003-11-01 | 문성업 | 인터넷검색엔진과 연계한 역 탐색기의 구현 방법 |
CN101477566A (zh) * | 2009-01-19 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种用于候选主题词广告投放的方法及装置 |
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104391942A (zh) | 2015-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
Hidayat et al. | Sentiment analysis of twitter data related to Rinca Island development using Doc2Vec and SVM and logistic regression as classifier | |
CN106777274B (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN103235772B (zh) | 一种文本集人物关系自动提取方法 | |
CN103473280B (zh) | 一种网络可比语料的挖掘方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN103150381B (zh) | 一种高精度汉语谓词识别方法 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
CN112131872A (zh) | 一种文献作者重名消歧方法和构建系统 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN106202032A (zh) | 一种面向微博短文本的情感分析方法及其系统 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN106202543A (zh) | 基于机器学习的本体匹配方法和系统 | |
CN103049569A (zh) | 基于向量空间模型的文本相似性匹配方法 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN105205124A (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN106202039B (zh) | 基于条件随机场的越南语组合词消歧方法 | |
CN107092675A (zh) | 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法 | |
Sadr et al. | Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |