CN104391942B

CN104391942B - 基于语义图谱的短文本特征扩展方法

Info

Publication number: CN104391942B
Application number: CN201410686237.XA
Authority: CN
Inventors: 徐博; 王鹏; 王方圆; 张恒; 郝红卫
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-11-25
Filing date: 2014-11-25
Publication date: 2017-12-01
Anticipated expiration: 2034-11-25
Also published as: CN104391942A

Abstract

本发明公开了一种基于语义图谱的短文本特征扩展方法，包括以下步骤：利用短文本训练数据集进行主题建模，抽取主题词分布；对主题词分布进行重排序；构建候选关键词词典和主题‑关键词语义图谱；基于链接分析的方法计算候选关键词和种子关键词的综合相似度评价，选择最相似的候选关键词完成对短文本的扩展。本发明方法较基于语言模型的短文本特征表示方法操作简单，执行效率高，而且充分利用关键词之间的语义关联信息，较传统的基于词袋模型的短文本特征表示方法，有效缓解了数据稀疏性问题和语义敏感性问题，不依赖于外部大规模辅助训练语料或者搜索引擎。

Description

基于语义图谱的短文本特征扩展方法

技术领域

本发明涉及文本挖掘技术领域，是一种基于主题-关键词语义图谱和链接分析的短文本特征扩展方法，可应用于短文本分类、聚类任务中的特征表示，并最终应用于知识问答，用户意图理解和智能检索等子领域。

背景技术

随着大数据时代的到来，互联网以及各种移动终端都产生了大量的短文本信息，比如网页检索片段、微博、产品评论、新闻标题以及各种微信息等，而特定用户所关注的有用信息也被海量的资源所湮没。如何让系统智能管理和更好的使用这些海量的数据资源，面临着巨大的挑战。因此一种高精度的短文本分类方法可以帮助系统加深对短文本内容的理解，对于构建智能网络和智能系统有重要作用。短文本特征扩展是实现短文本特征有效表示的一种必要手段，短文本的高精度自动分类是文本挖掘领域中一个重要的子问题。与其紧密相关的技术领域包括：知识问答、用户意图理解、智能信息检索等。目前，短文本分类任务的一个显著特征是总体数据量巨大，但是由于短文本长度的限制，其包含的词共现和上下文信息不足。传统的特征表示方法和分类模型面临严重的数据稀疏性问题，同时由于受到同义词和多义词的影响，快速准确的进行短文本的自动分类，仍然是一项极具挑战性的技术。因此，如何获得短文本特征的有效表示并改善其分类性能是一个亟待解决的问题。

针对海量短文本的自动分类技术展开的各项研究，主要是集中在如何选取更好的特征表达上，以解决由于短文本自身特性所造成的稀疏性和歧义性问题。目前，短文本特征的表示方法大体上可分为两种，一种是使用语言模型将短文本在特征空间中映射为有效的特征向量；另一种是对短文本内容进行信息扩展，然后基于词袋模型对短文本特征进行表示。

基于语言模型的短文本特征表示，主要是利用深度学习算法先对词进行向量表示，然后再合成句子，或者直接对句子进行向量表示。但是该方法模型繁琐，执行复杂度较高，而且在句子层面的特征表示尚不能满足应用需求。传统的词袋模型在对短文本进行特征表示时，简单易操作，而且时间复杂度较低，但是存在严重的数据稀疏性问题，而且忽略了词语之间的语义信息。此外，主题上很相关的短文本可能含有非常少的重叠关键词，导致短文本之间的相似度难以有效计算，将直接影响分类任务的性能。目前针对该问题，主流的技术主要是使用潜在的语义信息或者相关的关键词对短文本进行信息扩展。而这些扩展信息的获得往往需要大规模的外部辅助语料或者借助搜索引擎，其中辅助训练语料和目标短文本数据集要求具有语义一致性。然而这些大规模训练语料的收集是很耗时耗力的。基于搜索引擎的特征扩展方法，首先是提取短文本中出现的关键词作为Query，通过搜索引擎进行检索，然后将返回的结果作为扩展信息。但是这种方法的时间复杂度很大，特别是在处理海量短文本时，是不可取的。

综上所述，基于传统词袋模型的短文本特征表示技术主要存在以下两个问题：一是短文本中词共现不足，以及关键词出现在不同的上下文环境中表达不同的语义，即短文本在特征表示时存在数据稀疏性和语义敏感性问题；二是依赖外部大规模的辅助训练语料或者搜索引擎，而外部训练语料要求与目标数据集具有语义一致性，这一点使其难以搜集。基于搜索引擎的方法时间复杂度较大，难以适应海量数据或者在线数据的处理。这些问题都使得短文本的相似度计算面临着巨大困难，严重影响分类任务的性能。本发明提出一种短文本特征的扩展方法，可以在很大程度上弥补传统词袋模型的缺点，并进一步改善短文本分类的性能。

发明内容

针对上述两个主要问题，本发明提出了一种基于语义图谱的短文本特征扩展方法，解决了传统词袋模型对短文本特征表示中的数据稀疏性问题和语义敏感性问题，并最终改善短文本的分类性能。

本发明所提出的一种基于语义图谱的短文本特征扩展方法包括以下步骤：

步骤1，使用短文本训练数据集进行主题建模，提取每一个主题下的关键词概率分布；

步骤2，采用基于主题概率分布的指数变换排序方法，对每一个主题下的关键词分布进行重排序，获得重排序的主题表示；

步骤3，基于重排序的主题表示，对于每一个主题，选择前N个关键词生成由候选关键词构成的候选关键词词典，并构建主题-关键词语义图谱；

步骤4，采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文本进行过滤，将匹配到的短语作为种子关键词，利用主题-关键词语义图谱，候选关键词词典中所有元素的相似度，提取前V个最相似的候选关键词对所述种子关键词进行扩展。

优选的，步骤2中基于主题概率分布的指数变换排序方法，其评分计算方法是对每一个主题下关键词的分布进行指数变换然后对每一个关键词估计一个显著度值SAS，公式为

其中，是主题Z下第i个关键词的概率分布值，K是总的主题个数。

优选的，步骤3中主题-关键词语义图谱构建方法为：

步骤3.1：对于每一个重排序的主题，选择前N个关键词作为候选关键词，所有主题的候选关键词构成候选关键词词典；

步骤3.2，将每一个主题选取的候选关键词作为叶子节点，相应的主题索引作为父亲节点，生成一个有向二分图的团簇，所有的主题构成一个主题-关键词语义图谱；

步骤3.3，将步骤2中计算所得显著度值，设置为主题-关键词语义图谱中父亲节点指向叶子节点的连接边上的权值。

优选的，种子关键词和候选关键词的相似度的计算包括以下步骤：

步骤4.1：计算种子关键词和候选关键词词典中所有元素的结构相似度，公式为，

SR(sw_i，cw_j)＝SAS(sw_i)SAS(cw_j)s(sw_i，cw_j)

其中，sw_i是目标短文本中第i个种子关键词，cw_j是候选关键词词典中第j个候选关键词，SAS(sw_i)为sw_i的显著度值，SAS(cw_j)为s_wi的显著度值，s(sw_i，cw_j)是传统基于链接分析的结构相似度计算方法计算的sw_i与cw_j的相似度的值，SR(sw_i，cw_j)是计算出的sw_i与cw_j结构相似度的值。

步骤4.2：计算种子关键词和候选关键词词典中所有元素的语义相似度，包括如下步骤：

a、提取sw_i对应的主题分布向量提取cw_j对应的主题分布向量

b、利用和计算种子关键词和候选关键词的K-L散度，并以该值作为语义相似度；

步骤4.3：综合结构相似度和语义相似度对关键词进行综合评分，公式为

其中，KL(sw_i，cw_j)是种子关键词sw_i和候选关键词cw_j之间的K-L散度，CScore(sw_i，cw_j)是计算出的sw_i与cw_j结构相似度和语义相似度的综合评分。

优选的，选取种子关键词时，对种子关键词所属主题数目进行统计，如果所属主题数目大于一定阈值，应将种子关键词剔除。

优选的，步骤1中的建模方法为采用基于二元词组的主题模型直接对短文本数据集中的词共现进行建模。

本发明所提出的一种基于语义图谱的短文本特征扩展方法，首先基于短文本数据集训练主题模型，得到一个关键词词典和对应的主题分布，经重排序后构建主题-关键词语义图谱。然后利用所述关键词词典对目标短文本进行关键词过滤，得到数目较少而且主题集中的种子关键词，同时可以滤除98％以上的停用词，有效降低了噪声对分类任务的影响。最后基于所述主题-关键词语义图谱，使用链接分析的方法选择有效的候选关键词对目标短文本进行扩展。本发明不依赖于外部大规模辅助训练语料，通过对目标短文本中出现的少量种子关键词进行扩展，在保证主题集中的前提下，在一定程度上有效解决短文本特征表示中的稀疏性问题和语义敏感性问题，并最终改善短文本的分类性能。本发明主要针对短文本的特征表示进行语义扩展，并应用于短文本分类、聚类等任务，但是对于知识问答、用户意图理解、智能检索等其他相关领域亦具有借鉴意义。

附图说明

图1是本发明一种基于语义图谱的短文本特征扩展方法的流程图。

图2a是本发明方法的主题模型结构图。

图2b是传统的主题模型结构图。

图3a是传统方法构建的主题-关键词语义图谱。

图3b是本发明中构建的主题-关键词语义图谱。

图3c是本发明构建的语义图谱的部分连接结构。

图4是本发明方法的主题-关键词幂律分布曲线图。

图5a是本发明方法在测试数据集上的精度-主题数对比曲线图。

图5b是本发明在测试数据集上的精度-关键词扩展数对比曲线图。

图6是本发明方法在测试数据集上运行耗时-主题数曲线关系图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提出了一种基于语义图谱的短文本特征扩展方法，具体为基于主题-关键词语义图谱和链接分析的短文本特征扩展方法，能在一定程度上充分挖掘主题词之间的语义关系，可以快速、准确的提取和种子关键词最相关的信息，完成对目标短文本特征表示的扩展。本发明的基本特征主要有以下六个方面：一是不依赖与外部大规模辅助训练语料，直接使用短文本数据集进行主题建模，提高建模效率，以及确保模型和目标数据的语义一致性；二是提出一种基于主题概率分布的指数变换排序方法，对每一个主题下的关键词分布进行重排序，使得每一个主题表示更加显著；三是提出并应用了一种主题-关键词语义图谱的构建方法，可以直观的展现每一个关键词和主题的归属关系以及归属度大小，能够反映关键词之间的语义关联，同时适合随机游走模型的训练；四是提出一种基于链接分析的加权结构相似度计算方法，其时间复杂度为O(knd)，该算法通过自动挖掘主题-关键词之间的链接关系得到关键词之间的结构相似度；五是在训练阶段将词典中所有关键词之间的结构相似度计算完毕，使得在测试阶段对目标短文本的特征扩展效率大幅度提升；六是基于主题的概率分布计算关键词之间的K-L散度，作为对所述结构相似度的补充，更准确的提取候选关键词以完成对目标短文本的特征表示进行扩展；实验证明，与其它方法相比，本发明所提方法，能够在保证短文本特征扩展效率的前提下，进一步提高短文本分类的准确度。

本发明的目的在于，从短文本的训练数据集中提取语义相关的关键词对测试数据集中的短文本的特征表示进行扩展，以解决传统词袋模型对短文本特征表示中的数据稀疏性问题和语义敏感性问题，并最终改善短文本的分类性能。

如图1所示，本实施例包括以下步骤：

由于短文本不同于普通的长文本，其长度有限，不能包含足够的上下文信息，以及词共现信息，因此本发明采用基于二元词组的主题模型(Biterm Topic Model，BTM)直接对整个训练语料(即短文本数据集)中的词共现进行建模，以有效降低数据稀疏性对主题建模的影响。所述主题模型假设整个训练语料可以被建模为多个主题的混合模型，每一个二元词组独立的从某个确定的主题中抽取。表1是所述主题模型中使用的参数及定义说明，如图2a所示，对短文本的建模过程进一步包括以下步骤：

步骤1.1，提取训练语料中每一条短文本的二元词组构建训练数据集BT，同时初始化主题数K，狄利克雷分布超参数α，β。

步骤1.2，基于整个训练语料抽取一个主题分布θ～Dir(α)。

所述主题分布直接对词共现进行建模，训练语料中的所有短文本共享所述主题分布，这不同于传统的主题模型(比如latent Dirichlet allocation，LDA)如图2b所示，对短文本的生成过程进行建模，每一条短文本都独立地抽取一个主题分布。

步骤1.3，对每一个主题，抽取一个关键词分布作为对所述主题的表示。是长度为V的向量，每一个元素表示对应关键词属于所述主题的概率，或者对应的关键词对所述主题的贡献大小，其中V是关键词词典的大小。

步骤1.4，为了对训练集中的二元词组bt＝{w_i，w_j}进行建模，首先抽取一个特定的主题z～Multi(θ)，然后在所述主题下连续抽取两个关键词所述二元词组的联合分布可以写为，

最后，考虑到每一个二元词组都是从一个特定的主题下独立地抽取，因此当狄利克雷超参数已知的情况下，整个训练语料的似然分布可以写为，

表1

一个主题Z是由一系列语义相关的关键词组成的词袋所表征，而所述主题的语义信息正是由这些排列靠前的关键词进行定义。而由于多义词和同义词的影响，直接基于主题Z的分布对关键词进行排序，难以得到与所述主题在语义上高度一致的结果，其中如图3a所示，很多关键词同时与多个主题相关联，存在严重的语义敏感性问题。关键词和所属的主题数之间存在幂律分布关系，如图4所示，当主题数k＝100时，一个关键词最多可同时属于17个主题。在短文本分类任务中，这些关键词被认为是噪声信息，而难以靠简单的去停用词对这部分信息进行屏蔽。

为了解决这个问题，本发明方法提出对每一个主题下关键词的分布进行指数变换得到类似于tfidf的关键词频数特征，然后对每一个关键词估计一个显著度值，

其中，是主题Z下第i个关键词的概率分布值。

基于所述显著度值对主题模型抽取的关键词词典进行重排序，结果如表2所示，每一行代表一个主题下的关键词分布，同时对应于图3b中的一个团簇。对比可见，图3b较图3a的链接关系有明显改善，即本发明所提的关键词重排序方法能够有效提高主题的显著性。

表2

从图3b中观察可见，经过重排序后，主题-关键词之间的链接关系变得更加显著，但是还是有不少关键词同时与多个主题相关联。这部分关键词并不能为分类任务贡献有力地鉴别信息。为了解决这个问题，本发明方法提出通过构建主题-关键词图谱，进一步挖掘潜在的链接结构信息，对主题模型提取的语义信息进行增强。

基于重排序的主题表示，对于每一个主题，该方法选择前N个关键词作为叶子节点，相应的主题索引作为父亲节点生成一个团簇，如图3所示，所有的主题最终生成一个有向的二分主题-关键词语义图谱，所述图谱的所有叶子节点构成一个关键词词典，其大小不超过主题模型所生成词袋大小的40％，用户对所述目标短文本进行种子关键词的过滤。图3c是所述构建的主题-关键词语义图谱的部分连接结构，连接边上的权值a_i，j是词典中第j个关键词对第i个主题的贡献量，由公式(4)计算得出，所述语义图谱的连接结构作为一个模块在本方法流程中加以应用。其中，每一个叶子节点都有一个k维的主题概率向量对应于矩阵的第j列，可用于表示第j个关键词对每一个主题的归属度。本发明所提主题-关键词语义图谱构建方法，在尽量保证主题信息量的前提下，有效减少了图谱中节点的总数目，使得随机游走模型在训练过程中效率更高。

针对分类任务的特性，短文本特征的理想扩展信息是那些主题意义显著的关键词，对于同时属于多个主题的关键词被认为是噪声或者不能够提供有力的鉴别信息。对所述短文本的扩展，又可分为以下步骤：

步骤4.1，利用步骤3中构建的关键词词典，对短文本进行过滤；首先对所述短文本进行预处理，包括对于中文语料进行分词，英文语料进行词干化等，然后去停用词。最后，利用所述关键词词典对所述处理后的短文本中的短语进行匹配，匹配到的短语作为种子关键词s^w；为了进一步的优化，可以选取种子关键词时，对种子关键词所属主题数目进行统计，如果所属主题数目大于一定阈值，应将种子关键词剔除。

步骤4.2，基于所述主题-关键词语义图谱，使用链接分析的方法计算关键词的结构相似度。

基于链接分析的结构相似度计算方法SimRank，假设在语义图谱的连接结构中，任意两个节点如果链接到同一个节点，那么它们是相似的，而且这种相似具有传递性。SimRank是一种迭代计算的随机游走算法，通过挖掘图的结构信息计算节点对的相似度评分。基于所述思想，本发明提出一种基于主题-关键词语义图谱的关键词对的结构相似度计算方法。

如图3c所示，对于二分图中的任意一个叶子节点w，其入度节点的集合表示为I(w)，每一个入度节点为I_i(w)，其中，1≤i≤|I(w)|。然后，关键词节点w_a和w_b之间的SimRank评分可由下式计算得到，

其中，C∈(0.1)是相似度传播的衰减因子。特别的，当|I(w_a)|＝0或者|I(w_b)|＝0时，定义SimRank评分等于0。由公式(5)可以看出，所述SimRank计算公式具有对称性，满足其它相似度计算方法的共性s(w_a，w_b)＝s(w_b，w_a)。此外，SimRank是一种迭代的固定点算法，其时间复杂度是O(lnd)，其中l是迭代次数，n是图中的节点个数，d是叶子节点的平均入度数。

图3c中，如前所述，主题-关键词链接边上的权值是显著度值，可表示该关键词对当前主题的贡献大小。然而，传统的SimRank算法只是挖掘节点之间的链接信息，不能充分利用这些重要的权值信息去选择最具表达能力的关键词，以完成对短文本的特征扩展。因此，本发明方法提出一种对SimRank改进的算法，称为主题SimRank，如下式，

SR(w_a，w_b)＝SAS(w_a)SAS(w_b)s(w_a，w_b) (6)

依据公式(6)，本实施例中计算种子关键词和候选关键词词典中所有元素的结构相似度的公式为，

SR(sw_i，cw_j)＝SAS(sw_i)SAS(cw_j)s(sw_i，cw_j) (7)

其中，sw_i是目标短文本中第i个种子关键词，cw_j是候选关键词词典中第j个候选关键词，SAS(sw_i)为sw_i的显著度值，SAS(cw_j)为cw_j的显著度值，s(sw_i，cw_j)是传统基于链接分析的结构相似度计算方法的计算值。

在测试数据集上的实验表明，基于本发明提出的主题SimRank计算方法，在图3c中，可以得到w₂比w₁更相似与w_i，因为w₁同时属于多个主题，其对于相似度的贡献被多条链接路径分享。这种特性恰好可用于解决关键词的多义性问题，使得同一个主题下的关键词分布进一步得到纯化，同时对于步骤2和步骤3中提出的问题在一定程度上得到弥补，在对短文本进行关键词扩展时也可以减少噪声的引入。

步骤4.3，计算种子关键词和候选关键词词典中所有元素的语义相似度。

如步骤3中所述，主题-关键词语义图谱的每一个叶子节点都对应一个主题分布向量可以刻画该关键词对每一个主题的归属度。为了从所述关键词词典中选择出可靠的候选关键词c_w，以完成对种子关键词s_w的扩展，本发明方法提出利用计算所述候选关键词和种子关键词的K-L(Kullback-Leibler)散度，以度量它们的语义相似度，如下式，

其中，是sw_i对应的主题分布向量，是cw_j对应的主题分布向量。由上式可见，KL(sw_i，cw_j)也是对称的，便于和公式(6)进行融合。

步骤4.4，，综合结构相似度和语义相似度对关键词进行综合评分，对短文本中出现的关键词进行扩展，以完成短文本特征表示的增强。

为了对所述种子关键词s_w和候选关键词c_w进行综合语义量化，本发明方法提出将公式(6)和公式(8)进行融合，如下式，

对于每一个种子关键词，利用公式(9)计算它与所有候选关键词的综合评分，并作降序排列，选择前v个候选关键词作为对所述种子关键词的扩展。

综上所述，在完成对短文本中出现的所有种子关键词的扩展后，就得到了所述短文本的扩展特征表示，下一步通过特征选择和特征数值量化即可得到所述短文本的最终特征表示向量。

为了全面准确的评估本发明所提出的方法的性能，本发明基于Search snippets数据集进行测试。其中，Search snippets是网页的搜索片段数据集，共包含8类，文本平均长度18.07个词语，数据集共包含训练样本10060条文本，以及2280条测试文本。

基于Search snippets数据集，对短文本进行特征表示后，采用最大熵分类器(Maximum Entropy Classifier)和LibSVM分类器作为评测工具。分别改变主题模型的主题个数k和对于每一个种子关键词的特征扩展数v，得到的分类结果对比曲线图如图5a和图5b所示。当主题数k＝10，扩展数v＝9时，本发明方法获得86.78％的识别率，同以往方法相比至少降低错识率10.01％。本发明方法的耗时对比曲线如图6所示。

综上所述，本发明提出的一种基于语义图谱的短文本特征扩展方法，能充分挖掘训练数据集中的潜在语义信息，以完成对短文本特征表示的扩展，有效缓解短文本在特征表示上固有的稀疏性和语义敏感性问题。基于真实数据集的测试，证明了本发明较以往方法，能够大幅增强短文本的特征表示能力，并能够进一步提高短文本分类任务的精度。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义图谱的短文本特征扩展方法，其特征在于，包括以下步骤：

步骤4，采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文本进行过滤，将匹配到的短语作为种子关键词，利用主题-关键词语义图谱，候选关键词词典中所有元素的相似度，提取前V个最相似的候选关键词对所述种子关键词进行扩展；

步骤2中基于主题概率分布的指数变换排序方法，其评分计算方法是对每一个主题下关键词的分布进行指数变换然后对每一个关键词估计一个显著度值

公式为

2.根据权利要求1所述的方法，其特征在于，步骤3中主题-关键词语义图谱构建方法为：

3.根据权利要求1或2中任一项所述的方法，其特征在于，种子关键词和候选关键词的相似度的计算包括以下步骤：

步骤4.1：计算种子关键词和候选关键词词典中所有元素的结构相似度，公式为.

SR(sw_i，cw_j)＝SAS(sw_i)SAS(cw_j)s(sw_i，cw_j)

其中，sw_i是目标短文本中第i个种子关键词，cw_j是候选关键词词典中第j个候选关键词，SAS(sw_i)为sw_i的显著度值，SAS(cw_j)cw_j为cw_j的显著度值，s(sw_i，cw_j)是传统基于链接分析的结构相似度计算方法计算的sw_i与cw_j的相似度的值，SR(sw_i，cw_j)是计算出的sw_i与cw_j结构相似度的值；

a、提取sw_i对应的主题分布向量提取cw_j对应的主题分布向量

其中，KL(sw_i,cw_j)是种子关键词sw_i和候选关键词cw_j之间的K-L散度，CScore(sw_i，cw_j)是计算出的sw_i与cw_j结构相似度和语义相似度的综合评分。

4.根据权利要求3所述的方法，其特征在于，选取种子关键词时，对种子关键词所属主题数目进行统计，如果所属主题数目大于一定阈值，应将种子关键词剔除。

5.根据权利要求4所述的方法，其特征在于，步骤1中的建模方法为采用基于二元词组的主题模型直接对短文本数据集中的词共现进行建模。