CN111368068A

CN111368068A - 一种基于词性特征和语义增强的短文本主题建模方法

Info

Publication number: CN111368068A
Application number: CN202010193427.3A
Authority: CN
Inventors: 赵博
Original assignee: Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Current assignee: Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-03

Abstract

本发明公开了一种基于词性特征和语义增强的短文本主题建模方法，包括：(a)自定义词性特征；(b)计算各个单词间的语义相似度(c)生成建模文档；和(d)在模型的吉布斯采样推断过程中，对特定的单词进行语义增强。以解决现有的短文本主题模型无法对一个主题进行全面、具体的分析，也无法很好地解决短文本中存在的稀疏性的问题。

Description

一种基于词性特征和语义增强的短文本主题建模方法

技术领域

本发明涉及语言处理领域，特别涉及一种基于词性特征和语义增强的短文本主题建模方法。

背景技术

随着社交网络和移动设备的快速发展，短文本媒体逐渐成为人们日常生活中一种重要的信息来源，从这些短文本语料中挖掘潜在主题对于许多基于内容的分析任务来说十分重要，例如内容表征、用户兴趣分析、新兴主题发现和突发事件检测等。与传统的新闻报道和科技文献等长文本相比，短文本通常具备内容简短、编写随意、数据量大和内容繁杂等特点，这无疑给基于短文本的主题分析任务带来了巨大的挑战。

传统的主题模型，如概率潜在语义分析模型(Probabilistic Latent SemanticAnalysis，PLSA)和潜在狄利克雷分配模型(Latent Dirichlet Allocation，LDA)，通常基于文档层级的单词共现模式进行建模，以挖掘出语料中的潜在主题。但是，由于短文本长度的限制，基于文档层级的单词共现模式在短文本语料中十分稀少，传统的主题模型不再适用。

而现有的短文本主题模型大多是针对短文本语料中存在的稀疏性问题进行改进，主要包括以下三种策略：基于自聚合的策略、基于窗口的策略和基于词嵌入的策略。基于自聚合的策略通过语料中的辅助元信息将短文本聚合成长伪文本，然后再应用传统的主题模型对短文本语料进行建模，然而这种策略高度依赖于数据集，可扩展性较差。基于窗口的策略假定某一窗口内的单词均采样自同一个主题分布，以此来增强短文本语料中的单词共现模式，然而这种策略无法捕获当前语料外具有强烈语义相关性的单词间的共现关系。基于词嵌入的策略通过融入外部语义信息能够在一定程度上缓解短文本中的稀疏性问题，但是基于外部语料训练的词嵌入不一定适用于当前语料，有可能会引入噪声，导致主题质量的降低。

另一方面，现有的短文本主题模型通常利用训练好的主题-单词分布中概率值最高的单词来描述主题，这种主题表示方式过于粗糙，无法对一个主题进行全面、具体的分析，例如，无法分析出与某主题相关的地点、对象和关键词等信息。并且，描述主题的单词中可能含有大量的噪声单词，虽然可以使用通用停词表过滤掉一些无用单词，但仍然会存在一些与主题无关的特定领域的常用词，影响主题的质量。此外，现有的基于词嵌入的短文本主题模型通常基于外部语料训练的词嵌入进行语义增强，这种做法会丢失单词在当前短文本语料中的句法和语义信息，而且存在一些单词没有对应的词嵌入，影响模型精度。

发明内容

本发明要解决的技术问题是提供一种基于词性特征和语义增强的短文本主题建模方法，以解决现有的短文本主题模型无法对一个主题进行全面、具体的分析，也无法很好地解决短文本中存在的稀疏性的问题。

为了解决上述技术问题，本发明的技术方案为：

一种基于词性特征和语义增强的短文本主题建模方法，包括：

(a)自定义词性特征

(b)计算各个单词间的语义相似度

(c)生成建模文档；和

(d)在模型的吉布斯采样推断过程中，对特定的单词进行语义增强。

进一步地，在步骤(a)之中还包括以下步骤：

(a1)根据语料特性和用户需求定义与主题相关的词性特征集；

(a2)进行预处理操作，并将每个单词根据词性标注的结果归入不同的词性特征。

进一步地，在步骤(b)之中还包括以下步骤：

(b1)通过计算外部词嵌入和本地词嵌入的加权平均获取单词的联合词嵌入；

(b2)然后通过计算联合词嵌入之间的余弦距离来衡量不同单词间的语义相似度，获得每个单词与其语义相关的单词的集合。

进一步地，在步骤(c)之中还包括以下步骤：

(c1)首先根据词性标注的结果判别该单词的词性特征；

(c2)若为地点和对象特征，则从对应的主题特征-单词分布中采样该单词；

(c3)否则，另外引入一个开关变量，来决定该单词是与主题相关的关键词还是全局背景单词。

进一步地，在步骤(d)之中还包括以下步骤：

(d1)首先为每篇文档随机初始化一个主题；

(d2)然后通过计算条件概率分布

为每篇文档重新采样一个主题，并更新相应的计数；迭代直至模型收敛；

(d3)待模型收敛之后，利用极大后验估计便可计算出全局主题分布

和主题特征和单词分布

计算公式为：

进一步地，还包括一种测试模型方法，包括以下步骤：

(e1)分别在SougoCA数据集(全网新闻数据集)和SearchSnippets数据集(检索片段数据集)上，从主题连贯性指标、短文本分类指标和短文本聚类指标三个方面评估；

(e2)并和其他短文本主题模型进行了对比。

进一步地，对于中文语料，在分词后采用863词性标注集对每个单词进行词性标注；对于英文语料，无需分词，直接使用NLTK工具包(自然语言处理工具包)进行词性标注和命名实体识别。

进一步地，其中单词w在嵌入空间中的表示为v(w)，主题z_d在嵌入空间中的表示为v(z_d)，则单词w与主题z_d的相关度可以定义为两者在嵌入空间中的余弦距离：

其中，v(z_d)的计算过程如下：首先选取主题z_d的每个特征分布下概率值最高的前N个单词，构成主题z_d的代表词集合W(z_d)，然后计算词向量的平均值作为主题zd在嵌入空间中的最终表示v(z_d)。

采用上述技术方案，本发明所述方法在DMM的基础上，通过自定义词性特征引入主题特征-单词分布，能够从多个角度对一个主题进行更全面、具体的刻画；并引入背景单词分布，能有效减低噪声单词的影响；同时在模型的推断过程中，对特定的单词进行语义增强，能有针对性地缓解短文本中的稀疏性问题。通过在不同的数据集上与现有的短文本主题模型进行对比实验，本发明提出的模型在主题连贯性、短文本分类任务和短文本聚类任务上的精度都有所提升。

附图说明

图1为本发明方法的概率图模型。

图2为中英文语料中的词性标注集与自定义词性特征之间的对应关系。

图3为本发明方法与其他短文本主题模型在SougoCA数据集(全网新闻数据集)和SearchSnippets数据集(检索片段数据集)上的主题连贯性(Topic coherence)对比结果。

图4为本发明方法与其他短文本主题模型在SougoCA数据集(全网新闻数据集)和SearchSnippets数据集(检索片段数据集)上进行短文本分类任务的正确率(Accuracy)对比结果。

图5为本发明方法与其他短文本主题模型在SougoCA数据集(全网新闻数据集)和SearchSnippets数据集(检索片段数据集)上进行短文本聚类任务的纯度(Purity)对比结果。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出了一种基于词性特征与语义增强的短文本主题模型，在DMM(Dirichlet Mixture Model，狄利克雷混合模型)的基础上，引入主题特征-单词分布和全局背景单词分布，并且在模型的吉布斯采样推断过程中，对特定的单词进行语义增强，以针对性地缓解短文本的稀疏性问题，提高主题连贯性。本发明包括以下四个步骤：

(1)自定义词性特征

首先，根据语料特性和用户需求定义与主题相关的词性特征集Q＝{q|q＝0,…〖,N〗_(|Q|)}，默认Q＝{0,1,2}，分别代表与每个主题相关的地点、对象和关键词特征，因为大部分语料通常涉及这三个方面，也是用户感兴趣的三个方面。然后，对文档进行预处理操作，并将每个单词根据词性标注的结果归入不同的词性特征。

对于中文语料，在分词、去停用词后采用863词性标注集对每个单词进行词性标注；对于英文语料，无需分词，去停用词后直接使用NLTK工具包进行词性标注和命名实体识别。中英文词性标注集与自定义词性特征的对应关系如图2所示。

(2)计算单词间的语义相似度

现有基于词嵌入的主题模型大多数是基于外部语料训练词嵌入，这种做法会丢失单词在当前语料中的句法和语义信息，并且存在一些单词没有对应的词嵌入。为了获得单词更全面精确的语义表示，我们通过计算外部词嵌入和本地词嵌入的加权平均获取单词的联合词嵌入，然后通过计算联合词嵌入之间的余弦距离来衡量不同单词间的语义相似度，获得每个单词与其语义相关的单词的集合。

对于外部词嵌入，目前已经有很多基于大型外部语料预先训练好的中英文词向量可供直接下载。对于本地词嵌入，使用Google提供的word2vec工具基于当前语料训练而得，向量维度统一设定为300。由于外部语料和本地语料的数据规模之间存在差异，由两者训练获得的词向量在语义表达能力上也会有所不同。因此，我们利用外部词嵌入和本地局部词嵌入的加权平均值作为单词最终的联合词嵌入表示。假设单词w的外部词嵌入表示为g(w)，本地词嵌入表示为l(w)，γ代表外部词嵌入所占的比重，则单词w的联合词嵌入表示为u(w)＝γg(w)+(1-γ)l(w)。

在获得了每个单词的联合词嵌入后，通过计算向量间的余弦距离来衡量不同单词间的语义相似度。假设单词w₁和w₂的词向量分别表示为v₁＝{w₁₁，…，w_1n}和v₂＝{w₂₁，…，w_2n}，n代表向量维度，则两者之间的语义相似度定义如下：

sim(w₁，w₂)的取值在[0，1]之间，值越大代表单词之间的语义相似度越高。对于训练集中的每个单词w，设定一个阈值τ，假定只有与其相似度大于该阈值的单词才被认定为与单词w语义相关的单词，于是可以构造出如下的单词语义相似度矩阵：

M＝{m_ww＇|w，w＇∈V}

对于不同的阈值设定，某些单词的语义相似集可能会非常大，此时不仅会增加模型的训练时间，也会增加不相似单词的引入概率，造成模型的精度损失。因此需要额外引入一个阈值χ，如果与单词w语义相关的单词的数量大于χ，则将M中w所在行和列的值全部置为0。

(3)建模文档生成过程

由于短文本长度的限制，通常假定每篇短文本只有一个主题，其中主题基于DMM模型(Dirichlet Mixture Model，狄利克雷混合模型)，每个主题由多个特征来描述。根据步骤(1)中的自定义词性特征集Q＝{q|q＝0，…，N_|Q|}，将DMM模型中的每个主题-单词分布

细分为不同的主题特征-单词分布

对于文档中的每个单词，首先根据词性标注的结果判别该单词的词性特征，若为地点和对象特征，则从对应的主题特征-单词分布中采样该单词，否则，另外引入一个开关变量，来决定该单词是与主题相关的关键词还是全局背景单词。

具体的模型的概率图如图1所示。具体来说，假设语料中有D篇文档，主题数预设为K，词性特征集定义为Q＝{q|q＝0，1，2}分别表示与主题相关的地点、对象和关键词特征。首先，对整个语料集采样全局主题分布

和全局背景单词分布

并对每个主题和特征采样主题特征-单词分布

然后，为每篇文档d采样一个主题

对文档d中的每个单词w，根据词性标注的结果获取词性特征q_w，若q_w＝0，则认为单词w是与主题z_d相关的地点，从对应的主题地点-单词分布中采样该单词

若q_w＝1，则认为单词w是与主题z_d相关的对象，从对应的主题对象-单词分布中采样该单词

否则，首先从伯努利分布Bernoulli(λ_w)中采样开关变量s_w。若s_w＝1，则认为单词w是与主题z_d相关的关键词，此时q_w＝1，从对应的主题关键词-单词分布中采样该单词

若s_w＝0，则认为单词w是与主题无关的背景单词，从全局背景单词分布

中采样该单词

在

的情况下，如果单词w与文档d的主题z_d越相关，该单词就越可能是用来描述该主题的关键词，否则为全局背景单词。因此，采用基于嵌入表示的方法来计算单词w与主题z_d的相关度，作为开关变量s_w的先验参数λ_w。假设单词w在嵌入空间中的表示为v(w)，主题z_d在嵌入空间中的表示为v(z_d)，则单词w与主题z_d的相关度可以定义为两者在嵌入空间中的余弦距离：

其中，v(z_d)的计算过程如下：首先选取主题z_d的每个特征分布下概率值最高的前N个单词，构成主题z_d的代表词集合W(z_d)，然后计算这些代表词的词向量的平均值作为主题z_d在嵌入空间中的最终表示v(z_d)。

(4)吉布斯采样推断

首先为每篇文档随机初始化一个主题；然后通过计算条件概率分布

为每篇文档重新采样一个主题，并更新相应的计数；迭代直至模型收敛。在更新计数的过程中，对于与主题z_d相关的关键词w，不仅增加单词w在主题z_d中出现的概率，同时增加与w语义相关的单词在主题z_d中出现的概率。每篇文档主题采样的概率公式如下：

其中，m_k代表主题k下的文档数，

代表在主题k特征q下单词w出现的次数，

代表单词w表现为背景单词的次数，n_kq代表主题k特征q下的单词总数，n_b代表背景单词总数，N_d，kq代表文档d中出现在主题k下词性特征为q的单词总数，N_d，b代表文档d中的背景单词总数，

代表文档d中单词w出现在主题k下词性特征为q时的总次数，

代表文档d中单词w表现为背景单词的次数。下标

代表相应的计数是在去除当前文档d的基础上统计而得，上标～代表相应计数是在对特定单词进行采样更新时，同时更新语义相关单词的计数后得到的。

待模型收敛之后，利用极大后验估计便可计算出全局主题分布

和主题特征-单词分布

根据上述算法内容，本发明提出了一种基于词性特征与语义增强的短文本主题模型，为了测试该模型的有效性，分别在SougoCA数据集和SearchSnippets数据集上，从主题连贯性指标、短文本分类指标和短文本聚类指标三个方面评估了模型生成主题的质量，并和其他短文本主题模型进行了对比。主题数K分别设置为{40,60,80}，α＝50/K，β＝0.01，τ＝0.5，χ＝20。

如图3显示了不同短文本主题模型在这两个数据集上的主题连贯性(Topiccoherence)对比结果，每个主题选取了概率值最高的前10个单词计算PMI。

如图4显示了不同短文本主题模型在短文本分类任务中的正确率(Accuracy)对比结果，选用支持向量机作为分类器。

如图5显示了不同短文本主题模型在短文本聚类任务中的纯度(Purity)对比结果。其中，在分类和聚类任务中，采用基于单词概率之和的文本表示方式。从图中可以看出，我们的模型在不同的参数设置下都具有较好的性能，并且具有一定的鲁棒性，表明通过自定义词性特征，并对特定词性特征的单词进行语义增强，能有针对性地强化关键信息，弱化背景噪声单词的影响，提高文本表示的质量。

根据上述算法，本发明提供了一种基于词性特征和语义增强的短文本主题建模方法，包括：