CN114491062B

CN114491062B - 一种融合知识图谱和主题模型的短文本分类方法

Info

Publication number: CN114491062B
Application number: CN202111646536.7A
Authority: CN
Inventors: 刘峰; 许淞源
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2024-05-03
Anticipated expiration: 2041-12-30
Also published as: CN114491062A

Abstract

本发明公开一种融合知识图谱和主题模型的短文本分类方法，属于自然语言处理领域，通过对知识图谱和主题模型技术的融合，利用知识图谱获取外部知识，进行特征扩展，在不改变原文本语义的同时，能够有效地扩充短文本的特征内容；使用扩展后的文本数据训练主题模型，挖掘文本之间的语义关联并将其作为扩展特征，缓解同义词现象对文本分类任务带来的不准确性，最终使用支持向量机进行短文本的分类预测。

Description

一种融合知识图谱和主题模型的短文本分类方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于知识图谱和主题模型的短文本分类方法。

背景技术

随着互联网的快速发展，在网络新闻、社交媒体、即时通讯等领域，产生了大量的短文本数据，如何有效地从短文本数据中挖掘有价值的信息是当前一个重点研究课题。

文本分类的应用十分广泛，包括信息推荐、自动问答、搜索引擎、邮件过滤等。在过去的几十年中，国内外的研究人员提出并改进了一些机器学习和深度学习算法，并将其应用在文本分类领域，这些解决方法包括：使用向量空间模型对文本进行特征表示，然后使用分类器进行文本分类；或者使用卷积神经网络等深度学习方法对文本进行特征抽取，从而进行分类。但是，对于短文本的分类问题，这些方法取得的效果还不够理想。相比于长文本，短文本具有篇幅短小、主题明确性弱等特点，经过去除停用词等预处理之后，通常只剩下几个或十几个蕴含实际意义的词语，很难构建高质量的用于分类的特征。直接将针对长文本分类的方法应用在短文本分类问题上会产生特征稀疏问题，难以实现准确的分类。另外，文本中的多义词现象常常给文本分类带来很大的噪声。

发明内容

针对以上关于短文本分类方面存在的弊端，本发明提出了一种融合了知识图谱和主题模型的短文本分类方法，能够对短文本进行准确分类。

为解决上述技术问题，本发明采用以下技术方案：

一种融合知识图谱和主题模型的短文本分类方法，包括以下步骤：

将已有标签的短文本数据作为训练数据，进行文本的预处理；

将所述预处理后的文本进行关键词抽取，根据抽取得到的候选关键词构建候选关键词图，所述候选关键词图由节点、节点之间的边和边权重构成，所述节点即候选关键词；

采用共现关系构造任意两个节点之间的边，当节点对应的词汇在一预设长度窗口中共现时，则两个节点之间存在边，初始化各个节点的权重，再迭代计算各节点的权重，直到收敛，再按照各个节点权重的降序进行排序，选择出关键词；

将所述关键词映射到知识图谱中的实体上，得到候选实体集；

基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体，作为目标实体；

将所述目标实体作为关键词的背景知识，添加到所述短文本之后对所述短文本进行扩展，得到扩展内容，并作为基于知识图谱扩展的训练数据集；

根据所述基于知识图谱扩展的训练数据集训练出主题模型，利用所述主题模型统计所有词的主题计数和每个文档对应词的主题计数，得到各个主题的词分布和各个文档的主题分布，计算出每个文档的主题概率向量；

将所述扩展内容进行向量化得到扩展内容的文本向量，并将所述主题概率向量与所述扩展内容的文本向量拼接在一起，作为分类模型的输入；

将所述分类模型的输入作为训练数据集，输入到一短文本分类模型中进行训练，训练出短文本分类模型，利用所述训练出的短文本分类模型对待测的短文本进行分类，输出分类结果。

优选地，所述预处理包括对去除特殊符号，去除停用词和分词。

优选地，采用TextRank算法将所述预处理后的文本进行关键词抽取。

优选地，所述候选关键词图G＝(V，E，W)，其中节点集V＝{V₁，V₂，…，V_n}，V_n∈S是候选关键词，E＝{(V_i，V_j)|V_i∈V^V_j∈V^w_ij∈W^w_ij≠0}是各个节点i和j之间的边的集合，W＝{w_ij|1≤i，j≤n}中的w_ij是节点i和j之间边的权重。

优选地，计算各节点的权重的公式为：

其中，v_i，v_j，v_k是节点，w_ij是节点i和j之间边的权重；WS()是节点权重；d为阻尼系数，表示图中某一节点指向其他节点的概率；in(v_i)表示指向节点v_i的节点集合；out(v_j)表示v_j指向的节点集合。

优选地，将所述关键词映射到知识图谱中的实体的映射关系为其中k为所述关键词，e为所述知识图谱中的某一实体。

优选地，所述基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体的方法为：

遍历得到关键词所对应实体的描述文本集合，对所有的描述文本进行预处理，所述预处理包括分词和移除停用词；

对原短文本的上下文信息设置一个滑动窗口，从所述原短文本的词集合中获取关键词前后的词，并作为所述关键词的上下文集合；

使用word2vec将所述关键词的上下文集合中的词转换为词向量V_c；

将所述描述文本集合中的每个预处理后的描述文本转换为词向量V_d；

按照以下公式计算V_c和V_d的相似度：

优选地，所述主题模型采用LDA主题模型，采用所述用Gibbs采样算法计算文本的主题概率分布和主题的词项概率分布，根据这两个分布得到每个文档的主题概率向量。

优选地，所述短文本分类模型采用SVM模型。

本发明的优点在于对知识图谱和主题模型技术的融合，利用知识图谱获取外部知识，进行特征扩展，在不改变原文本语义的同时，能够有效地扩充短文本的特征内容；使用扩展后的文本数据训练主题模型，挖掘文本之间的语义关联并将其作为扩展特征，缓解同义词现象对文本分类任务带来的不准确性，最终使用支持向量机进行短文本的分类预测。本发明方法相较于仅使用知识图谱或者仅使用主题模型取得了更好的技术效果，解决了短文本很难构建高质量的用于分类的特征的问题，利用知识图谱基于文本的原语义进行内容扩充，对扩充实体进行消歧处理。同时解决了一词多义问题，引入主题模型来挖掘文本之间的语义关联，缓解同义词现象对文本分类任务带来的不准确性，最终使用支持向量机进行短文本的分类预测。

附图说明

图1是本发明实施例提供的一种融合知识图谱和主题模型的短文本分类方法流程图。

图2为本发明的实验中文本长度的统计图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明实施例提供一种融合知识图谱和主题模型的短文本分类方法，包括以下步骤：

1.短文本预处理

将已有标签的短文本数据作为训练集，待分类的短文本数据作为测试集，对文本进行去除特殊符号、去除停用词、分词等预处理。

短文本的分词：使用jieba分词工具，将短文本初步划分为一个词语的集合。

去除停用词：自定义停用词表，删除词语集合中无意义的词语，如“的”“了”以及标点符号。

最终得到词语集合S＝{w₁，w₂，…，w_n}

2.短文本扩展

2.1基于TextRank算法的关键词抽取

对上步处理好的文本进行关键词的抽取，本发明实施例采用TextRank算法进行实现。TextRank算法是基于图的排序算法，利用文本的词集合建立图模型，通过计算词的权重得到关键词集合，能够实现对单一文档的关键词抽取。

首先，构建候选关键词图G＝(V，E，W)，其中，节点集V＝{V₁，V₂，…，V_n}，V_n∈S，即文档集合中的候选关键词；E＝{(V_i，V_j)|V_i∈V^V_j∈V^w_ij∈W^w_ij≠0}，是各个节点之间的边的集合；W＝{w_ij|1≤i，j≤n}，w_ij是i节点与j节点之间边的权重。

然后，采用共现关系构造任意两个节点之间的边，当节点对应的词汇在长度为K的窗口中共现时，两个节点之间存在边，初始化各个节点的权重，然后迭代计算各节点的权重，直到收敛。节点vi的权重计算公式为：

其中，d为阻尼系数，表示图中某一节点指向其他节点的概率，设置为0.85；in(v_i)表示指向节点v_i的节点集合；out(v_j)表示v_j指向的节点集合；

权重收敛后，按照各个节点权重的降序进行排序，选择出关键词。

2.2关键词的实体映射

上一步已经将短文本的关键词抽取出来，接下来需要将关键词映射到知识图谱中的实体上，来获取实体的描述信息，从而对原文本进行扩展。

关键词的实体映射就是实现下面的映射关系：其中k为关键词，e为知识图谱中某一实体。

通过在知识图谱中进行查询，可以获得候选实体列表，例如，使用“地球”进行查询，可以得到以下候选实体列表：

·地球(太阳系八大行星之一)；

·地球(杂志名称)；

·地球(宇恒所演唱歌曲)；

·地球(吕雯演唱歌曲)；

·地球(同名著作)

·地球(动漫《天使与龙的轮舞》虚构地球)

·地球(y.戈蒂埃等著作)

·地球(2007年德国、英国、美国合拍纪录片)

由于自然语言具有一词多义的现象，一个关键词可能会映射到多个知识图谱中的实体。在实验中，需要选取一个最符合原文本语义的实体作为扩展内容，否则会引入大量噪声，影响分类准确性，因此需要进行实体消歧。

2.3实体消歧

从上述候选实体列表中，选取一个最符合原文语义的实体，作为背景知识。具体步骤如下：

对于某一条短文本text_i，它的关键词集为：keywords(text_i)＝{k_i1，k_i2，…，k_in}，对关键词k_ij进行实体映射，通过在知识图谱中查询，可得到text_i的某一个关键词k_ij的候选实体集为：entities(k_ij)＝{e_ij1，e_ij2，…，e_ijn}，在知识图谱中，每个实体都有一段文本形式的描述信息，用来解释该实体的含义。通过遍历得到关键词k_ij对应的所有实体的描述文本集合：descriptions(k_ij)＝{d_ij1，d_ij2，…，d_ijn}，对所有的描述文本进行分词、移除停用词等预处理。

然后，获取原短文本的上下文信息，设置一个长度为l的滑动窗口，从原短文本的词集合中获取关键词k_ij前后的l个词，作为关键词k_ij的上下文集合context(k_ij)＝{k_ij-l，k_ij-l+1，…，k_ij，…，k_ij+l}

最后，使用短文本上下文信息context和descriptions来计算文本相似度，选取相似度最高的作为目标实体。

计算相似度的方法如下：

首先，使用word2vec将关键词的上下文context转换为n维的词向量V_c

然后，遍历descriptions集合，将每个分词后的描述文本转换为n维的词向量V_d

按照下列公式分别计算V_c和V_d的相似度，选取相似度最大的实体最为目标实体。

选择与关键词上下文相似度最高的实体作为目标实体。计算出短文本每个关键词的目标实体，得到的背景知识可作为短文本的扩展，用于后续主题模型和分类器模型的训练。

2.4短文本扩展

在关键词映射到对应实体后，将实体的背景知识作为扩展内容添加到短文本之后，得到扩展内容即短文本+关键词+背景知识。格式如以下表格：

短文本

关键词₁

背景知识₁

关键词₂

背景知识₂

…

关键词_n

背景知识_n

在后续的使用中，一来将扩展内容作为主题模型构建的输入，二来将扩展内容进行文本的预处理(如分词)等操作，进行向量化得到文本向量，用于与后续得到的主题概率向量进行拼接，作为分类模型的输入。

3.主题模型的构建

在判断文本的相似性时，根据共现单词的数量进行度量等传统方法忽视了文本间语义的内在关联，在遇到语义相近的文本之间仅有少量的共现词语时，容易产生错误的分类，LDA主题模型能够很好地解决这个问题。LDA主题模型是一个三层的贝叶斯概率生成模型，能够将每段文本表示为主题的混合分布，同时将每个主题表示为词上的概率分布，从而利用概率分布进行文本分类。

使用经过基于知识图谱扩展的训练数据集作为输入，训练出主题模型。使用Gibbs采样算法即下列公式计算文本的主题概率分布：和主题的词项概率分布：其中/>表示文本d_i中属于主题s的词数，/>表示词w_l属于主题s的次数，α为主题概率分布的超参数，β为词项概率分布的超参数，T为主题数量，N为文本的词数。最后得到每个文档的主题概率向量T_d＝{t₁，t₂，...，t_m}，其中t为向量中的一个元素，m为主题的数量。

将主题概率向量与扩展后的文本向量拼接在一起，最终作为分类模型的输入。

4.分类模型的构建

SVM是一种常见的判别方法，属于一种有监督模型。SVM在机器学习领域中常用于分类、回归分析以及模式识别等。在特征数量远大于样本数量或特征数量非常多时，SVM模型往往是线性可分的，在训练文本足够的情况下，VSM模型向量化的文档具有很多的特征数量，因此选用SVM模型作为短文本分类模型。

将上面处理好的训练数据集作为SVM分类模型的输入，进行训练，得到SVM分类器。然后输入测试数据，最终输出预测的分类结果。

实验测试

实验数据：本实验采用新浪新闻标题为实验数据，该数据集包括财经、教育、科技、体育、游戏等三十二个类别。整个数据集共47952条数据，其中每个类别的数据约有1500条，如下表所示。

表1

图2所示为文本长度的统计情况，纵轴表示某条文本包含的字符数量，横轴表示文本数量。平均每条文本有18.23个字，长度在10到30之间的短文本共计44698条，占比93.2％。同时文本长度小于2的数据包含的都是无意义信息，需要进行删除。

为验证本发明方法的有效性，将特征增强后的短文本应用到短文本分类任务中。本实验采用SVM多分类模型，SVM是一种常见的判别方法，属于一种有监督模型。SVM在机器学习领域中常用于分类、回归分析以及模式识别等。在特征数量远大于样本数量或特征数量非常多时，SVM模型往往是线性可分的，在训练文本足够的情况下，向量化的文本具有很多的特征数量，因此选用SVM模型作为短文本分类模型。

本实验设置了下列四个对比实验：

(1)SVM，系基准方法，仅使用本发明实施例提供的方法中的第1部分，并对短文本向量化，使用SVM模型分类。对数据集进行常规的预处理(去除停用词、去除特殊符号、文本分词)后，使用TF-IDF算法将文本转化为特征向量，使用SVM多分类模型进行训练和验证。

(2)KG+SVM，系在上述(1)的基础上，增加本发明实施例提供的方法中的第2部分，KG代表基于知识图谱的短文本特征扩展。对数据集进行常规的预处理后，使用知识图谱对原始文本数据进行特征扩展，使用SVM多分类模型进行训练和验证。

(3)LDA+SVM，系在上述(1)的基础上，增加本发明实施例提供的方法的第3部分，LDA表示主题模型。对数据集进行常规的预处理后，使用LDA主题模型挖掘语义信息对原始文本数据进行扩展，使用SVM多分类模型进行训练和验证。

(4)KG+LDA+SVM，系在上述(1)的基础上，增加本发明实施例提供的方法的第2，3部分。对数据集进行常规的预处理后，使用知识图谱对原始文本数据进行特征扩展，使用LDA主题模型挖掘语义信息对原始文本数据进行语义扩展，使用SVM多分类模型进行训练和验证。

本实验属于多分类问题，采用精确率、召回率、F1分数来评估在各个分类上的分类结果。在分类结果有四种情况：

(1)TP(True Positive)表示预测结果为正类实际结果为正类。

(2)FP(False Positive)表示预测结果为正类实际结果为负类。

(3)TN(True Negative)表示预测结果为负类实际结果为负类。

(4)FN(False Negative)表示预测结果为负类实际结果为正类。

本实验采用以下评价指标：

(1)分类准确度(Precision)：

(2)分类召回率(Recall)：

(3)F1分数：

实验数据见以下表2：

表2

实验结果如表2所示，其准确率、召回率、F1分数均为32个类别上的均值，可以看出本文提出的方法KG+LDA+SVM实现了短文本的特征增强，并在短文本分类任务中取得很好的提升。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换，均应涵盖于本发明的保护范围内，本发明的保护范围以权利要求所限定者为准。

Claims

1.一种融合知识图谱和主题模型的短文本分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述预处理包括对去除特殊符号，去除停用词和分词。

3.如权利要求1所述的方法，其特征在于，采用TextRank算法将所述预处理后的文本进行关键词抽取。

4.如权利要求1所述的方法，其特征在于，所述候选关键词图G＝(V,E,W)，其中节点集V＝{V₁,V₂,…,V_n}，V_n∈S是候选关键词，E＝{(V_i,V_j)|V_i∈V∧V_j∈V∧w_ij∈W∧w_ij≠0}是各个节点i和j之间的边的集合，W＝{w_ij|1≤i,j≤n}中的w_ij是节点i和j之间边的权重。

5.如权利要求1所述的方法，其特征在于，计算各节点的权重的公式为：

其中，v_i,v_j,v_k是节点，w_ij是节点i和j之间边的权重；WS()是节点权重；d为阻尼系数，表示图中某一节点指向其他节点的概率；in(v_i)表示指向节点v_i的节点集合；out(v_j)表示v_j指向的节点集合。

6.如权利要求1所述的方法，其特征在于，将所述关键词映射到知识图谱中的实体的映射关系为f：其中k为所述关键词，e为所述知识图谱中的某一实体。

7.如权利要求1所述的方法，其特征在于，所述基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体的方法为：

按照以下公式计算V_c和V_d的相似度：

8.如权利要求1所述的方法，其特征在于，所述主题模型采用LDA主题模型。

9.如权利要求1或8所述的方法，其特征在于，所述主题模型采用所述用Gibbs采样算法计算文本的主题概率分布和主题的词项概率分布，根据这两个分布得到每个文档的主题概率向量。

10.如权利要求1所述的方法，其特征在于，所述短文本分类模型采用SVM模型。