CN113127627B

CN113127627B - 基于lda主题模型结合诗词知识图谱的诗词推荐方法

Info

Publication number: CN113127627B
Application number: CN202110441956.5A
Authority: CN
Inventors: 包致成; 彭嵘榕; 祁晨草
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2023-01-17
Anticipated expiration: 2041-04-23
Also published as: CN113127627A

Abstract

本发明公开了基于LDA主题模型结合诗词知识图谱的诗词推荐方法，该方法包括以下步骤：对诗词数据进行清洗及预处理，并生成Topics与LDA主题模型，同时将诗词逐个输入到LDA主题模型中，得到每首诗词与Topics的相关性；将诗词或Topics作为图节点，以诗的固有属性作为图中诗词节点与诗词节点的边，以诗词与Topics的相关性作为诗词节点与Topics节点的边融合入已生成的诗词知识图谱中；诗词推荐器根据输入的诗词从诗词知识图谱中按照诗词与Topics的相关性及其他诗词属性的共同特征查找最相关的诗词；向用户输出推荐诗词。有益效果：提高了推荐算法在诗词本文的分析能力及诗词推荐的准确率。

Description

基于LDA主题模型结合诗词知识图谱的诗词推荐方法

技术领域

本发明涉及主题模型、推荐方法、诗词学习、自然语言处理，具体来说，涉及基于LDA主题模型结合诗词知识图谱的诗词推荐方法。

背景技术

目前对于古诗词的个性化智能推荐系统比较匮乏，绝大多数的诗词网站也只是对于诗词内容的简单展示，而非推荐，所以进行古诗词推荐方面的研究对于促进中华优秀传统文化的传播具有重要意义。

近年来最接近本发明的技术有Word2vec模型：Word2vec是一款用于训练词向量的软件工具，提供了CBOW和Skip-gram两种模型。结合hierarchy softmax和negativesampling优化技术，Word2vec可以快速高效地将词语表达成向量。Word2vec本身的特点使其效率变得很高。但是，Word2vec是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化。

为了弥补传统推荐方法在相关度的上的欠缺，以及由于过大的推荐模型难以在轻量级计算平台上运行的难题，该方法充分利用知识图谱与主题模型的优势，实现了对传统推荐方法在相关度的进一步提升。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出基于LDA主题模型结合诗词知识图谱的诗词推荐方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

基于LDA主题模型结合诗词知识图谱的诗词推荐方法，该方法包括以下步骤：

S1、通过数据预处理模块对诗词数据进行清洗及预处理，且通过LDA主题模型对诗词数据进行训练，生成Topics与LDA主题模型，同时将诗词逐个输入到LDA主题模型中，得到每首诗词与Topics的相关性；

S2、将诗词或Topics作为图节点，以诗的固有属性作为图中诗词节点与诗词节点的边，以诗词与Topics的相关性作为诗词节点与Topics节点的边融合入已生成的诗词知识图谱中；

S3、将需要推荐的诗词输入诗词推荐器，诗词推荐器根据输入的诗词从诗词知识图谱中按照诗词与Topics的相关性及其他诗词属性的共同特征查找最相关的诗词，并向用户输出推荐诗词。

进一步的，所述S1中预处理包括诗词分词、剔除空数据、无效数据、剔除无情感意义的文字和重复数据；

其中，在数据预处理模块，使用Jieba分词将诗词进行分词处理，并根据词语含义将每句诗词分成多个中文短语，同时将诗词中含义较弱的单字与词语使用TF-IDF算法进行剔除。

进一步的，所述S1中通过LDA主题模型对诗词数据进行训练，生成Topics包括以下步骤：

使用Jieba分词将诗词进行分词处理并使用TF-IDF算法剔除诗词集合中含义弱的词语，并输入到LDA主题模型中，且LDA主题模型将诗词进行分类并生成一定数量的Topics；

将诗词集合依次输入已经由所有诗词训练好的LDA主题模型，并逐个生成所有诗词与各Topics的相关性。

进一步的，所述S1中LDA主题模型将诗词进行分类并生成一定数量的Topics，其Topics数量的确定方法包括以下步骤：

将诗词集合输入LDA主题模型中并进行训练，其Topics生成数量以10起步，并以10为步长分别训练多个LDA主题模型，其Topics取值范围为[10，Num_(poetry)/10]，其中Num_(poetry)为参与训练的诗词总数；

分别计算每个LDA主题模型的困惑度；

以困惑度作为选取LDA主题模型的标准，并从所有已经训练好的LDA主题模型中选取困惑度最低的模型作为最终的模型，该模型所使用的Topics数量为最终模型训练所用的Topics数量。

进一步的，所述S2中将诗词或Topics作为图节点，以诗的固有属性作为图中诗词节点与诗词节点的边，以诗词与Topics的相关性作为诗词节点与Topics节点的边融合入已生成的诗词知识图谱中还包括以下步骤：

预先将Topics作为图的节点加入到已生成的诗词知识图谱中，推荐诗词时根据诗词知识图谱的Topics进行搜索。

进一步的，所述诗词数据的数据载体为图数据库Neo4j，将图数据库Neo4j作为数据载体，存储诗词数据的具体方式如下：

以诗词或Topics作为图节点，并以诗词的固有属性作为图的边，将诗词节点与诗词节点的连接，以诗词与Topics的相关性作为图的边，将诗词节点与Topics节点进行连接。

进一步的，所述S3中将需要推荐的诗词输入诗词推荐器，诗词推荐器根据输入的诗词从诗词知识图谱中按照诗词与Topics的相关性及其他诗词属性的共同特征查找最相关的诗词，并向用户输出推荐诗词包括以下步骤：

S31、根据输入的诗词ID或诗词名称在知识图谱中查找该诗词节点；

S32、根据与诗词相关度最高的Topics边寻找到该Topics所在节点；

S33、在该Topics所在节点所连接的边中寻找到与该Topics的相关性前十的诗词；

S34、将寻找到的十首诗词与需推荐诗词的固有属性进行对比，且根据诗词的固有属性的重合数量从高到低将寻找到的十首诗词依次排序；

S35、根据用户所需的推荐诗词数量，依据固有属性的重合数量依次向用户进行推荐。

进一步的，所述S3中，当根据Topics查找到的诗词为需推荐诗词本身时，则将诗词与Topics的相关性从高到低的顺序向后查找排序第十一首的诗词，并将该诗词替换到需推荐诗词本身所在的位置，组合成新的十首诗词，再进行固有属性对比排序，并向用户进行推荐。

本发明的有益效果为：

(1)本发明提出的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，引入LDA主题模型与知识图谱提高了推荐算法在诗词本文的分析能力，并结合诗词属性进行联合推荐，提高了诗词推荐的准确率；使用LDA主题模型算法，从诗词文本上分析诗词内容，针对性强，改变只根据诗词的诗人、朝代、风格属性关联的推荐方式，使推荐更加准确，符合用户口味。

(2)使用知识图谱的方式存储诗词与Topics的联系，在推荐诗词时保证了在海量数据中查找诗词的效率，同时也避免了只使用Topics进行推荐的弊端，能够结合诗词原本属性进行联合诗词推荐，推荐的诗词更准确、更广泛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明利用LDA主题算法生成Topics与诗词相关性并融合知识图谱的流程图；

图2为本发明基于知识图谱根据Topics与诗词属性进行诗词推荐的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了基于LDA主题模型结合诗词知识图谱的诗词推荐方法，首先通过运用LDA主题模型根据诗词文本内容将诗词的文本采样出不同的Topics，再将Topics作为图的节点加入到已生成的诗词知识图谱中，并连接与该Topics相关诗词，最后输入需推荐的诗词，并根据Topics与诗词之间的联系从知识图谱中推荐相关诗词。即将数据预处理清理异常值剔除无意字，LAD主题模型训练，生成Topics与诗词相关性，与诗词知识图谱融合，根据诗词知识图谱进行诗词推荐。

现结合附图和具体实施方式对本发明进一步说明，如图1-2所示，根据本发明实施例的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，该方法包括以下步骤：

步骤S1：将诗词数据通过数据预处理模块进行清洗与预处理，进行诗词分词、剔除空数据、无效数据和重复数据；使用jieba分词将诗词进行分词处理，jieba自带了一个叫做dict.txt的词典，里面有2万多条词，包含了词条出现的次数和词性，jieba分词主要通过词典来进行分词及词性标注，将每句诗词根据词语含义分成多个中文短语。对于诗词中含义较弱的单字与词语，使用TF-IDF算法进行剔除，不输入到LDA主题模型中。

使用LDA主题模型对诗词进行分类并生成Topics，其具体步骤如下：

第一步，将Jieba分词后并使用TF-IDF算法剔除含义弱词语的诗词集合输入到LDA主题模型中，LDA主题模型将诗词进行分类生成一定数量的Topics；

第二步，根据已经由所有诗词训练好的LDA主题模型将诗词集合依次输入模型，逐个诗词生成该诗词与各Topics的相关性。

预处理完毕，将诗词数据作为输入数据输入到LDA主题算法进行训练，生成Topics与LDA主题模型；我们Topics的生成方法及数量由以下步骤确定：

[1]将诗词集合输入LDA主题模型中进行LDA主题模型的训练，其Topics生成数量以10起步，以10为步长分别训练多个LDA主题模型，其Topics取值范围为[10，Num_(poetry)/10]，其中Num_(poetry)为参与训练的诗词总数；

[2]分别计算每个模型的困惑度；

[3]以困惑度为选取模型的标准，从所有已经训练好的模型中选取困惑度最低的模型为最终的模型，该模型所使用的Topics数量为最终模型训练用的Topics数量。

将诗词逐个输入到训练得到的LDA主题模型中，得到每首诗词与Topics的相关性，此处得到的相关性为与哪个Topics相关和与该Topics相关的百分比。

步骤S2：将诗词或Topics作为图节点，以诗的固有属性作为图中诗词节点与诗词节点的边，以诗词与Topics的相关性作为诗词节点与Topics节点的边融合入已生成的诗词知识图谱中，为了减少知识图谱的大小，一般只保留与诗词相关性最大的十个Topics。

步骤S3：向诗词推荐器输入需要推荐的诗词，推荐器根据诗词从知识图谱中按照Topics相关性与其他诗词属性的共同特征查找最相关的诗词；其具体步骤如下：

[1]根据该诗词ID或诗词名称在知识图谱中查找该诗词节点；

[2]根据诗词与Topics的相关性最高的边寻找到该Topics所在节点；

[3]根据该Topics所在节点所连接的边中寻找到与该Topics相关性前十的诗词；

[4]根据寻找到的十首诗词对比该诗词与需推荐诗词的固有属性，根据诗词的固有属性的重合数量再从高到低依次排序。

[5]根据用户所需的推荐诗词数量，依次根据固有属性的重合数量向用户进行推荐。当根据Topics查找到的诗词为需推荐诗词本身时，则不向用户推荐该诗词，并向后查找诗词与该Topics相关性从高到底排序的第十一首诗词，并将该诗词替换到需推荐诗词本身所在的位置，组合成新的十首诗词，再进行固有属性对比排序，并向用户进行推荐。

对于存储的诗词数据，所使用的数据载体为图数据库Neo4j，存储诗词数据的具体方式如下：以诗词的固有属性作为图的边，将诗词节点与诗词节点的连接，以诗词与Topics的相关性作为图的边，将诗词节点与Topics节点进行连接。

在向用户进行诗词推荐前，预先将Topics作为图的节点加入到已生成的诗词知识图谱中，在每次推荐诗词时根据知识图谱的Topics进行搜索，避免多次重复运行推荐算法造成计算资源的浪费。

综上所述，本发明提出的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，引入LDA主题模型与知识图谱提高了推荐算法在诗词本文的分析能力，并结合诗词属性进行联合推荐，提高了诗词推荐的准确率；使用LDA主题模型算法，从诗词文本上分析诗词内容，针对性强，改变只根据诗词的诗人、朝代、风格属性关联的推荐方式，使推荐更加准确，符合用户口味。使用知识图谱的方式存储诗词与Topics的联系，在推荐诗词时保证了在海量数据中查找诗词的效率，同时也避免了只使用Topics进行推荐的弊端，能够结合诗词原本属性进行联合诗词推荐，推荐的诗词更准确、更广泛。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述S1中预处理包括诗词分词、剔除空数据、无效数据、剔除无情感意义的文字和重复数据；

3.根据权利要求1所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述S1中通过LDA主题模型对诗词数据进行训练，生成Topics包括以下步骤：

4.根据权利要求3所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述S1中LDA主题模型将诗词进行分类并生成一定数量的Topics，其Topics数量的确定方法包括以下步骤：

分别计算每个LDA主题模型的困惑度；

5.根据权利要求1所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述S2中将诗词或Topics作为图节点，以诗的固有属性作为图中诗词节点与诗词节点的边，以诗词与Topics的相关性作为诗词节点与Topics节点的边融合入已生成的诗词知识图谱中还包括以下步骤：

6.根据权利要求5所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述诗词数据的数据载体为图数据库Neo4j，将图数据库Neo4j作为数据载体，存储诗词数据的具体方式如下：

7.根据权利要求1所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述S3中将需要推荐的诗词输入诗词推荐器，诗词推荐器根据输入的诗词从诗词知识图谱中按照诗词与Topics的相关性及其他诗词属性的共同特征查找最相关的诗词，并向用户输出推荐诗词包括以下步骤：

S32、根据与诗词相关性最高的Topics边寻找到该Topics所在节点；

8.根据权利要求7所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述S3中，当根据Topics查找到的诗词为需推荐诗词本身时，则将诗词与Topics的相关性从高到低的顺序向后查找排序第十一首的诗词，并将该诗词替换到需推荐诗词本身所在的位置，组合成新的十首诗词，再进行固有属性对比排序，并向用户进行推荐。