CN113705217A

CN113705217A - 一种面向电力领域知识学习的文献推荐方法及装置

Info

Publication number: CN113705217A
Application number: CN202111019895.XA
Authority: CN
Inventors: 吴俊�; 查显光; 徐滔; 戴威; 何泽家; 崔林; 刘媛
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-26
Anticipated expiration: 2041-09-01
Also published as: CN113705217B

Abstract

本发明公开了一种面向电力领域知识学习的文献推荐方法及装置，该方法包括：获取用户历史阅读文献，通过TF‑RPD和TF‑IDF两套算法抽取文献中的关键词构成文献关键词集；基于关键词计算文献词向量；基于文献词向量计算用户间的相似性；基于用户间的相似性排序形成当前用户的邻居用户，将邻居用户的阅读文献进行相互推荐。本发明通过TF‑RPD和TF‑IDF两套算法提取关键词，同时兼顾词频这一重要因素，提高了电力领域关键词提取的准确性。同时，利用文献词向量计算用户间的相似性，进一步优化相似度计算算法，提高了文献推荐的准确性。

Description

一种面向电力领域知识学习的文献推荐方法及装置

技术领域

本发明属于电力知识培训技术领域，具体为一种面向电力领域知识学习的文献推荐方法及装置。

背景技术

目前在电力知识培训领域，存在着知识资源比较庞大，增长速度快的问题。并且，电力岗位学员在进行岗位知识学习时只能通过人工搜索方式进行，效率低下，学员需要一种更加智能的知识发现机制。随着推荐技术的不断发展，推荐引擎已经在电子商务平台和基于社交的资讯站点取得了很大的成功。与此同时，在教育领域也涌现了很多基于推荐算法的学习资源分享平台(如CSDN、知网等)。

目前的推荐引擎的工作原理都是基于物品或者用户的相似集进行推荐，根据不同的数据源发现数据相关性的方法可以分为以下三类：

(1)根据系统用户的基本信息发现用户的相关程度，这种被称为基于人口统计学的推荐(Demographic-based Recommendation)；

(2)根据推荐物品或内容的元数据，发现物品或者内容的相关性，这种被称为基于内容的推荐(Content-based Recommendation)；

(3)根据用户对物品或者信息的偏好，发现物品或者内容本身的相关性，或者是发现用户的相关性，这种被称为基于协同过滤的推荐(Collaborative Filtering-basedRecommendation)。

其中协同过滤算法是一种基于用户协作的推荐方式，不需要开发者挖掘项目的内容，技术易于实现且可为用户提供新异推荐，所以，在学术界得到深入研究，而且在工业界得到广泛应用。但是，随着网站的资源信息量和用户人数在不断攀升，网站的结构也越来越复杂，使得基于协同过滤的推荐系统面临着一系列问题。其中，稀疏性问题是推荐系统面临的主要问题，也是导致推荐系统质量下降的重要原因。在一些大型网站用户评价过的项目数量相对网站中总项目数量可谓是冰山一角，这就导致了用户-项目评分矩阵的数据极端稀疏，在计算用户或项目的最近邻时准确率就会比较低甚至找不到相似用户，从而使得推荐系统的推荐质量急剧下降。稀疏性问题直接影响这推荐系统的质量问题，针对稀疏性问题，相关研究提出了很多解决方案，包括空值补填、聚类、降维、矩阵分解等。这些常用的方案习惯在原有的稀疏矩阵基础上利用数学方法进行“补救”，难以保证准确性，也降低了系统的可解释性，无法从根本上解决稀疏性问题。

发明内容

本发明的目的在于提供一种面向电力领域知识学习的文献推荐方法及装置，通过提取文献的关键词扩充项目属性以解决数据稀疏性问题。

为了达到上述目的，本发明采用的技术方案如下：

本发明一方面提供一种面向电力领域知识学习的文献推荐方法，包括：

获取用户历史阅读文献，抽取文献中的关键词构成文献关键词集；

基于文献关键词计算文献词向量；

基于文献词向量计算用户间的相似性；

基于用户间的相似性排序形成当前用户的邻居用户，将邻居用户的阅读文献进行相互推荐。

进一步的，所述抽取文献中的关键词构成文献关键词集，包括：

计算文献中每个词的频率：

其中，TF表示词频率；

基于词频率计算词权重；

基于词权重提取预设数量的关键词，构成文献关键词集。

进一步的，所述基于词频率计算词权重，包括：

如果该词不属于领域关键词词库C，则计算IDF值：

将IDF值与词频率TF相乘得到TF-IDF值作为该词的词权重；

如果该词属于领域关键词词库C，则计算RPD值：

将RPD值与词频率TF相乘得到TF-RPD值作为该词的词权重。

进一步的，所述log的底数取e。

进一步的，还包括：

邀请电力领域相关专家，通过人工标注的方式，针对专家根据经验收集和通过互联网收集到的所有电力领域文献，构建领域关键词词库C。

进一步的，提取TF-RPD值排前k的词和TF-IDF值排前k的词共同作为文献的关键词，形成该文献的关键词集。

进一步的，所述k取值为3。

进一步的，还包括：

对词权重进行标准化：

其中，Wvaluei^TF-RPD*为第i个词标准化后的TF-RPD值，Wvaluei^TF-RPD为第i个词的TF-RPD值，Wvaluej^TF-IDF*为第j个词标准化后的TF-IDF值，Wvaluej^TF-IDF为第j个词的TF-IDF值。

进一步的，所述基于关键词计算文献词向量，包括：

其中，V_LA表示文献A的词向量，Wvector是文献中关键词w的词向量，Wvalue是文献中关键词w标准化后的词权重，KeywordListA表示文献A的关键词集，2k为KeywordListA中关键词的个数。

进一步的，关键词的词向量计算如下：

基于预先构建的领域关键词词库C，对收集到的所有电力领域文献逐个进行分词处理，停用词处理以及分句处理，构建语料库；

利用Skip-gram模型对语料库中的语料进行训练，得到每个关键词的词向量。

进一步的，所述基于文献词向量计算用户间的相似性，包括：

其中，similarity_{(user1,user2)}表示任意两个用户user1和user的相似性，M∈user1表示M属于用户user1的历史阅读文献，N∈user2表示N属于用户user2的历史阅读文献，similarity_(LM,LN)表示文献M和文献N的相似性，其中，任意两个文献的相似性采用两个文献的词向量的余弦相似度表示。

本发明另一方面提供一种面向电力领域知识学习的文献推荐装置，包括：

抽取模块，用于获取用户历史阅读文献，抽取文献中的关键词构成文献关键词集；

第一计算模块，用于基于文献关键词计算文献词向量；

第二计算模块，用于基于文献词向量计算用户间的相似性；

以及，

推荐模块，用于基于用户间的相似性排序形成当前用户的邻居用户，将邻居用户的阅读文献进行相互推荐。

进一步的，所述抽取模块具体用于，

计算文献中每个词的频率：

其中，TF表示词频率；

基于词频率计算词权重：

如果该词不属于领域关键词词库C，则计算IDF值：

将IDF值与词频率TF相乘得到TF-IDF值作为该词的词权重；

如果该词属于领域关键词词库C，则计算RPD值：

将RPD值与词频率TF相乘得到TF-RPD值作为该词的词权重；

基于词权重提取预设数量的关键词，构成文献关键词集。

进一步的，所述第一计算模块具体用于按下式计算文献词向量：

进一步的，所述第二计算模块具体用于按下式计算用户间的相似性：

本发明的有益效果如下：

本发明一方面通过TF-RPD和TF-IDF两套算法提取关键词，同时兼顾词频这一重要因素，提高了电力领域关键词提取的准确性。

本发明另一方面用关键词集的相似度代替用户显示或隐式评分数据，可以有效解决数据稀疏性问题，同时，利用文献词向量计算用户间的相似性，进一步优化相似度计算算法，提高了文献推荐的准确性。

附图说明

图1是本发明实施例中基于Skip-gram的词向量计算模型的神经网络结构；

图2是本发明实施例中预处理工作流程；

图3是本发明实施例中关键词提取流程；

图4是本发明实施例中文献推荐工作流程。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供一种面向电力领域知识学习的文献推荐方法，分为预处理、关键词提取和文献推荐三部分。预处理部分实现了对语料统计处理以及语义模型的训练，关键词提取利用TF-RPD算法实现了关键词的提取，文献推荐部分利用关键词集计算用户相似度，实现了最终的文献推荐。

本发明涉及的符号解释如下：

w 当前关键词；

d 当前文献；

D 所有收集到的电力领域文献的集合；

C 电力领域的领域关键词的集合，即词库；

S 词库C中领域关键词总量；

ds 文献d中出现的领域关键词的总量；

N 关键词w在集合D中出现的总次数；

dn 关键词w在文献d中出现的总次数；

DN 词库C中的所有词在集合D中出现的总次数；

KeywordListA文献A的关键词集；

Wvector 关键词w的词向量；

Wvalue 关键词w的TF-IDF或TF-RPD权重大小。

本发明实施例中，预处理工作是关键词提取以及文献推荐工作的基础，利用自然语言处理的一些相关技术对收集到的电力领域的文献进行处理，并构建了电力领域的领域关键词词库。如图2所示，预处理可以分为以下内容：

(11)邀请电力领域相关专家，通过人工标注的方式，针对收集到的电力领域文献，构建领域关键词词库C。词库中的领域关键词可以根据培训课程的相关知识点来选取。

可以通过人工收集的方式收集电力领域文献，时间有限的情况下，也可以直接来源于专家经验，互联网词库等。

(12)基于已构建好的领域关键词词库，对收集到的所有电力文献逐个进行分词处理，停用词处理以及分句处理，构建语料库；

(13)统计领域关键词词库中的每个关键词在所有文献中出现的总次数{N₁,N₂...N_S}，该工作主要为了方便后面RPD的计算；

(14)如图1所示，利用Skip-gram模型对分句处理后语料进行训练，得到每个关键词的词向量表示Wvector。所有关键词的词向量构成一个词向量空间，而每一个词向量则可视为该空间的一个点，在这个空间上引入“距离”，可以根据这个“距离”判断词与词之间的语义相似性。

本发明实施例中，关键提取工作是文献推荐工作的基础，由于电力领域文献的特殊性，传统关键词提取算法效果较差，本发明提出了基于TF-RPD的领域关键词提取算法。如图3所示，对于一篇文献资料，按以下步骤提取关键词：

(21)首先，统计当前文献中每个词的频率TF：

(22)对于每个词，若该词不属于领域关键词词库C，则统计其IDF(即该词在其它文献中出现的频率，逆文档频率)，并与其TF相乘得到TF-IDF值；

其中log的底数为自定义取值，一般取e。

(23)若该词属于领域关键词词库C，则计算其RPD(the Relative Proportion ofDomain-Keywords)，并与其TF相乘得到TF-RPD。

RPD通过以下公式获得：

即，

β是常量参数。

(24)每篇文献提取n个关键词，分别由TF-RPD值排前三的词和TF-IDF值排前三的词组成。对于文献A，可以得到两组关键词：TF-RPD组和TF-IDF组，筛选后得到的关键词如下(n取6)：

KeywordListA＝{W₁ ^TF-RPD，W₂ ^TF-RPD，W₃ ^TF-RPD，W₁ ^TF-IDF，W₂ ^TF-IDF，W₃ ^TF-IDF}；

(25)权重标准化，由于采用了TF-RPD和TF-IDF两套关键词提取算法，获得的两组关键词的权重无法相互衡量，需要对上述6个关键词的权重进行标准化：

本发明实施例中，文献推荐工作与传统的协同过滤算法流程大致相同，区别在于用户相似度的计算。传统的方式通过计算用户对项目的显式或隐式评分获得用户相似度，本实施例中通过计算用户阅读过的文献的关键词集的相似性来获得用户相似性，这样的方式可以解决数据稀疏性问题。

如图4所示，文献推荐工作可以分为以下三步：

(31)根据用户历史阅读数据，构建用户-文献矩阵。然后用相应的关键词集代替文献，构建用户-关键词集矩阵。

如下为用户-文献矩阵，矩阵中1代表用户看过此文献，这里的Item即为文献，可以横向扩展为用户-关键词矩阵，Item即为关键词，关键词的权重代替1/0填入相应位置，一个用户看过的不同文献的相同关键词权重需累加。

	Item1	Item2	Item3
				User1	1	0	1
User2	0	1	0
				User3	1	1	0

(32)计算用户相似度。通过计算用户阅读文献的相似度获得用户相似度；而文献相似度可以通过计算文献关键词集的相似度获得；关键词集之间的相似度，可以直接通过对比关键词重叠度来衡量，为了提高准确性，利用训练好的词向量模型计算关键词集之间的相似度。

本实施例中，参见图4，对于user1和user2，阅读过的文献分别为userl_read＝{A，D，......，H}和user2_read＝{A，C，……，H}。

对于文献A，其关键词集KeywordListA，利用训练好的词向量计算模型可求得其向量表示为：

其中，Wvector是关键词w的词向量，Wvalue是关键词w的TF-IDF或TF-RPD权重大小。

采用余弦相似度计算任意两个关键词集KeywordListA和KeywordListB的相似度：

其中，m表示词向量的长度。

计算user1_read＝{A，D，......，H}和user2_read＝{A，C，......，H}的相似度即可得到user1和user2的相似度。

(33)为每个用户寻找邻居，即按用户相似度大小进行排序，取前10名用户作为当前用户的邻居，邻居之间可以相互推荐未读过的文献。如图4所示，若user1和user2为邻居，则可以向user1推荐文献C，向user2推荐文献D。

本发明另一个实施例提供一种面向电力领域知识学习的文献推荐装置，包括：

第一计算模块，用于基于文献关键词计算文献词向量；

第二计算模块，用于基于文献词向量计算用户间的相似性；

以及，

本发明实施例中，抽取模块具体用于，

计算文献中每个词的频率：

其中，TF表示词频率；

基于词频率计算词权重：

如果该词不属于领域关键词词库C，则计算IDF值：

将IDF值与词频率TF相乘得到TF-IDF值作为该词的词权重；

如果该词属于领域关键词词库C，则计算RPD值：

将RPD值与词频率TF相乘得到TF-RPD值作为该词的词权重；

基于词权重提取预设数量的关键词，构成文献关键词集。

本发明实施例中，第一计算模块具体用于按下式计算文献词向量：

本发明实施例中，第二计算模块具体用于按下式计算用户间的相似性：

值得指出的是，该装置实施例是与上述方法实施例对应的，上述方法实施例的实现方式均适用于该装置实施例中，并能达到相同或相似的技术效果，故不在此赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。