CN113220905A

CN113220905A - 一种融合知识图谱的服务推荐方法

Info

Publication number: CN113220905A
Application number: CN202110582984.9A
Authority: CN
Inventors: 杨贞帼; 张宏国; 马超; 黄海
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-06

Abstract

本发明提供一种融合知识图谱的服务推荐方法，包括：对服务集中的每个服务个体的特征信息利用自然语言处理方法进行抽取，形成服务个体的特征词集合和三元关系组；通过TF‑IDF方法计算服务个体的特征词集合中特征词的重要程度，保留重要的特征词和对应的三元关系；将服务个体的三元关系组与知识图谱中的服务个体特征信息相融合，补充服务个体特征词集合、补全知识图谱；将服务个体特征词集合中的特征词通过Word2vec方法向量化，计算得到基于服务个体向量的相似度；将知识图谱中的服务个体三元关系组利用TransHR方法向量化，计算得到基于知识图谱的服务个体相似度；结合基于服务向量的相似度与基于知识图谱的相似度计算方法，进行推荐。

Description

一种融合知识图谱的服务推荐方法

技术领域

本发明涉及数据分析技术领域，尤其涉及一种融合知识图谱的服务推荐方法。

背景技术

目前的服务推荐方法大多存在冷启动问题，不能很好的对新的或者未被用户评分的服务进行推荐，会造成给用户推荐的服务并不符合用户真正需要的情况。且当前的解决方法中鲜有与知识图谱相结合的方法。

发明内容

基于上述存在的问题，本发明提供一种融合知识图谱的服务推荐方法，用以解决现有的推荐方法的冷启动问题。

本发明提出一种融合知识图谱的服务推荐方法，包括：

对服务集中的每个服务个体的特征信息利用自然语言处理方法进行抽取，形成服务个体的特征词集合和三元关系组；

通过TF-IDF方法计算服务个体的特征词集合中特征词的重要程度，保留重要的特征词和对应的三元关系；

将服务个体的三元关系组与知识图谱中的服务个体特征信息相融合，补充服务个体特征词集合、补全知识图谱；

将服务个体特征词集合中的特征词通过Word2vec方法向量化，计算得到基于服务个体向量的相似度；

将知识图谱中的服务个体三元关系组利用TransHR方法向量化，计算得到基于知识图谱的服务个体相似度；

结合基于服务向量的相似度与基于知识图谱的相似度计算方法，进行推荐。

所述的方法中，所述对服务集中的每个服务个体的特征信息利用自然语言处理方法进行抽取，形成服务个体的特征词集合和三元关系组包括：

服务集A，A＝{a₁,a₂,...,a_n}，对于A中的每个服务个体a∈A，进行以下操作：

将服务个体a的特征信息Ma进行分词，得到分词后的结果m_a＝{m_a1,m_a2,...,m_an}；

对分词后的结果m_a中的每一个词m_ai(i＝1,2,...,n)的词性进行标注，包括标注为名词、动词、形容词等；

对词性标注后的m_ai进行命名实体识别，确定m_ai实体的类型(人名、地名、机构名或其它)；

利用m_ai的命名实体识别结果，通过依存句法分析，将m_a中每个词之间的关系表示出来r_a＝(m_ai,r,m_aj),i,j＝1,2,...,n,i≠j,其中r为14种依存句法分析标注关系(主谓关系(SBV)、动宾关系(VOB)、间宾关系(IOB)、前置宾语(FOB)、兼语(DBL)、定中关系(ATT)等)之一；

将ra中包含服务个体特征信息的主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)进行抽取，形成服务个体a的三元关系组Ga＝(a,r_j,t_j),j＝1,2,....；

在a的三元关系组Ga＝(a,r_j,t_j),j＝1,2,....中，t_j包含着a的特征词，取t_j的全集为服务个体a的特征词集合CF_a＝{CF_a1,CF_a2,....}。

所述的方法中，所述通过TF-IDF方法计算服务个体的特征词集合中特征词的重要程度，保留重要的特征词和对应的三元关系，具体为：

对于服务集A＝{a₁,a₂,...,a_n}中的每个服务个体a，a∈A，的特征词集合CF_a＝{CF_a1,CF_a2,....}进行以下操作：

设特征词CF_ai在a的特征信息中出现n_ai次，a的特征信息中共有Σ_kn_ak个词。计算特征词CF_ai的TF值，

设特征信息语料库中的文档总数为D，其中包含CF_ai的文档数为D_ai。计算特征词CF_ai的IDF值，IDF_ai＝log(D/(D_ai+1))；

计算特征词CF_ai的TF-IDF值，TF-IDF_ai＝TF_ai×IDF_ai；

对服务个体a特征词集合CF_a中所有特征词的TF-IDF值进行排序，选取前ω作为服务个体a的特征词集合CF’_a＝{CF’_a1,CF’_a2,...,CF’_aω}；

根据新的服务个体a的特征词集合CF’a，对应删除a中不必要的三元关系组，更新后的三元关系组记为G’_a＝(a,r’_j,t’_j),j＝1,2,...。

所述的方法中，所述将服务个体的三元关系组与知识图谱中的服务个体特征信息相融合，补充服务个体特征词集合、补全知识图谱，具体为：

设服务知识图谱为G，对于服务集A＝{a₁,a₂,...,a_n}中的每个服务个体a，a∈A，进行以下操作：

判断G中是否存在服务个体a对应的实体；

如果G中存在服务个体a对应的实体，即a∈G，进行以下操作：

将服务个体a与知识图谱G中a对应的实体进行匹配；

利用服务个体a的三元关系组G’_a，补充服务知识图谱G中不存在的a的属性，补全服务知识图谱G，设补全后服务知识图谱为G’；

将G’中a的全部三元关系组成a的最终三元关系组G”a；

将a在G’中的属性组成集合EF_a，a的最终特征词集合F_a＝EF_a。

如果G中不存在服务个体a对应的实体，即

进行以下操作：

将a的三元关系组G’_a全部添加到知识图谱中，补全服务知识图谱G，设补全后服务知识图谱为G’；

将a的三元关系G’a作为a的最终三元关系组，即G”a＝G’a；

将a的特征词集合CF’_a，作为最终特征词集合F_a＝CF’_a。

所述的方法中，所述将服务个体特征词集合中的特征词通过Word2vec方法向量化，计算得到基于服务个体向量的相似度，具体为：

对于服务集A＝{a₁,a₂,...,a_n}中的每个服务个体a，a∈A，其特征词集合F_a，进行以下操作：

步骤一：将F_a中每个特征词j，利用Word2vec方法转化成对应词向量

步骤二：计算特征词j的词向量模，

步骤三：将服务个体a的特征词集合F_a改为向量表述形式，

将A中所有服务个体的向量组成所有服务向量集F＝(F’₁,F’₂,...,F’_n)；

比较得到F中各服务向量维数，找出最小的向量维数m；

利用主成分分析法(PCA)对F中各向量进行降维至m维，得到维数统一的项目向量集F’＝(I₁,I₂,....I_n)；

设F’中任意两个服务个体分别为x，y；

通过利用Pearson相关系数计算F’a中所有服务个体之间的相似度

得到基于服务个体向量的相似度sim_f(x,y)。

所述的方法中，所述将知识图谱中的服务个体三元关系组利用TransHR方法向量化，计算得到基于知识图谱的服务个体相似度，具体为：

对服务集A＝{a₁,a₂,...,a_n}中的每个服务个体a，a∈A，其三元关系组G”a，进行以下操作：

步骤一：将G”a输入到TransHR模型中，通过TransHR模型将a输出为d维向量；

步骤二：将a用向量I_a＝(E_1a,E_2a,...,E_da)^T表示，其中E_pa，p＝1,2,...,d表示a在第p维上的值。

服务集A＝{a₁,a₂,...,a_n}中的每个服务个体a，经过上述步骤处理后即可得到服务个体a在知识图谱G’中的向量表示形式；

设A中任意两个服务个体为x，y；

通过

计算得到A中任意任意两个服务个体间的距离；

通过

计算A中任意任意两个服务个体间的相似度，得到基于知识图谱的服务个体相似度sim_sg(I_x,I_y)。

所述的方法中，所述结合基于服务个体向量的相似度与基于知识图谱的服务个体相似度计算方法，进行推荐，具体为：

设A中任意两个服务个体为x，y；

将基于服务个体向量的相似度sim_f(x,y)与基于知识图谱的服务个体相似度sim_sg(I_x,I_y)相结合，具体如下：

通过sim(x,y)＝λsim_f(x,y)+(1-λ)sim_sg(I_x,I_y)，λ∈(0，1)，计算得到x，y的混合相似度；

收集用户u对服务集A中已评分的服务个体集合A1以及用户u对A1中服务个体的评分结果UA1＝(ua1₁,ua1₂,...)；

取服务集A与用户u已评分的服务个体集合A1的差集A2＝A-A1,作为预测服务集；

设sim(i,p)为用户u已评分服务个体i，i∈A1，与预测服务个体p，p∈A2之间的混合相似度，r_u,i为用户u对已评分服务i的评分；

通过

计算用户u对于服务p的预测评分pred(u,p)；

对pred(u,p)的值进行排序，取前n个作为结果推荐给用户u，完成推荐。

与现有技术相比，本发明提供的方法通过将基于服务个体向量的相似度和基于知识图谱的服务个体相似度两种相似度相结合的方式，解决目前服务推荐存在现有推荐方法与知识图谱结合不足的问题，使服务推荐方法有更好的适用性，使得本发明可以解决服务推荐中冷启动的问题。本发明所采用的融合知识图谱的推荐方法，使该过程更加简单合理。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提出的一种融合知识图谱的服务推荐方法流程图；

图2为本发明计算服务特征与知识图谱相融合的流程图

图3为本发明计算基于服务个体向量的相似度流程图；

图4为本发明计算基于知识图谱的服务个体相似度流程图；

图5为本发明计算融合基于服务个体向量的相似度和基于知识图谱的服务个体相似度进行推荐流程图；

图6为本发明所提出的一种融合知识图谱的服务推荐方法整体体系架构图。

具体实施方式

为了使本发明的目的，技术方案和优点更加清楚，下面结合附图，对本发明实施例提供的一种融合知识图谱的服务推荐方法的具体实施方式进行详细地说明。应当理解，下面所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

基于上述存在的问题，本发明提供一种融合知识图谱的服务推荐方法，用以解决现有的服务推荐中存在的冷启动问题。

实施例1：

本发明提出一种融合知识图谱的服务推荐方法，如图1所示：

实施例2：

本发明提出一种计算服务特征与知识图谱相融合的方法，如图2所示：

计算特征词CF_ai的TF-IDF值，TF-IDF_ai＝TF_ai×IDF_ai；

判断G中是否存在服务个体a对应的实体；

如果G中存在服务个体a对应的实体，即a∈G，进行以下操作：

将服务个体a与知识图谱G中a对应的实体进行匹配；

将G’中a的全部三元关系组成a的最终三元关系组G”a；

如果G中不存在服务个体a对应的实体，即

进行以下操作：

将a的三元关系G’a作为a的最终三元关系组，即G”a＝G’a；

将a的特征词集合CF’_a，作为最终特征词集合F_a＝CF’_a。

实施例3：

本发明提出一种基于服务个体向量的相似度的计算方法，如图3所示：

步骤二：计算特征词j的词向量模，

步骤三：将服务个体a的特征词集合F_a改为向量表述形式，

比较得到F中各服务向量维数，找出最小的向量维数m；

设F’中任意两个服务个体分别为x，y；

得到基于服务个体向量的相似度sim_f(x,y)。

实施例4：

本发明提出基于知识图谱的服务个体相似度的计算方法，如图4所示：

设A中任意两个服务个体为x，y；

通过

计算得到A中任意任意两个服务个体间的距离；

通过

计算A中任意任意两个服务个体间的相似度，得到基于知识图谱的服务个体相似度sim_sg(I_x,I_y)；

实施例5：

本发明提出融合基于服务个体向量的相似度和基于知识图谱的服务个体相似度进行推荐的计算方法，如图5所示：

设A中任意两个服务个体为x，y；

通过

计算用户u对于服务p的预测评分pred(u,p)；

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种融合知识图谱的服务推荐方法，其特征是，包括：

2.如权利要求1所述的方法，其特征是，所述对服务集中的每个服务个体的特征信息利用自然语言处理方法进行抽取，形成服务个体的特征词集合和三元关系组包括：

3.如权利要求1或2所述的方法，其特征是，所述通过TF-IDF方法计算服务个体的特征词集合中特征词的重要程度，保留重要的特征词和对应的三元关系，具体为：

计算特征词CF_ai的TF-IDF值，TF-IDF_ai＝TF_ai×IDF_ai；

4.如权利要求1或2或3所述的方法，其特征是，所述将服务个体的三元关系组与知识图谱中的服务个体特征信息相融合，补充服务个体特征词集合、补全知识图谱，具体为：

判断G中是否存在服务个体a对应的实体；

如果G中存在服务个体a对应的实体，即a∈G，进行以下操作：

将服务个体a与知识图谱G中a对应的实体进行匹配；

将G’中a的全部三元关系组成a的最终三元关系组G”a；

如果G中不存在服务个体a对应的实体，即

进行以下操作：

将a的三元关系G’a作为a的最终三元关系组，即G”a＝G’a；

将a的特征词集合CF’_a，作为最终特征词集合F_a＝CF’_a。

5.如权利要求1或2或3或4所述的方法，其特征是，所述将服务个体特征词集合中的特征词通过Word2vec方法向量化，计算得到基于服务个体向量的相似度，具体为：

步骤二：计算特征词j的词向量模，

步骤三：将服务个体a的特征词集合F_a改为向量表述形式，

比较得到F中各服务向量维数，找出最小的向量维数m；

设F’中任意两个服务个体分别为x，y；

得到基于服务个体向量的相似度sim_f(x,y)。

6.如权利要求1或2或3或4所述的方法，其特征是，所述将知识图谱中的服务个体三元关系组利用TransHR方法向量化，计算得到基于知识图谱的服务个体相似度，具体为：

设A中任意两个服务个体为x，y；

通过

计算得到A中任意任意两个服务个体间的距离；

通过

7.如权利要求5或6所述的方法，其特征是，所述结合基于服务个体向量的相似度与基于知识图谱的服务个体相似度计算方法，进行推荐，具体为：

设A中任意两个服务个体为x，y；

通过

计算用户u对于服务p的预测评分pred(u,p)；