CN115935081A

CN115935081A - 一种基于用户画像和内容协同过滤的专家推荐方法

Info

Publication number: CN115935081A
Application number: CN202211640679.1A
Authority: CN
Inventors: 赵志超; 郭俊; 郑州; 翁宇游; 潘灏; 林国庆; 何金栋; 廖飞龙
Original assignee: Fujian Electric Power Pilot Tests Co ltd; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd
Current assignee: Fujian Electric Power Pilot Tests Co ltd; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-04-07

Abstract

本发明公开了一种基于用户画像和内容协同过滤的专家推荐方法，包括以下步骤：准备业务样本数据；对样本数据进行分析计算，得到研究领域特征数据，结合基本特征属性，形成画像；根据研究领域特征的交叉规则生成决策树训练模型；根据样本数据，采用CARD算法进行决策模型训练，得到预测模型；对未知研究领域的数据集进行聚类匹配，得到预测数据；根据预测数据和模型，实现专家和项目的相互推荐；完成专家之间多维特征相似度计算，并结合已推荐专家的项目特征，实现专家之间的项目推荐；本发明主要通过聚类算法实现专家库和项目库的归一化，形成专家画像，同时进行相似度计算，实现专家推荐项目、项目推荐专家及互相推荐，提高了项目专家推荐的准确度。

Description

一种基于用户画像和内容协同过滤的专家推荐方法

技术领域

本发明属于数据匹配推荐算法技术领域，特别涉及一种基于用户画像和内容协同过滤的专家推荐方法。

背景技术

随着互联网的普及，信息的爆炸式增长促进了推荐系统的形成，推荐系统被广泛的应用于各个领域，专家评审也是推荐系统应用的一个重要领域。目前，结合企业信息化建设要求和产业工作实际需求，在项目的需求、可研、批复、验收等环节均需要行业专家参与评审工作。评审专家遴选的本质就是对专家评审能力进行评价，并计算专家与项目、论文或职位等评审内容之间的匹配度问题。针对信息化项目中的评审专家遴选工作，大多数企业、机构仍然采用人工选拔专家的阶段，人工选拔评审专家存在流程复杂、工作量大，以及及时性、专业性和规范性不够等问题。同时，由于近些年论文数量的急剧增加使得审稿人相对缺乏，审稿专家的研究方向也越来越细化并产生交叉。互联网虽然有助于扩大评审专家的范围，但是也削弱了对审稿专家的深入了解，使编辑部对审稿人的精准匹配变得越来越困难。专家推荐的目的就是根据提出的问题内容，在社区中找到具有一定解决或回答问题能力的专家，提高问答效率，优化用户体验。研究前期，专家推荐主要依靠传统的信息检索和排序技术，目前的专家推荐算法，应用较多的实现方式是将专家基本信息和社会关系信息归一化、标签化，对项目信息中的词向量和词频度、项目的基本信息和专家社会关系等数据进行归一化、标准化，形成统一的文件格式或数据模型，然后计算专家和项目研究领域的相似度，实现专家推荐。由于互联网大数据的普及，推荐系统越来越受到重视，尽管众多学者对推荐算法进行不断的研究和完善，但是各种推荐算法仍然存在诸多问题。

现有技术中，如中国专利CN115168736A，公开了一种评标专家推荐方法、装置、设备及介质，包括：从评标专家库中，将评标专家的个人信息导出；采用构建评标专家数字画像的方法对导出的评标专家的个人信息进行标签化，获得评标专家的数字画像；对数字画像后的评标专家进行聚类，对招标项目需求的评标专家进行标签化处理，其中，招标项目需求的评标专家标签与数字画像后的评标专家标签一致；通过混合推荐方式的评标专家推荐策略对评标专家进行推荐，获得推荐方案，输出所述推荐方案。该发明解决了目前的专家专业能力评价形式过于简单的问题，但该发明通过对专家的信息、经历、他人打分等数据的提取、挖掘和处理得到画像标签的方式仍然较为简单，无法精确判定专家能力。再如中国专利CN114254201A，公开了一种科技项目评审专家的推荐方法，包括：读取待评审项目的申请书，建立待评审项目组基于向量的知识表示模型；读取基础库中候选专家的数据，根据专家信息特点及专家物元知识表示模型构建方法，建立待评审项目组基于物元的知识表示模型；采用基于知识表示模型的相似度计算方法计算项目组与候选专家的相似度值，并将所述相似度值作为候选专家的第一推荐值；分别计算各候选专家在预设指标上的评分，根据预设的专家评分数学模型计算候选专家的第二推荐值；根据所述第一推荐值和第二推荐值，计算候选专家的推荐指数，得到按推荐指数大小排列候选专家的推荐次序的推荐列表。该发明通过对第一推荐值和第二推荐值的计算得到候选专家的推荐指数，过程复杂，效率不高，无法做到既精准又高效地为不同项目系统推荐专家。

发明内容

为了解决上述问题，本发明提供了一种基于用户画像和内容协同过滤的专家推荐方法，能够为不同项目系统精准地推荐专家，可以极大程度上实现提质增效、降本节支，具有较高的业务必要性。

本发明的目的可以通过以下技术方案来实现：

一种基于用户画像和内容协同过滤的专家推荐方法，包括以下步骤：

S1：准备业务样本数据，所述业务样本数据包括专家样本数据和项目样本数据；

S2：收集专家样本数据，对专家样本数据进行聚类分析计算，得到专家研究领域特征数据，并结合专家基本特征属性，形成专家画像，所述专家样本数据包括：专家的姓名、单位、性别、年龄、毕业院校、专业、学历、联系方式、研究方向、发表论文和专利；

S3：收集项目样本数据，对项目样本数据进行聚类分析计算，得到项目研究领域特征数据，形成项目画像，所述项目样本数据包括：项目名称、项目类型、项目背景、项目目标和建设内容；

S4：根据专家研究领域特征和项目研究领域特征的交叉规则生成决策树训练模型；

S5：根据专家样本数据和项目样本数据，进行决策模型训练，得到预测模型；

S6：基于步骤S2中专家研究领域特征数据和S3中项目研究领域特征数据的聚类结果，对未知研究领域的数据集进行聚类匹配，得到预测数据；

S7：根据步骤S6中的预测数据，结合步骤S5中的预测模型，实现专家数据和项目数据的相互推荐；

S8：完成专家之间的多维特征相似度计算，并结合已推荐专家的项目特征，实现专家之间的项目推荐。

进一步的，步骤S2中，所述专家研究领域特征数据是基于K-means聚类算法、降维分析和语义标签提取对专家样本数据进行聚类分析计算得到的；步骤S3中，所述项目研究领域特征数据是基于K-means聚类算法、降维分析和语义标签提取对项目样本数据进行聚类分析计算得到的。

进一步的，步骤S4中，所述决策树训练模型的生成过程具体包括：

S41：将专家样本数据和项目样本数据中的各特征数据输入到：

D＝{(x₁,c₁),(x₂,c₂),...,(x_n,c_n)

S42：选择一种裂分指标；

S43：设置每个节点的最小样本数，并设置树的最大深度；

S44：选择一个可裂分的节点D_i，循环计算所有属性的裂分指标，选取最优的指标将系统中最为有序那个属性作为裂分点，并得到数据集D_i+1,D_i+2,…；

S45：判断所有叶子节点是否达到步骤S43中的条件，是则执行步骤S45，否则执行剪枝；

S46：返回决策树。

进一步的，所述裂分指标为Gini系数。

进一步的，步骤S5中，采用CARD算法进行决策模型训练，所述CARD算法的实现过程为：

设置生成的决策树每次裂分只裂分两个节点，通过Gini(X|A)表示裂分后样本的复杂度，所述Gini(X|A)的计算公式为：

式中：X₁与X₂为X裂分后的两个样本集；

所述Gini(X|A)值越大表示样本的无序性越大，值越小表示系统更为有序。

进一步的，步骤S6中，所述聚类匹配过程采用欧式距离进行多维距离计算，所述欧式距离的公式为：

式中：x、y为两个特征点；n为维度；

所述欧式距离最小者为相似度最高的一类，对该类数据进行打标。

进一步的，步骤S8中，所述专家之间的多维特征的相似度计算，使用A_i和B_i的余弦相似度来计算，所述余弦相似度的计算公式为：

式中：A_i和B_i表示特征；n为维度；

所述余弦相似度的计算公式得出结果的绝对值越接近1，相似度越高，越接近0，相似度越低。

与现有技术相比，本发明具有以下有益效果：

1、本发明提供的一种基于用户画像和内容协同过滤的专家推荐方法，步骤S2、S3中，专家研究领域特征数据与项目研究领域特征数据都是基于K-means聚类算法、降维分析和语义标签提取对样本数据进行分析计算得到的，通过对样本数据进行K-means聚类算法、降维分析和语义标签提取能够更加准确、快速地得到分析的样本数据对应的研究领域特征数据，为后续对该特征数据的处理做好了充分的准备，提高了数据分析的效率。

2、本发明提供的一种基于用户画像和内容协同过滤的专家推荐方法，步骤S4中，通过决策树训练模型处理数据能够在相对较短的时间内对大批数据进行处理，且在决策树训练模型的生成过程中，对每个节点的最小样本数和树的最大深度进行了约束，可从根节点开始避免过度拟合，并且能够避免其无限往下划分，对其进行剪枝同样能够降低过度拟合的风险。

3、本发明提供的一种基于用户画像和内容协同过滤的专家推荐方法，步骤S4中，采用的决策树训练模型选择的裂分指标为Gini系数，使决策树能够支撑离散型或是连续型的数据，并且能够处理缺失的数据，又能够对决策树进行剪枝，以避免数据的过度拟合，且Gini系数代表了决策树训练模型的不纯度，基尼系数越小，不纯度越低，特征越好，通过Gini系数能够更加直观得看出分析数据的纯度。

4、本发明提供的一种基于用户画像和内容协同过滤的专家推荐方法，步骤S5中，采用了CARD算法，CARD算法生成的决策树是一个二叉树，同时也是回归树和分类树，CARD算法生成的决策树的构成简单明了，能够将一个节点分成两个子节点，并利用Gini系数来决定如何分裂，且通过CART算法能够对连续数据和缺失数据进行处理，进一步提高数据分析的准确度。

5、本发明提供的一种基于用户画像和内容协同过滤的专家推荐方法，步骤S6中，聚类匹配过程采用了欧式距离进行多维距离计算，能够计算出n维空间中两个特征点之间的真实距离，进一步得出专家与项目之间的匹配度，实现专家数据和项目数据的相互推荐，提高项目推荐专家和专家推荐项目的准确度。

6、本发明提供的一种基于用户画像和内容协同过滤的专家推荐方法，步骤S8中，根据余弦相似度算法完成专家之间的多维特征的相似度计算，能够体现出同一专业下不同专家的差异，并提高专家之间推荐的准确度，实现专家之间的推荐。

附图说明

图1为一种基于用户画像和内容协同过滤的专家推荐方法的流程图；

图2为一种基于用户画像和内容协同过滤的决策树训练模型生成过程的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例，并参照附图1-2，对本发明的技术方案进行清楚、完整地描述。

实施例

S1：准备业务样本数据，并保证样本数据的完整性、准确性和数据量的合理性，所述业务样本数据包括专家样本数据和项目样本数据；

需要进一步说明的是，所述专家研究领域特征数据是基于K-means聚类算法、降维分析和语义标签提取对专家样本数据进行聚类分析计算得到的；

需要进一步说明的是，所述项目研究领域特征数据是基于K-means聚类算法、降维分析和语义标签提取对项目样本数据进行聚类分析计算得到的；

需要进一步说明的是，所述决策树训练模型的生成过程具体包括：

D＝{(x₁,c₁),(x₂,c₂),...,(x_n,c_n)

S42：选择一种裂分指标；需要进一步说明的是，选择的裂分指标为Gini系数；

S43：设置每个节点的最小样本数，并设置树的最大深度；

S46：返回决策树；

需要进一步说明的是，采用CARD算法对决策模型进行训练，所述CARD算法的实现过程为：

设置生成的决策树每次裂分只裂分为两个节点，通过Gini(X|A)表示裂分后样本的复杂度，所述Gini(X|A)的计算公式为：

式中：X₁与X₂为X裂分后的两个样本集；

需要进一步说明的是，所述Gini(X|A)的值越大表示样本的无序性越大，值越小则表示系统更为有序；

需要进一步说明的是，决策树模型需要大量的历史数据进行训练，数据量越大，则结果越准确，在进行决策树模型训练时，通过对历史留存的样本数据与历史留存的被剪枝数据设定参数进行训练，并结合历史留存的被剪枝数据的预测准确率进行训练，进而使得决策树模型的输出结果更加准确；

S6：基于步骤S2中的专家研究领域特征数据和S3中的项目研究领域特征数据的聚类结果，对未知研究领域的数据集进行聚类匹配，得到预测数据；

需要进一步说明的是，所述聚类匹配过程采用欧式距离进行多维距离计算，所述欧式距离的公式为：

式中：x、y为两个特征点；n为维度；

所述欧式距离最小者为相似度最高的一类，对该类数据进行打标；

S7：根据步骤S6中得到的预测数据，结合步骤S5中的预测模型，实现专家数据和项目数据的相互推荐；

S8：完成专家之间的多维特征相似度计算，并结合已推荐专家的项目特征，实现专家之间的项目推荐；

需要进一步说明的是，所述专家之间的多维特征的相似度计算，使用A_i和B_i的余弦相似度来计算，所述余弦相似度的计算公式为：

式中：A_i和B_i表示特征；n为维度；

本发明提供了一种基于用户画像和内容协同过滤的专家推荐方法，主要通过聚类算法实现专家库和项目库的归一化，形成专家画像和项目画像，并同时进行相似度计算，实现专家推荐项目、项目推荐专家及互相推荐等业务场景，能够提高项目与专家推荐的准确度，并为不同项目系统精准地推荐专家，在极大程度上实现了提质增效、降本节支，具有较高的业务必要性；通过对样本数据进行K-means聚类算法、降维分析和语义标签提取更加准确、快速地得到分析的样本数据对应的研究领域特征数据，为后续对该特征数据的处理做好了充分的准备，并提高了数据分析的效率；通过决策树训练模型处理数据，实现在相对较短的时间内对大批数据进行处理，通过对每个节点的最小样本数和树的最大深度进行了约束，从根节点开始避免了数据的过度拟合，并且能够避免其无限往下划分，对其进行剪枝同样降低了过度拟合的风险；采用的决策树训练模型选择的裂分指标为Gini系数，使决策树能够支撑离散型或是连续型的数据，并且能够处理缺失的数据，又能够对决策树进行剪枝，以避免数据的过度拟合，且Gini系数代表了决策树训练模型的不纯度，基尼系数越小，不纯度越低，特征越好，通过Gini系数能够更加直观地看出分析数据的纯度；采用了CARD算法生成决策树，生成的决策树的构成简单明了，能够将一个节点分成两个子节点，并利用Gini系数来决定如何分裂，且通过CART算法能够对连续数据和缺失数据进行处理，进一步提高了数据分析的准确度；在聚类匹配过程中采用了欧式距离进行多维距离计算，能够计算出n维空间中两个特征点之间的真实距离，进一步得出专家与项目之间的匹配度，实现专家数据和项目数据的相互推荐，提高项目推荐专家和专家推荐项目的准确度；根据余弦相似度算法，能够完成专家之间的多维特征的相似度计算，能够体现出同一专业下不同专家的差异，并提高专家之间推荐的准确度，实现专家之间的推荐。

最后，应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于用户画像和内容协同过滤的专家推荐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于用户画像和内容协同过滤的专家推荐方法，其特征在于，步骤S2中，所述专家研究领域特征数据是基于K-means聚类算法、降维分析和语义标签提取对专家样本数据进行聚类分析计算得到的；步骤S3中，所述项目研究领域特征数据是基于K-means聚类算法、降维分析和语义标签提取对项目样本数据进行聚类分析计算得到的。

3.根据权利要求1所述的一种基于用户画像和内容协同过滤的专家推荐方法，其特征在于，步骤S4中，所述决策树训练模型的生成过程具体包括：

D＝{(x₁,c₁),(x₂,c₂),...,(x_n,c_n)

S42：选择一种裂分指标；

S43：设置每个节点的最小样本数，并设置树的最大深度；

S46：返回决策树。

4.根据权利要求3所述的一种基于用户画像和内容协同过滤的专家推荐方法，其特征在于，所述裂分指标为Gini系数。

5.根据权利要求1所述的一种基于用户画像和内容协同过滤的专家推荐方法，其特征在于，步骤S5中，采用CARD算法进行决策模型训练，所述CARD算法的实现过程为：

式中：X₁与X₂为X裂分后的两个样本集；

6.根据权利要求1所述的一种基于用户画像和内容协同过滤的专家推荐方法，其特征在于，步骤S6中，所述聚类匹配过程采用欧式距离进行多维距离计算，所述欧式距离的公式为：

式中：x、y为两个特征点；n为维度；

7.根据权利要求1所述的一种基于用户画像和内容协同过滤的专家推荐方法，其特征在于，步骤S8中，所述专家之间的多维特征的相似度计算，使用A_i和B_i的余弦相似度来计算，所述余弦相似度的计算公式为：

式中：A_i和B_i表示特征；n为维度；