CN115860283B

CN115860283B - 基于知识工作者画像的贡献度预测方法及装置

Info

Publication number: CN115860283B
Application number: CN202310173490.4A
Authority: CN
Inventors: 刘成书; 唐海霞; 王涛; 杨瑞龙; 韩博; 刘真; 高凌辉; 李文永; 孙思遥; 高树奎; 陈艳凤; 黄宇涵; 张丽娟
Original assignee: Beijing Xin Li Fang Technologies Inc
Current assignee: Beijing Xin Li Fang Technologies Inc
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-05-02
Anticipated expiration: 2043-02-28
Also published as: CN115860283A

Abstract

本发明提供一种基于知识工作者画像的贡献度预测方法及装置，方法包括：基于预先获取的主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应基本信息画像；根据预先获取的论文信息获取关键字，并根据关键字构建对应专业技能信息画像；根据论文信息和预先获取的专利信息获取对应贡献度得分，并基于贡献度得分构建对应贡献度画像；根据基本信息画像、专业技能信息画像和贡献度画像，得到对应知识工作者的画像；根据知识工作者的画像对相应知识工作者的贡献度进行预测，得到贡献度预测结果。本发明通过分级画像，实现初粒度到细粒度的高精度画像，提高基于画像进行贡献度预测的精度。

Description

基于知识工作者画像的贡献度预测方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于知识工作者画像的贡献度预测方法及装置。

背景技术

大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术，而用户画像是大数据技术的重要应用。随着信息技术的不断发展，目前用户画像已经广泛应用于互联网的流程优化、目标消息的推送、用户个性化服务与改善等方面，并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验，成为了网络服务背后强大的后台支撑。

用户画像又称为用户角色(Persona)，即用户信息标签化，是一种勾画目标用户、联系用户诉求和设计方向的有效方式，其目标是在很多的维度上建立针对用户的描述性标签属性。知识工作者作为重要的人才资源，如何利用好这些人才资源，以将其理论知识和企业实践相结合产生效益对推动社会的创新有很重要的作用。为实现上述作用，可以对知识工作进行画像，以根据画像对知识工作者未来贡献度进行预测。

用户画像包括用户静态画像和用户动态画像，现阶段的用户静态画像大多是根据用户登记信息、社会属性、生活习惯、消费行为等构建的，用户动态画像是基于浏览情况、购买情况、收藏信息等行为数据构建的。然而，上述方式构建的用户画像较为简单，无法针对知识工作者这一类人群获取对应特定的作品信息，针对其署名作品进行相应的画像构建，以致影响贡献度预测结果的准确性。

发明内容

本发明提供一种基于知识工作者画像的贡献度预测方法及装置，用以解决现有技术中基于构建的用户画像预测贡献度准确度较差的缺陷，能够以较高的准确率画像出知识工作者模块级基本信息画像、词语级专业技能信息画像和贡献度画像，同时以年份为时间序列获取每个知识工作者的贡献度，能够从时间发展线看每个工作者的画像信息的变化情况，提高贡献度预测的准确度。

本发明提供一种基于知识工作者画像的贡献度预测方法，包括：获取知识工作者信息，知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据多个知识工作者的主页介绍信息构建主页介绍信息表；基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各知识工作者的基本信息画像；根据论文信息，获取关键字，并根据关键字构建对应知识工作者的专业技能信息画像；根据论文信息和专利信息，获取对应贡献度得分，并基于贡献度得分构建对应知识工作者的贡献度画像；根据基本信息画像、专业技能信息画像和贡献度画像，得到对应知识工作者的画像；根据知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果。

根据本发明提供的一种基于知识工作者画像的贡献度预测方法，基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应知识工作者的基本信息画像，包括：基于XML路径语言xpath，分别提取主页介绍信息表中各知识工作者的主页介绍信息的长度阈值小于第一预设阈值的目标文字，得到对应各主页介绍信息的目标文字集合；循环各目标文字集合中的目标文字，并结合xpath进行解析，得到对应目标文字的位置路径；根据目标文字的位置路径和目标文字，得到位于目标文字和目标文字集合中临近目标文字的下一目标文字之间的中间文本，以及得到中间文本对应的文本长度；根据目标文字、目标文字的位置路径、目标文字与下一目标文字之间的中间文本和中间文本的文本长度，构建第一矩阵；判断能否从第一矩阵中提取文本长度大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，若可以提取，则提取相应目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，并根据提取的目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，得到对应各个目标文字的第一集合；将预先构建的主题标签基础表中各个主题标签作为行索引名称，将第一集合中的目标文字作为列索引名称，以及将基于行索引名称对应的主题标签和列索引名称对应的目标文字得到的第一相似度作为矩阵元素，构建分布式数据集DataFrame表；根据DataFrame表和第一集合，将目标文字对应的中间文本作为预先构建的目标主题表中对应主题标签的文本内容，将目标文字对应的最大第一相似度对应的主题标签作为目标主题表的主题标签，并将相应主页介绍信息的编号添加至目标主题表中，以对目标主题表进行更新，同时更新对应主页介绍信息表的主题标签属性为第一设定值；其中，主题标签属性用于定义主页介绍信息表中是否包含主题标签；根据主页介绍信息表的主题标签属性为第一设定值以及更新后的目标主题表，构建对应各个知识工作者的基本信息画像。

根据本发明提供的一种基于知识工作者画像的贡献度预测方法，判断能否从第一矩阵中提取文本长度大于第二预设阈值中的间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，还包括：若无法提取，则根据目标文字的位置路径，对第一矩阵中目标文字的位置路径进行聚类，并根据聚类后各蔟包含的目标文字位置路径的数量，按从大到小排序，并根据排序结果对相应目标文字的位置路径进行迭代查找，得到对应各级位置路径的路径标签、路径标签的类名属性Class值和路径标签的id值；根据各级位置路径的路径标签、路径标签的类名属性Class值和路径标签的id值，在预设代码文件中进行代码查找，若能够查询到相应代码，则利用查询到的代码对应的加载文本、显示文本或隐藏文本更新第一矩阵中对应位置路径的中间文本，以及利用查询到的代码对应的加载文本、显示文本或隐藏文本的文本长度更新对应位置路径对应更新后的第一矩阵中中间文本的文本长度；判断更新后的第一矩阵中是否存在文本长度大于第四预设阈值的中间文本，若存在，则提取相应中间文本及其文本长度和对应目标文字及其对应位置路径，并根据提取的相应中间文本及其文本长度和对应目标文字及其对应位置路径，得到对应各个目标文字的第一集合。

根据本发明提供的一种基于知识工作者画像的贡献度预测方法，判断能否从第一矩阵中提取文本长度大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，还包括：若无法提取，则对应主页介绍信息表的主题标签属性为第二设定值；循环读取主题标签属性为第二设定值的主页介绍信息表，并对主页介绍信息表中各主页介绍信息的每条信息分别进行拆分，得到对应各条信息的段落；根据信息的条数确定列索引名称，根据信息对应的最大段落数确定行索引名称，将各条信息的每个段落作为矩阵元素，构建第一DataFrame矩阵；循环读取更新后的目标主题表中各个主题标签的文本内容，并将各文本内容作为第一列的矩阵元素，将文本内容对应的主题标签作为文本内容同行的第二列矩阵元素，构建第二DataFrame矩阵；分别获取第一DataFrame矩阵中的各信息的每个段落与第二DataFrame矩阵的第一列的每个文本内容的第二相似度；根据第一DataFrame矩阵中的各信息的每个段落，对第二相似度对应的主题标签进行聚类，并根据聚类结果将每蔟中第二相似度和的最大值对应的主题标签作为对应信息段落的主题标签，利用信息的每个段落及信息的段落的主题标签，并将相应主页介绍信息的编号添加到目标主题表中，以更新目标主题表，同时更新对应主页介绍信息表的主题标签属性为第一设定值；根据主页介绍信息表的主题标签属性为第一设定值以及更新后的目标主题表，构建对应各个知识工作者的基本信息画像。

根据本发明提供的一种基于知识工作者画像的贡献度预测方法，构建对应各个知识工作者的基本信息画像，包括：循环读取目标主题表中的主题标签为基本信息的文本内容，并结合预设正则表达式，匹配出邮箱、移动电话、固定电话和出生日期，以及将匹配出的邮箱、移动电话、固定电话和出生日期对应存储至主页介绍信息表中；循环读取目标主题表中的主题标签为基本信息、学习经历、工作经历和所获荣誉的文本内容，并结合预设字典表，匹配出职称、学位、职位和荣誉，以及将匹配出的职称、学位、职位和荣誉对应存储至主页介绍信息表中；采用结巴分词，对目标主题表中的主题标签为基本信息和工作经历的文本内容进行分词，并根据词性得到对应姓名、工作单位和工作省份，并将姓名、工作单位和工作省份存储至主页介绍信息表中，得到对应知识工作者的基本信息画像。

根据本发明提供的一种基于知识工作者画像的贡献度预测方法，根据论文信息，获取关键字，包括：基于论文信息包含关键字，获取关键字；或者，基于论文信息不包含关键字，将论文信息输入至关键字预测模型中，得到关键字预测模型输出的预测关键字，其中，关键字预测模型是基于论文训练信息和论文训练信息对应的关键字标签训练得到的。

根据本发明提供的一种基于知识工作者画像的贡献度预测方法，根据论文信息和专利信息，获取对应贡献度得分，包括：根据论文信息和专利信息，获取每个知识工作者的作品信息，作品信息包括多个作品、对应每个作品的作者属性以及各个作品的引用信息；基于作者属性为独立作者，获取所有作者属性为独立作者的作品数量，并根据作品数量和每篇作品对应的预设贡献度得分，得到第一得分；基于作者属性为非独立作者，则根据预设第一作者贡献度、预设贡献度得分和作品对应的作者总数，得到对应作品的第二得分；根据各个作品的引用信息，并结合单个作品的预设引用得分和作品对应的作者总数，得到知识工作者各个被引用作品的第三得分；根据知识工作者作为独立作者的第一得分、知识工作者作为非独立工作者对应的所有作品的第二得分和知识工作者各个被引用作品的第三得分，得到贡献度得分。

根据本发明提供的一种基于知识工作者画像的贡献度预测方法，根据知识工作者的画像，对相应知识工作者的贡献度进行预测，包括：Sa，根据所述知识工作者的画像，得到每个知识工作者对应各个年份的历史研发费用信息、学习年份、年龄、工作年数和贡献度，并构建对应各所述知识工作者的第一DataFrame二维表；Sb，循环读取第一DataFrame二维表中的历史研发费用信息、学习年份、年龄和工作年数以进行归一化处理，并将归一化处理结果对应存储至第一DataFrame二维表中，得到第二DataFrame二维表；Sc，根据历史研发费用信息，得到各知识工作者对应的预测研发经费信息，并利用预测研发经费信息更新第二DataFrame二维表；Sd，根据更新后的第二DataFrame二维表，并利用多元线性回归算法，得到各知识工作者下一未来年份的预测贡献度，并将预测贡献度存储至第一DataFrame二维表，直至得到符合预设目标年数的预测贡献度。

根据本发明提供的一种基于知识工作者画像的贡献度预测方法，根据历史研发费用信息，得到各知识工作者对应的预测研发经费，包括：基于预先获取的历史研发费用信息，分别按预设类别进行分类，得到对应各个类别的历史研发费用；历史研发费用信息包括工作省份历史研发费用、工作单位历史研发费用和涉及领域历史研发费用三种类别中的至少一种类别；按预设类别，分别将各类别的历史研发费用按年份从小到大排序，得到对应各类别历史研发费用的排序结果；分别从对应各类别历史研发费用的排序结果中获取相邻年份的历史研发费用，并对其进行分差处理，根据分差处理结果进行预测，得到预测研发经费信息；预测研发经费信息包括符合预设目标年数对应的各年份的预测研发经费。

本发明还提供一种基于知识工作者画像的贡献度预测装置，包括：信息获取模块，获取知识工作者信息，知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据多个知识工作者的主页介绍信息构建主页介绍信息表；第一画像构建模块，基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各知识工作者的基本信息画像；第二画像构建模块，根据论文信息，获取关键字，并根据关键字构建对应知识工作者的专业技能信息画像；第三画像构建模块，根据论文信息和专利信息，获取对应贡献度得分，并基于贡献度得分构建对应知识工作者的贡献度画像；画像获取模块，根据基本信息画像、专业技能信息画像和贡献度画像，得到对应知识工作者的画像；贡献度预测模块，根据知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于知识工作者画像的贡献度预测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于知识工作者画像的贡献度预测方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于知识工作者画像的贡献度预测方法的步骤。

本发明提供的基于知识工作者画像的贡献度预测方法及装置，通过分级画像的方式，分别画像出个知识工作者的基本信息画像、专业技能信息画像和贡献度画像，实现了初粒度到细粒度的画像，提高了画像的精度，便于量化知识工作者的画像，既便于从时间发展线看每个知识工作者的画像信息的变化情况，又能够根据基本信息画像、专业技能信息画像和贡献度画像，并结合知识工作者所在省份、所在工作单位的研发经费，对贡献度进行预测，提高了贡献度预测的精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于知识工作者画像的贡献度预测方法的流程示意图；

图2是本发明提供的基于知识工作者画像的贡献度预测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了一种基于知识工作者画像的贡献度预测方法的流程示意图，该方法包括：

S11，获取知识工作者信息，知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据多个知识工作者的主页介绍信息构建主页介绍信息表；

S12，基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各知识工作者的基本信息画像；

S13，根据论文信息，获取关键字，并根据关键字构建对应知识工作者的专业技能信息画像；

S14，根据论文信息和专利信息，获取对应贡献度得分，并基于贡献度得分构建对应知识工作者的贡献度画像；

S15，根据基本信息画像、专业技能信息画像和所述贡献度画像，得到对应知识工作者的画像；

S16，根据知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果。

需要说明的是，本说明书中的S1N不代表基于知识工作者画像的贡献度预测方法的先后顺序，下面具体描述本发明的基于知识工作者画像的贡献度预测方法。

步骤S11，获取知识工作者信息，知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据多个知识工作者的主页介绍信息构建主页介绍信息表。

步骤S12，基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各知识工作者的基本信息画像。

具体而言，基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各知识工作者的基本信息画像，包括：

S121，基于XML路径语言xpath，分别提取主页介绍信息表中各知识工作者的主页介绍信息的长度阈值小于第一预设阈值的目标文字，得到对应各主页介绍信息的目标文字集合。

本实施例中，可以基于xpath的text方法，提取主页介绍信息表中各主页介绍信息长度阈值小于第一预设阈值的目标文字。需要说明的是，第一预设阈值可以根据实际需解析的文本长度设置，比如可以为10，此处不作进一步地限定。另外，目标文字集合可以表示为V，其中V_i表示第i个目标文字。

S122，循环各目标文字集合中的目标文字，并结合xpath进行解析，得到对应目标文字的位置路径。本实施例中，第i个目标文字的位置路径表示为L_i，其中L_i的值表示对应目标文字的完整路径。

S123，根据目标文字的位置路径和目标文字，得到位于目标文字和目标文字集合中临近目标文字的下一目标文字之间的中间文本，以及得到中间文本对应的文本长度。

本实施例中，目标文字V_i和下一目标文字V_i+1之间的中间文本表示为T_i，中间文本T_i的文本长度表示为M_i。需要说明的是，若目标文字V_i和下一目标文字V_i+1之间不存在文本，则中间文本T_i为空，中间文本T_i的文本长度M_i为0。

S124，根据目标文字、目标文字的位置路径、目标文字与下一目标文字之间的中间文本和中间文本的文本长度，构建第一矩阵。

需要说明的是，根据目标文字、目标文字的位置路径、目标文字与下一目标文字之间的中间文本和中间文本的文本长度，构建第一矩阵，包括：将目标文字V_i、目标文字V_i的位置路径L_i、目标文字V_i和下一目标文字V_i+1之间的中间文本T_i和中间文本T_i的文本长度M_i作为同一行不同列的矩阵元素，构建第一矩阵J。

S125，判断能否从第一矩阵中提取文本长度大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，若可以提取，则提取相应目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，并根据提取的目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，得到对应各个目标文字的第一集合。

需要说明的是，第二预设阈值可以根据实际需解析的中间文本的文本长度设置，比如可以为10，第二预设阈值也可以参照第一预设阈值设置，此处不作进一步地限定。另外，第三预设阈值可以根据实际目标文字之间的位置距离设置，比如可以设置为2级，此处不作进一步的限定。

在本实施例中，判断能否从第一矩阵中提取文本长度大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，还包括：若无法提取，则根据目标文字的位置路径，对第一矩阵中目标文字的位置路径进行聚类，并根据聚类后各蔟包含的目标文字位置路径的数量，按从大到小排序，并根据排序结果对相应目标文字的位置路径进行迭代查找，得到对应各级位置路径的路径标签、路径标签的类名属性Class值和路径标签的id值；根据各级位置路径的路径标签、路径标签的类名属性Class值和路径标签的id值，在预设代码文件中进行代码查找，若能够查询到相应代码，则利用查询到的代码对应的加载文本、显示文本或隐藏文本更新第一矩阵中对应位置路径的中间文本，以及利用查询到的代码对应的加载文本、显示文本或隐藏文本的文本长度更新对应位置路径对应更新后的第一矩阵中中间文本的文本长度；判断更新后的第一矩阵中是否存在文本长度大于第四预设阈值的中间文本，若存在，则提取相应中间文本及其文本长度和对应目标文字及其对应位置路径，并根据提取的相应中间文本及其文本长度和对应目标文字及其对应位置路径，得到对应各个目标文字的第一集合。

需要补充的是，预设代码文件可以为Javascript代码种；和/或，预设代码文件可以为Javascrip文件。在实际应用过程中，预设代码文件具体可以根据实际代码源确定，此处不作进一步地限定。需要说明的是，第四预设阈值可以根据实际需解析的中间文本的文本长度设置，比如可以为10，第四预设阈值也可以参照第一预设阈值设置，此处不作进一步地限定。

S126，将预先构建的主题标签基础表中各个主题标签作为行索引名称，将第一集合中的目标文字作为列索引名称，以及将基于行索引名称对应的主题标签和列索引名称对应的目标文字得到的第一相似度作为矩阵元素，构建分布式数据集DataFrame表。

需要说明的是，第一相似度可以利用预先训练好的Doc2Vec模型进行计算，Doc2Vec模型可以是利用维基百科和高校的教师信息作为语料进行训练得到的。

S127，根据DataFrame表和第一集合，将目标文字对应的中间文本作为预先构建的目标主题表中对应主题标签的文本内容，将目标文字对应的最大第一相似度对应的主题标签作为目标主题表的主题标签，并将相应主页介绍信息的编号添加至目标主题表中，以对目标主题表进行更新，同时更新对应主页介绍信息表的主题标签属性为第一设定值；其中，主题标签属性用于定义主页介绍信息表中是否包含主题标签。

需要说明的是，主题标签基础表，包括两列字段，分别为主题标签和主题标签对应的文本内容，主题标签包括基本信息、学习经历、工作经历、研究方向、成果贡献度和所获荣誉等。

S128，根据主页介绍信息表的主题标签属性为第一设定值以及更新后的目标主题表，构建对应各个知识工作者的基本信息画像。

应当注意，在构建基本信息画像之前，需要确保主页介绍信息表的主题标签属性为第一设定值，否则，还需采用下述方式将主题标签属性为第二设定值的主页介绍信息表的主题标签属性更新为第一设定值，具体如下：

判断能否从第一矩阵中提取文本长度大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，还包括：若无法提取，则对应主页介绍信息表的主题标签属性为第二设定值；循环读取主题标签属性为第二设定值的主页介绍信息表，并对主页介绍信息表中各主页介绍信息的每条信息分别进行拆分，得到对应各条信息的段落；根据信息的条数作为列索引名称，根据信息对应的最大段落数确定行索引名称，将各条信息的每个段落作为矩阵元素，构建第一DataFrame矩阵；循环读取更新后的目标主题表中各个主题标签的文本内容，并将各文本内容作为第一列的矩阵元素，将文本内容对应的主题标签作为文本内容同行的第二列矩阵元素，构建第二DataFrame矩阵；分别获取第一DataFrame矩阵中的各信息的每个段落与第二DataFrame矩阵的第一列的每个文本内容的第二相似度；根据第一DataFrame矩阵中的各信息的每个段落，对第二相似度对应的主题标签进行聚类，并根据聚类结果将每蔟中第二相似度和的最大值对应的主题标签作为对应信息段落的主题标签，利用信息的每个段落及信息的每个段落的主题标签，并将相应主页介绍信息的编号添加到目标主题表中，以更新目标主题表，同时更新对应主页介绍信息表的主题标签属性为第一设定值；根据主页介绍信息表的主题标签属性为第一设定值以及更新后的目标主题表，构建对应各个知识工作者的基本信息画像。

需要说明的是，第一设定值和第二设定值用于表示对应主页介绍信息表的第一集合数量是否为0，可以根据实际使用需求和个人设置偏好自定义，比如第一设定值为1，第二设定值为0；或者，第一设定值为0，第二设定值为1，此处不作进一步地限定。另外，第一DataFrame矩阵中的任一元素Xij表示第i个信息的第j个段落。

应当注意的是，根据信息的条数确定列索引名称，包括：根据信息的条数，从1至信息条数数值，设置对应的列索引名称。同样的，根据信息对应的最大段落数确定行索引名称，包括：根据信息对应的最大段落数，从1至信息对应的最大段落的数值，设置对应的行索引名称。在一个可选实施例中，第二相似度可以参考第一相似度的获取方式，此处不作重复阐述。

在一个可选实施例中，循环读取更新后的目标主题表中各个主题标签的文本内容，包括：根据预设设置的随机种子，随机读取各个主题标签中符合预设数量的文本内容。举例而言，预设数量为20，主题标签包括基本信息、学习经历、工作经历、研究方向、成果贡献度和所获荣誉共计六个，则分别读取各个主题标签中的20个文本内容，得到共计120个文本。需要说明的是，预设数量可以根据实际需求设置，此处仅为示例。

另外，在本实施例中，构建对应各个知识工作者的基本信息画像，包括：循环读取目标主题表中的主题标签为基本信息的文本内容，并结合预设正则表达式，匹配出邮箱、移动电话、固定电话和出生日期，以及将匹配出的邮箱、移动电话、固定电话和出生日期对应存储至主页介绍信息表中；循环读取目标主题表中主题标签为基本信息、学习经历、工作经历和所获荣誉的文本内容，并结合预设字典表，匹配出职称、学位、职位和荣誉，以及将匹配出的职称、学位、职位和荣誉对应存储至主页介绍信息表中；采用结巴分词，对目标主题表中主题标签为基本信息和工作经历的文本内容进行分词，并根据词性得到对应姓名、工作单位和工作省份，并将姓名、工作单位和工作省份存储至主页介绍信息表中，得到对应知识工作者的基本信息画像。

需要补充的是，预设正则表达式包括邮箱、移动电话、固定电话、出生日期的正则表达式，从而便于根据相应正则表达式，从基本信息中匹配出对应的邮箱、移动电话、固定电话或出生日期；同样的，预设字典表包括职称、学位、职位和荣誉的字典表，以便于根据相应字典表，从相应主题标签的文本内容中匹配出对应的职称、学位、职位或荣誉。基于静态信息特点采用正则表达式、字典查询、词性解析画像出知识工作者如：姓名、单位、省份、联系方式、职业、职位、职称、荣誉等静态基本信息，提高画像的准确率。

步骤S13，根据论文信息，获取关键字，并根据关键字构建对应知识工作者的专业技能信息画像。

在本实施例中，根据论文信息，获取关键字，包括：基于论文信息包含关键字，获取关键字；或者，基于论文信息不包含关键字，将论文信息输入至关键字预测模型中，得到关键字预测模型输出的预测关键字，其中，关键字预测模型是基于论文训练信息和论文训练信息对应的关键字标签训练得到的。

在一个可选实施例中，训练关键字预测模型，包括：获取所有知识工作者发布的期刊中有关键字的论文信息作为语料，论文信息包括标题和摘要；将获取的有关键字的论文信息进行清洗和去掉停顿词，得到论文训练信息；将80%论文训练信息作为训练集合，20%论文训练信息作为测试集合，将关键字作为标签，对模型进行训练。

需要说明的是，需要将关键字转化为BIO格式，以作为标签。另外，待训练模型可以是训练装置中内置的已有网络，该已有网络通常包括一个网络结构，也可以是用户指定的其他网络，如关键字预测albert-base-chinese-ner网络等。

举例而言，采用bert-base-chinese网络进行分词向量化，具体为设置语料文本最大长度为512，若长度不足512，则用0进行填充，若长度超出512，则对语料文本进行截取，使其长度为512，从而实现对语料文本的分词，并将分好的词进行向量转化；采用albert-base-chinese-ner网络作为待训练模型，将完整通过次（num_train_epochs），num_train_epochs设置为100，每个训练优化步骤都涉及的示例次数（per_device_train_batch_size）设置为128，语料长度不足的补偿padding和语料长度超出的截取truncation 都设置为True，权重衰减（weight-decay）设置为0.001，以对albert-base-chinese-ner模型进行训练，并调用模型的evaluate进行评估，不断调整albert-base-chinese-ner模型参数进行训练，当召回率、精准度达到较好的数值后的模型参数作为最终训练参数，得到关键字预测模型。

需要补充的是，按年份聚集出每个知识工作者没有关键字的期刊信息和该知识工作者当年的研究方向、成果贡献信息，带入关键字预测模型中进行测试，得到相应的预测关键字，并取概率值前5的预测关键字作为该知识工作者该年的专业技能信息标签。按照年份循环每个知识工作者的期刊信息对应的关键字，也将这些关键字赋值给该知识工作者对应年份的专业技能信息标签，这样每个工作者就拥有了以年份为时间序列的专业技能信息画像。

另外，通过已有关键字的论文摘要为标注语料，关键字为标注标签进行bert训练，不断调整训练参数生成较好的训练模型，再以此训练模型预测出没有关键字的论文或者会议信息等，减少了大量的人工标注成本，也通过对模型的反复调参训练提高画像的准确率。

步骤S14，根据论文信息和专利信息，获取对应贡献度得分，并基于贡献度得分构建对应知识工作者的贡献度画像。

在本实施例中，根据论文信息和专利信息，获取对应贡献度得分，包括：根据论文信息和专利信息，获取每个知识工作者的作品信息，作品信息包括多个作品、对应每个作品的作者属性以及各个作品的引用信息；基于作者属性为独立作者，获取所有作者属性为独立作者的作品数量，并根据作品数量和每篇作品对应的预设贡献度得分，得到第一得分；基于作者属性为非独立作者，则根据预设第一作者贡献度、预设贡献度得分和作者总数，得到对应作品的第二得分；根据各个作品的引用信息，并结合单个作品的预设引用得分和作品对应的作者总数，得到知识工作者各个被引用作品的第三得分；根据知识工作者作为独立作者的第一得分、知识工作者作为非独立工作者对应的所有作品的第二得分和知识工作者各个被引用作品的第三得分，得到贡献度得分。

需要说明的是，通过知识工作者单独或者参与发布作品（论文、专利），基于发布作品的作者位置、作品被引用等因素，确定其相应的贡献度，从而能够以年份进行量化考量每个知识工作者的贡献度。

另外，第一得分表示为：

S₁=w*n

其中，S₁表示第一得分，w表示每篇作品对应的预设贡献度得分，n表示对应知识工作者作为独立作者的作品数量。

更进一步地说，当知识工作者为第一作者时，得到对应作品的第二得分，包括：根据第一作者贡献度和预设贡献度得分，得到差值；根据差值与作者总数，得到比值；根据比值和第一作者贡献度，得到总分，并将总分作为对应作品的第二得分。

需要说明的是，第二得分表示为：

S_2i=k+(w*1-k)/m

其中，S_2i表示知识工作者第i个作为第一作者的作品的第二得分，k表示第一作者贡献度，w每篇作品对应的预设贡献度得分，m表示该作品的作者总数。

当知识工作者为非第一作者时，得到对应作品的第二得分，包括：根据第一作者贡献度和预设贡献度得分，得到差值；根据差值与作者总数，得到比值，并将比值作为对应作品的第二得分。

需要要说明的是，第二得分表示为：

S_2j= (w*1-k)/m

其中，S_2j表示知识工作者第j个作为非第一作者的作品的第二得分，k表示第一作者贡献度，w每篇作品对应的预设贡献度得分，m表示该作品的作者总数。

另外，根据各个作品的引用信息，并结合单个作品的预设引用得分和作品对应的作者总数，得到知识工作者各个被引用作品的第三得分，包括：根据各个作品的引用信息，确定对应各知识工作者的各个作品的被引用次数；根据对应各知识工作者的各作品的被引用次数，结合单个作品的预设引用得分，得到对应作品被引用的贡献度；根据各作品被引用的贡献度，结合对应作品的作者总数，得到知识工作者对应被引用作品的第三得分。

第三得分，表示为：

S_3k=(p/f)/m

其中，S_3k知识工作者第k个被引用作品对应的第三得分，p表示单个作品的预设引用得分，f表示作品的引用次数，m表示作品对应的作者总数。

本实施例中，贡献度得分表示为：

步骤S15，根据基本信息画像、专业技能信息画像和贡献度画像，得到对应知识工作者的画像。

步骤S16，根据知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果。在本实施例中，根据知识工作者的画像，对相应知识工作者的贡献度进行预测，包括：

Sa，根据知识工作者的画像，得到每个知识工作者对应各个年份的历史研发费用信息、学习年份、年龄、工作年数和贡献度，并构建对应各知识工作者的第一DataFrame二维表。需要补充的是，历史研发费用信息包括工作省份历史研发费用、工作单位历史研发费用和涉及领域历史研发费用三种类别中的至少一种类别。需要补充的是，工作省份历史研发费用和工作单位历史研发费用可以基于知识工作者的基本信息画像获取，涉及领域历史研发费用可以基于专业技能信息画像获取。

比如，当历史研发费用信息包括工作省份历史研发费用和工作单位历史研发费用时，第一DataFrame二维表包括六列数据，第一列为工作省份历史研发费用X₁，第二列为工作单位历史研发费用X₂，第三列为学习年份X₃，第四列为年龄X₄，第五列为工作年数X₅，第六列为贡献度X₆，根据包括工作省份、工作单位和涉及领域中至少一种历史研发费用的历史研发费用信息构建第一DataFrame二维表可参考上述根据包括工作省份和工作单位的历史研发费用信息构建第一DataFrame二维表的情形。

Sb，循环读取第一DataFrame二维表中的历史研发费用信息、学习年份、年龄和工作年数以进行归一化处理，并将归一化处理结果对应存储至第一DataFrame二维表中，得到第二DataFrame二维表。在本实施例中，归一化处理表示为：

EX = (x_i- min)/(max - min)

其中，EX表示对应列的归一化处理结果，X_i表示对应列第i列数据，min表示该列的最小值，max表示该列的最大值。换言之，循环读取第一DataFrame二维表中除最后一列贡献度以外的其他列数据，并分别对每列数据进行归一化处理，得到对应每列所有行的归一化处理结果，并将其存储至对应列的对应元素位置中。

Sc，根据历史研发费用信息，得到各知识工作者对应的预测研发经费信息，并利用预测研发经费信息更新第二DataFrame二维表。

在本实施例中，根据历史研发费用信息，得到各知识工作者对应的预测研发经费信息，包括：

Sc1，基于预先获取的历史研发费用信息，分别按预设类别进行分类，得到对应各个类别的历史研发费用；历史研发费用信息包括工作省份历史研发费用、工作单位历史研发费用和涉及领域历史研发费用三种类别中的至少一种类别。需要说明的是，历史研发费用信息可以预先基于国家统计局网站收集得到。另外，预设类别包括工作省份、工作单位和涉及领域中的至少一种。历史研发费用信息可以根据其具体类别确定其获取来源，此处不作进一步地限定。

Sc2，按预设类别，分别将各类别的历史研发费用按年份从小到大排序，得到对应各类别历史研发费用的排序结果。需要说明的是，在得到对应各类别历史研发费用的排序结果之后，将相应排序结果存储至对应表格中。

比如当历史研发费用信息包括工作省份历史研发费用、工作单位历史研发费用和涉及领域历史研发费用时，设置第一表格中的列名为M，设置第二表格中的列名为N，以及设置第三表格中的列名为Q，其中M_i表示对应省份第i年份对应的历史研发费用，N_i表示对应工作单位第i年份对应的历史研发费用，Q_i表示所涉及领域第i年份对应的历史研发费用。

Sc3，分别从对应各类别历史研发费用的排序结果中获取相邻年份的历史研发费用信息，并对其进行分差处理，根据分差处理结果进行预测，得到预测研发经费信息；预测研发经费信息包括符合预设目标年数对应的各年份的预测研发经费。

比如，类别为工作省份的历史研发费用时，从其排序结果中获取相邻年份的历史研发费用，并进行分差处理，得到(M_i-M_i-1)作为对应元素位置M_i的值，更新相应第一表格，其中M_i表示某省第i年份对应的历史研发费用信息，M_i-1表示某省第i年份在先一年对应的历史研发费用信息。需要说明的是，M₁之前没有元素，因此不做分差处理，其值仍然为M₁。

另外，工作单位历史研发费用N_i和涉及领域历史研发费用Q_i可参照上文所述，此处不作赘述。在本实施例中，根据预设类别，可以将工作省份、工作单位和涉及领域分别作为预测对象，利用长短期记忆网络（LSTM），根据更新后的表格，对符合预设目标年数的工作省份、工作单位和涉及领域分别进行经费预测，并根据对应经费预测结果，得到预测研发经费。预设目标年数可以根据需要预测的知识工作者的贡献度的年数进行确定，比如需要预测未来五年知识工作者的贡献度，则相应的预设目标年数为五年。

需要说明的是，在根据分差处理结果进行预测，得到对应预测研发经费信息之前，包括训练长短期记忆网络（LSTM）。以工作单位历史研发费用为例，训练对应LSTM，包括：获取研发经费训练数据；按不同省份，对研发经费训练数据进行分类；根据分类结果，对各省份研发经费训练数据按年份从小达到进行排序，并将排序结果存储至预先构建的第三表格中，第三表格的列名为经费，行名为年份；根据排序结果选择前80%作为训练集，后20%作为测试集；从训练集中选择相邻年份的研发经费训练数据进行分差处理，并根据分差处理结果更新第三表格对应元素位置的值；再将更新后的第三表格中的数据通过DataFrame的shift()和concat()函数处理为监督学习集的数据格式，即把前一个数作为输入，后一个数作为一个对应的输出格式的数组元素用长短期记忆网络（LSTM）进行训练。

在一个可选实施例中，训练长短期记忆网络（LSTM），包括：创建一个缩放器，将训练集和测试集的数据缩放到-1到1之间；训练集中的输入和输出两列分为x和y，并将输入列转换为三维数组；设置初始值为一个训练样本为1，次数为10，4个LSTM层神经元的LSTM训练模型，利用测试集对训练模型进行测试，并将测试结果通过逆缩放和逆差分还原到原来的测试范围内；将测试集的y值和预测的值进行标准差以评估模型的好坏，直至评估结果达到预设标准时，停止训练。

需要说明的是，以工作单位为预测对象以及以涉及领域为预测对方，利用长短期记忆网络（LSTM）进行经费预测可参考上文预测的工作省份预测研发经费，此处不作进一步地限定。另外，在对应训练LSTM网络时，数据可以通过教育部网站获得所有高校每年的研究与试验发展经费，并采用和预测省份的研究与时间发展经费的方法过程训练出高校的研究与试验发展经费模型，并用此模型预测出各知识工作者的工作单位研发经费。

Sd，根据更新后的第二DataFrame二维表，并利用多元线性回归算法，得到各知识工作者下一未来年份的预测贡献度，并将预测贡献度存储至第一DataFrame二维表，直至得到符合预设目标年数的预测贡献度。在本实施例中，各知识工作者下一未来年份的预测贡献度表示为：

其中，Y表示对应知识工作者下一未来年份的预测贡献度，θ_j（j=1,2,…,n）表示回归系数，n可以根据历史研发费用信息的类别数量确定，比如历史研发费用信息包括工作省份历史研发费用、工作单位历史研发费用和涉及领域历史研发费用时，n=6；再比如历史研发费用信息包括工作省份历史研发费用、工作单位历史研发费用和涉及领域历史研发费用中任意两项时，n=5，此处不作进一步地限定，θ₀表示偏置项，X_i表示第一DataFrame二维表中对应列第i列数据（i=j）。

在一个可选实施例中，采用下批量梯度下降法训练多元线性回归网络，具体表示为：

其中，α表示学习率，初始值可以设置为0.001；h_ϴ表示初始模型设置的参数值，k表示训练样本的数量，直至损失率最好时，训练结束，得到训练好的多元线性回归模型，从而便于对贡献度进行预测。另外，损失率可以根据基于第一DataFrame二维表中对应的当前年份及历史年份的贡献度与训练过程中预测得到的对应年份的预测贡献度构建的损失函数确定。

综上所述，本发明实施例通过分级画像的方式，分别画像出个知识工作者的基本信息画像、专业技能信息画像和贡献度画像，实现了初粒度到细粒度的画像，提高了画像的精度，便于量化知识工作者的画像，既便于从时间发展线看每个知识工作者的画像信息的变化情况，又能够根据基本信息画像、专业技能信息画像和贡献度画像，并结合知识工作者所在省份、所在工作单位的研发经费，对贡献度进行预测，提高了贡献度预测的精度。

下面对本发明提供的基于知识工作者画像的贡献度预测装置进行描述，下文描述的基于知识工作者画像的贡献度预测装置与上文描述的基于知识工作者画像的贡献度预测方法可相互对应参照。

图2示出了一种基于知识工作者画像的贡献度预测装置的结构示意图，该装置，包括：

信息获取模块21，获取知识工作者信息，知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据多个知识工作者的主页介绍信息构建主页介绍信息表；

第一画像构建模块22，基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各知识工作者的基本信息画像；

第二画像构建模块23，根据论文信息，获取关键字，并根据关键字构建对应知识工作者的专业技能信息画像；

第三画像构建模块24，根据论文信息和专利信息，获取对应贡献度得分，并基于贡献度得分构建对应知识工作者的贡献度画像；

画像获取模块25，根据基本信息画像、专业技能信息画像和贡献度画像，得到对应知识工作者的画像；

贡献度预测模块26，根据知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果。

在本实施例中，第一画像构建模块22，包括：第一数据提取单元，基于XML路径语言xpath，分别提取主页介绍信息表中各知识工作者的主页介绍信息的长度阈值小于第一预设阈值的目标文字，得到对应各主页介绍信息的目标文字集合；第一解析单元，循环各目标文字集合中的目标文字，并结合xpath进行解析，得到对应目标文字的位置路径；文本信息获取单元，根据目标文字的位置路径和目标文字，得到位于目标文字和目标文字集合中临近目标文字的下一目标文字之间的中间文本，以及得到中间文本对应的文本长度；第一矩阵构建单元，根据目标文字、目标文字的位置路径、目标文字与下一目标文字之间的中间文本和中间文本的文本长度，构建第一矩阵；第一集合获取单元，判断能否从第一矩阵中提取文本长度大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，若可以提取，则提取相应目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，并根据提取的目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，得到对应各个目标文字的第一集合；第一分布式数据集构建单元，将预先构建的主题标签基础表中各个主题标签作为行索引名称，将第一集合中的目标文字作为列索引名称，以及将基于行索引名称对应的主题标签和列索引名称对应的目标文字得到的第一相似度作为矩阵元素，构建分布式数据集DataFrame表；第一更新单元，根据DataFrame表和第一集合，将目标文字对应的中间文本作为预先构建的目标主题表中对应主题标签的文本内容，将目标文字对应的最大第一相似度对应的主题标签作为目标主题表的主题标签，并将相应主页介绍信息的编号添加至目标主题表中，以对目标主题表进行更新，同时更新对应主页介绍信息表的主题标签属性为第一设定值；其中，主题标签属性用于定义主页介绍信息表中是否包含主题标签；基本信息画像单元，根据主页介绍信息表的主题标签属性为第一设定值以及更新后的目标主题表，构建对应各个知识工作者的基本信息画像。

更进一步地说，第一矩阵构建单元，包括：将目标文字、目标文字的位置路径、目标文字和下一目标文字之间的中间文本和中间文本的文本长度作为同一行不同列的矩阵元素，构建第一矩阵。

另外，第一集合获取单元，包括：聚类子单元，若无法提取，则根据目标文字的位置路径，对第一矩阵中目标文字的位置路径进行聚类；第一排序子单元，根据聚类后各蔟包含的目标文字位置路径的数量，按从大到小排序；第一查找子单元，根据排序结果对相应目标文字的位置路径进行迭代查找，得到对应各级位置路径的路径标签、路径标签的类名属性Class值和路径标签的id值；第二查找子单元，根据各级位置路径的路径标签、路径标签的类名属性Class值和路径标签的id值，在预设代码文件中进行代码查找，若能够查询到相应代码，则利用查询到的代码对应的加载文本、显示文本或隐藏文本更新第一矩阵中对应位置路径的中间文本，以及利用查询到的代码对应的加载文本、显示文本或隐藏文本的文本长度更新对应位置路径对应更新后的第一矩阵中中间文本的文本长度；集合构建子单元，判断更新后的第一矩阵中是否存在文本长度大于第四预设阈值的中间文本，若存在，则提取相应中间文本及其文本长度和对应目标文字及其对应位置路径，并根据提取的相应中间文本及其文本长度和对应目标文字及其对应位置路径，得到对应各个目标文字的第一集合。

在一个可选实施例中，第一画像构建模块22，还包括：在判断文本长度不大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差超过第三预设阈值时，即无法提取时，则利用数值设定单元将对应主页介绍信息表的主题标签属性为第二设定值；拆分单元，循环读取主题标签属性为第二设定值的主页介绍信息表，并对主页介绍信息表中各主页介绍信息的每条信息分别进行拆分，得到对应各条信息的段落；第二矩阵构建单元，根据信息的条数作为列索引名称，根据信息对应的最大段落数确定行索引名称，将各条信息的每个段落作为矩阵元素，构建第一DataFrame矩阵；第三矩阵构建单元，循环读取更新后的目标主题表中各个主题标签的文本内容，并将各文本内容作为第一列的矩阵元素，将文本内容对应的主题标签作为文本内容同行的第二列矩阵元素，构建第二DataFrame矩阵；相似度获取单元，分别获取第一DataFrame矩阵中的各信息的每个段落与第二DataFrame矩阵的第一列的每个文本内容的第二相似度；第二更新单元，根据第一DataFrame矩阵中的各信息的每个段落，对第二相似度对应的主题标签进行聚类，并根据聚类结果将每蔟中第二相似度和的最大值对应的主题标签作为对应信息段落的主题标签，利用信息的每个段落及信息的每个段落的主题标签，并将相应主页介绍信息的编号添加到目标主题表中，以更新目标主题表，同时更新对应主页介绍信息表的主题标签属性为第一设定值；再利用基本信息画像单元根据主页介绍信息表的主题标签属性为第一设定值以及更新后的目标主题表，构建对应各个知识工作者的基本信息画像。

在一个可选实施例中，循环读取更新后的目标主题表中各个主题标签的文本内容，包括：根据预设设置的随机种子，随机读取各个主题标签中符合预设数量的文本内容。

另外，在本实施例中，基本信息画像单元，包括：第一信息获取子单元，循环读取目标主题表中的主题标签为基本信息的文本内容，并结合预设正则表达式，匹配出邮箱、移动电话、固定电话和出生日期，以及将匹配出的邮箱、移动电话、固定电话和出生日期对应存储至主页介绍信息表中；第二信息获取子单元，循环读取目标主题表中主题标签为基本信息、学习经历、工作经历和所获荣誉的文本内容，并结合预设字典表，匹配出职称、学位、职位和荣誉，以及将匹配出的职称、学位、职位和荣誉对应存储至主页介绍信息表中；第三信息获取子单元，采用结巴分词，对目标主题表中主题标签为基本信息和工作经历的文本内容进行分词，并根据词性得到对应姓名、工作单位和工作省份，并将姓名、工作单位和工作省份存储至主页介绍信息表中，得到对应知识工作者的基本信息画像。

第二画像构建模块23，包括：关键字提取单元，基于论文信息包含关键字，获取关键字；或者，关键字预测单元，基于论文信息不包含关键字，将论文信息输入至关键字预测模型中，得到关键字预测模型输出的预测关键字，其中，关键字预测模型是基于论文训练信息和论文训练信息对应的关键字标签训练得到的。

在一个可选实施例中，第二画像构建模块23，还包括训练单元，训练关键字预测单元。训练单元，包括：信息获取子单元，获取所有知识工作者发布的期刊中有关键字的论文信息作为语料，论文信息包括标题和摘要；信息处理子单元，将获取的有关键字的论文信息进行清洗和去掉停顿词，得到论文训练信息；训练子单元，将80%论文训练信息作为训练集合，20%论文训练信息作为测试集合，将关键字作为标签，对模型进行训练。

第三画像构建模块24，包括：作品信息获取单元，根据论文信息和专利信息，获取每个知识工作者的作品信息，作品信息包括多个作品、对应每个作品的作者属性以及各个作品的引用信息；第一得分获取单元，基于作者属性为独立作者，获取所有作者属性为独立作者的作品数量，并根据作品数量和每篇作品对应的预设贡献度得分，得到第一得分；第二得分获取单元，基于作者属性为非独立作者，则根据预设第一作者贡献度、预设贡献度得分和作者总数，得到对应作品的第二得分；第三得分获取单元，根据各个作品的引用信息，并结合单个作品的预设引用得分和作品对应的作者总数，得到知识工作者各个被引用作品的第三得分；贡献度得分获取单元，根据知识工作者作为独立作者的第一得分、知识工作者作为非独立工作者对应的所有作品的第二得分和知识工作者各个被引用作品的第三得分。

更进一步地说，当知识工作者为第一作者时，第二得分获取单元，包括：差值获取子单元，根据第一作者贡献度和预设贡献度得分，得到差值；比值获取子单元，根据差值与作者总数，得到比值；第二得分获取子单元，根据比值和第一作者贡献度，得到总分，并将总分作为对应作品的第二得分。当知识工作者为非第一作者时，第二得分获取单元，包括：差值获取子单元，根据第一作者贡献度和预设贡献度得分，得到差值；第二得分获取子单元，根据差值与作者总数，得到比值，并将比值作为对应作品的第二得分。

另外，第三得分获取单元，包括：引用次数确定子单元，根据各个作品的引用信息，确定对应各知识工作者的各个作品的被引用次数；引用贡献度获取子单元，根据对应各知识工作者的各作品的被引用次数，结合单个作品的预设引用得分，得到对应作品被引用的贡献度；第三得分获取子单元，根据各作品被引用的贡献度，结合对应作品的作者总数，得到知识工作者对应被引用作品的第三得分。

贡献度预测模块26，包括：第一二维表构建单元，根据知识工作者的画像，得到每个知识工作者对应各个年份的历史研发费用信息、学习年份、年龄、工作年数和贡献度，并构建对应各知识工作者的第一DataFrame二维表；第二二维表获取单元，循环读取第一DataFrame二维表中的历史研发费用信息、学习年份、年龄和工作年数以进行归一化处理，并将归一化处理结果对应存储至第一DataFrame二维表中，得到第二DataFrame二维表；经费预测单元，根据历史研发费用信息，得到各知识工作者对应的预测研发经费信息，并利用预测研发经费信息更新第二DataFrame二维表；贡献度预测单元，根据更新后的第二DataFrame二维表，并利用多元线性回归算法，得到各知识工作者下一未来年份的预测贡献度，并将预测贡献度存储至第一DataFrame二维表，直至得到符合预设目标年数的预测贡献度。

进一步地，经费预测单元，包括：经费分类子单元，基于预先获取的历史研发费用信息，分别按预设类别进行分类，得到对应各个类别的历史研发费用；历史研发费用信息包括工作省份历史研发费用、工作单位历史研发费用和涉及领域历史研发费用三种类别中的至少一种类别；经费排序子单元，按预设类别，分别将各类别的历史研发费用按年份从小到大排序，得到对应各类别历史研发费用的排序结果；分差处理子单元，分别从对应各类别历史研发费用的排序结果中获取相邻年份的历史研发费用信息，并对其进行分差处理；经费预测子单元，根据分差处理结果进行预测，得到预测研发经费信息；预测研发经费信息包括符合预设目标年数对应的各年份的预测研发经费。

综上所述，本发明实施例通过第一画像构建模块、第二画像构建模块和第三画像构建模块进行分级画像，分别画像出个知识工作者的基本信息画像、专业技能信息画像和贡献度画像，实现了初粒度到细粒度的画像，提高了画像的精度，便于量化知识工作者的画像，既便于从时间发展线看每个知识工作者的画像信息的变化情况，又能够便于贡献度预测模块根据基本信息画像、专业技能信息画像和贡献度画像，并结合知识工作者所在省份、所在工作单位的研发经费，对贡献度进行预测，提高了贡献度预测的精度。

本发明还提供一种电子设备，该电子设备可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的逻辑指令，以执行基于知识工作者画像的贡献度预测方法，该方法包括：获取知识工作者信息，知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据多个知识工作者的主页介绍信息构建主页介绍信息表；基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各知识工作者的基本信息画像；根据论文信息，获取关键字，并根据关键字构建对应知识工作者的专业技能信息画像；根据论文信息和专利信息，获取对应贡献度得分，并基于贡献度得分构建对应知识工作者的贡献度画像；根据基本信息画像、专业技能信息画像和贡献度画像，得到对应知识工作者的画像；根据知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于知识工作者画像的贡献度预测方法，该方法包括：获取知识工作者信息，知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据多个知识工作者的主页介绍信息构建主页介绍信息表；基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各知识工作者的基本信息画像；根据论文信息，获取关键字，并根据关键字构建对应知识工作者的专业技能信息画像；根据论文信息和专利信息，获取对应贡献度得分，并基于贡献度得分构建对应知识工作者的贡献度画像；根据基本信息画像、专业技能信息画像和贡献度画像，得到对应知识工作者的画像；根据知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于知识工作者画像的贡献度预测方法，该方法包括：获取知识工作者信息，知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据多个知识工作者的主页介绍信息构建主页介绍信息表；基于主页介绍信息表中各知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各知识工作者的基本信息画像；根据论文信息，获取关键字，并根据关键字构建对应知识工作者的专业技能信息画像；根据论文信息和专利信息，获取对应贡献度得分，并基于贡献度得分构建对应知识工作者的贡献度画像；根据基本信息画像、专业技能信息画像和贡献度画像，得到对应知识工作者的画像；根据知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识工作者画像的贡献度预测方法，其特征在于，包括：

获取知识工作者信息，所述知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据所述多个知识工作者的主页介绍信息构建主页介绍信息表；

基于所述主页介绍信息表中各所述知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各所述知识工作者的基本信息画像；

根据所述论文信息，获取关键字，并根据所述关键字构建对应知识工作者的专业技能信息画像；

根据所述论文信息和所述专利信息，获取对应贡献度得分，并基于所述贡献度得分构建对应知识工作者的贡献度画像；

根据所述基本信息画像、所述专业技能信息画像和所述贡献度画像，得到对应知识工作者的画像；

根据所述知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果；

所述基于所述主页介绍信息表中各所述知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应所述知识工作者的基本信息画像，包括：

基于XML路径语言xpath，分别提取所述主页介绍信息表中各所述知识工作者的主页介绍信息的长度阈值小于第一预设阈值的目标文字，得到对应各主页介绍信息的目标文字集合；

循环各所述目标文字集合中的目标文字，并结合xpath进行解析，得到对应所述目标文字的位置路径；

根据所述目标文字的位置路径和所述目标文字，得到位于所述目标文字和所述目标文字集合中临近所述目标文字的下一目标文字之间的中间文本，以及得到所述中间文本对应的文本长度；

根据所述目标文字、所述目标文字的位置路径、所述目标文字与所述下一目标文字之间的中间文本和所述中间文本的文本长度，构建第一矩阵；

判断能否从所述第一矩阵中提取文本长度大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，若可以提取，则提取相应目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，并根据提取的目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，得到对应各个目标文字的第一集合；

将预先构建的主题标签基础表中各个主题标签作为行索引名称，将所述第一集合中的目标文字作为列索引名称，以及将基于所述行索引名称对应的主题标签和所述列索引名称对应的目标文字得到的第一相似度作为矩阵元素，构建分布式数据集DataFrame表；

根据所述DataFrame表和所述第一集合，将所述目标文字对应的中间文本作为预先构建的目标主题表中对应主题标签的文本内容，将所述目标文字对应的最大第一相似度对应的主题标签作为所述目标主题表的主题标签，并将相应主页介绍信息的编号添加至所述目标主题表中，以对所述目标主题表进行更新，同时更新对应主页介绍信息表的主题标签属性为第一设定值；其中，所述主题标签属性用于定义所述主页介绍信息表中是否包含主题标签；

根据所述主页介绍信息表的主题标签属性为第一设定值以及更新后的目标主题表，构建对应各个知识工作者的基本信息画像；

所述根据所述知识工作者的画像，对相应知识工作者的贡献度进行预测，包括：

Sa，根据所述知识工作者的画像，得到每个知识工作者对应各个年份的历史研发费用信息、学习年份、年龄、工作年数和贡献度，并构建对应各所述知识工作者的第一DataFrame二维表；

Sb，循环读取所述第一DataFrame二维表中的历史研发费用信息、学习年份、年龄和工作年数以进行归一化处理，并将归一化处理结果对应存储至所述第一DataFrame二维表中，得到第二DataFrame二维表；

Sc，根据所述历史研发费用信息，得到各所述知识工作者对应的预测研发经费信息，并利用所述预测研发经费信息更新所述第二DataFrame二维表；

Sd，根据更新后的第二DataFrame二维表，并利用多元线性回归算法，得到各所述知识工作者下一未来年份的预测贡献度，并将所述预测贡献度存储至所述第一DataFrame二维表，直至得到符合预设目标年数的预测贡献度。

2.根据权利要求1所述的基于知识工作者画像的贡献度预测方法，其特征在于，判断能否从所述第一矩阵中提取文本长度大于第二预设阈值中的间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，还包括：

若无法提取，则根据所述目标文字的位置路径，对所述第一矩阵中目标文字的位置路径进行聚类，并根据聚类后各蔟包含的目标文字位置路径的数量，按从大到小排序，并根据排序结果对相应目标文字的位置路径进行迭代查找，得到对应各级位置路径的路径标签、所述路径标签的类名属性Class值和所述路径标签的id值；

根据所述各级位置路径的路径标签、所述路径标签的类名属性Class值和所述路径标签的id值，在预设代码文件中进行代码查找，若能够查询到相应代码，则利用查询到的代码对应的加载文本、显示文本或隐藏文本更新所述第一矩阵中对应位置路径的中间文本，以及利用查询到的代码对应的加载文本、显示文本或隐藏文本的文本长度更新对应位置路径对应更新后的第一矩阵中中间文本的文本长度；

判断更新后的第一矩阵中是否存在文本长度大于第四预设阈值的中间文本，若存在，则提取相应中间文本及其文本长度和对应目标文字及其对应位置路径，并根据提取的相应中间文本及其文本长度和对应目标文字及其对应位置路径，得到对应各个目标文字的第一集合。

3.根据权利要求1所述的基于知识工作者画像的贡献度预测方法，其特征在于，判断能否从所述第一矩阵中提取文本长度大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，还包括：

若无法提取，则对应主页介绍信息表的主题标签属性为第二设定值；

循环读取所述主题标签属性为第二设定值的主页介绍信息表，并对所述主页介绍信息表中各主页介绍信息的每条信息分别进行拆分，得到对应各条信息的段落；

根据所述信息的条数确定列索引名称，根据所述信息对应的最大段落数确定行索引名称，将各条所述信息的每个段落作为矩阵元素，构建第一DataFrame矩阵；

循环读取更新后的目标主题表中各个主题标签的文本内容，并将各所述文本内容作为第一列的矩阵元素，将所述文本内容对应的主题标签作为所述文本内容同行的第二列矩阵元素，构建第二DataFrame矩阵；

分别获取所述第一DataFrame矩阵中的各所述信息的每个段落与所述第二DataFrame矩阵的第一列的每个文本内容的第二相似度；

根据所述第一DataFrame矩阵中的各所述信息的每个段落，对所述第二相似度对应的主题标签进行聚类，并根据聚类结果将每蔟中第二相似度和的最大值对应的主题标签作为对应信息段落的主题标签，利用所述信息的每个段落及所述信息的段落的主题标签，并将相应主页介绍信息的编号添加到所述目标主题表中，以更新所述目标主题表，同时更新对应主页介绍信息表的主题标签属性为第一设定值；

根据所述主页介绍信息表的主题标签属性为第一设定值以及更新后的目标主题表，构建对应各个知识工作者的基本信息画像。

4.根据权利要求1所述的基于知识工作者画像的贡献度预测方法，其特征在于，所述构建对应各个知识工作者的基本信息画像，包括：

循环读取所述目标主题表中的主题标签为基本信息的文本内容，并结合预设正则表达式，匹配出邮箱、移动电话、固定电话和出生日期，以及将匹配出的邮箱、移动电话、固定电话和出生日期对应存储至所述主页介绍信息表中；

循环读取所述目标主题表中的主题标签为基本信息、学习经历、工作经历和所获荣誉的文本内容，并结合预设字典表，匹配出职称、学位、职位和荣誉，以及将匹配出的职称、学位、职位和荣誉对应存储至所述主页介绍信息表中；

采用结巴分词，对所述目标主题表中的主题标签为基本信息和工作经历的文本内容进行分词，并根据词性得到对应姓名、工作单位和工作省份，并将所述姓名、所述工作单位和所述工作省份存储至主页介绍信息表中，得到对应知识工作者的基本信息画像。

5.根据权利要求1所述的基于知识工作者画像的贡献度预测方法，其特征在于，所述根据所述论文信息，获取关键字，包括：

基于所述论文信息包含关键字，获取关键字；或者，

基于所述论文信息不包含关键字，将所述论文信息输入至关键字预测模型中，得到所述关键字预测模型输出的预测关键字，其中，所述关键字预测模型是基于论文训练信息和所述论文训练信息对应的关键字标签训练得到的。

6.根据权利要求1所述的基于知识工作者画像的贡献度预测方法，其特征在于，所述根据所述论文信息和所述专利信息，获取对应贡献度得分，包括：

根据所述论文信息和所述专利信息，获取每个知识工作者的作品信息，所述作品信息包括多个作品、对应每个作品的作者属性以及各个作品的引用信息；

基于所述作者属性为独立作者，获取所有所述作者属性为独立作者的作品数量，并根据所述作品数量和每篇作品对应的预设贡献度得分，得到第一得分；

基于所述作者属性为非独立作者，则根据预设第一作者贡献度、所述预设贡献度得分和作品对应的作者总数，得到对应作品的第二得分；

根据所述各个作品的引用信息，并结合单个作品的预设引用得分和作品对应的作者总数，得到所述知识工作者各个被引用作品的第三得分；

根据所述知识工作者作为独立作者的第一得分、所述知识工作者作为非独立工作者对应的所有作品的第二得分和所述知识工作者各个被引用作品的第三得分，得到贡献度得分。

7.根据权利要求1所述的基于知识工作者画像的贡献度预测方法，其特征在于，所述根据所述历史研发费用信息，得到各所述知识工作者对应的预测研发经费，包括：

基于预先获取的历史研发费用信息，分别按预设类别进行分类，得到对应各个类别的历史研发费用；所述历史研发费用信息包括工作省份历史研发费用、工作单位历史研发费用和涉及领域历史研发费用三种类别中的至少一种类别；

按所述预设类别，分别将所述各个类别的历史研发费用按年份从小到大排序，得到对应各类别历史研发费用的排序结果；

分别从对应各类别历史研发费用的排序结果中获取相邻年份的历史研发费用，并对其进行分差处理，根据分差处理结果进行预测，得到预测研发经费信息；所述预测研发经费信息包括符合所述预设目标年数对应的各年份的预测研发经费。

8.一种基于知识工作者画像的贡献度预测装置，其特征在于，包括：

信息获取模块，获取知识工作者信息，所述知识工作者信息包括多个知识工作者的主页介绍信息、论文信息和专利信息，以及根据所述多个知识工作者的主页介绍信息构建主页介绍信息表；

第一画像构建模块，基于所述主页介绍信息表中各所述知识工作者的主页介绍信息分别对应的网页结构，对相应主页介绍信息进行解析，生成对应各所述知识工作者的基本信息画像；

第二画像构建模块，根据所述论文信息，获取关键字，并根据所述关键字构建对应知识工作者的专业技能信息画像；

第三画像构建模块，根据所述论文信息和所述专利信息，获取对应贡献度得分，并基于所述贡献度得分构建对应知识工作者的贡献度画像；

画像获取模块，根据所述基本信息画像、所述专业技能信息画像和所述贡献度画像，得到对应知识工作者的画像；

贡献度预测模块，根据所述知识工作者的画像，对相应知识工作者的贡献度进行预测，得到贡献度预测结果；

所述第一画像构建模块，包括：

第一数据提取单元，基于XML路径语言xpath，分别提取所述主页介绍信息表中各所述知识工作者的主页介绍信息的长度阈值小于第一预设阈值的目标文字，得到对应各主页介绍信息的目标文字集合；

第一解析单元，循环各所述目标文字集合中的目标文字，并结合xpath进行解析，得到对应所述目标文字的位置路径；

文本信息获取单元，根据所述目标文字的位置路径和所述目标文字，得到位于所述目标文字和所述目标文字集合中临近所述目标文字的下一目标文字之间的中间文本，以及得到所述中间文本对应的文本长度；

第一矩阵构建单元，根据所述目标文字、所述目标文字的位置路径、所述目标文字与所述下一目标文字之间的中间文本和所述中间文本的文本长度，构建第一矩阵；

第一集合获取单元，判断能否从所述第一矩阵中提取文本长度大于第二预设阈值的中间文本、且其对应目标文字的位置路径相差不超过第三预设阈值，若可以提取，则提取相应目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，并根据提取的目标文字以及对应提取的目标文字的位置路径、中间文本和文本长度，得到对应各个目标文字的第一集合；

第一分布式数据集构建单元，将预先构建的主题标签基础表中各个主题标签作为行索引名称，将所述第一集合中的目标文字作为列索引名称，以及将基于所述行索引名称对应的主题标签和所述列索引名称对应的目标文字得到的第一相似度作为矩阵元素，构建分布式数据集DataFrame表；

第一更新单元，根据所述DataFrame表和所述第一集合，将所述目标文字对应的中间文本作为预先构建的目标主题表中对应主题标签的文本内容，将所述目标文字对应的最大第一相似度对应的主题标签作为所述目标主题表的主题标签，并将相应主页介绍信息的编号添加至所述目标主题表中，以对所述目标主题表进行更新，同时更新对应主页介绍信息表的主题标签属性为第一设定值；其中，所述主题标签属性用于定义所述主页介绍信息表中是否包含主题标签；

基本信息画像单元，根据所述主页介绍信息表的主题标签属性为第一设定值以及更新后的目标主题表，构建对应各个知识工作者的基本信息画像；

所述贡献度预测模块，包括：

第一二维表构建单元，根据所述知识工作者的画像，得到每个知识工作者对应各个年份的历史研发费用信息、学习年份、年龄、工作年数和贡献度，并构建对应各所述知识工作者的第一DataFrame二维表；

第二二维表获取单元，循环读取所述第一DataFrame二维表中的历史研发费用信息、学习年份、年龄和工作年数以进行归一化处理，并将归一化处理结果对应存储至所述第一DataFrame二维表中，得到第二DataFrame二维表；

经费预测单元，根据所述历史研发费用信息，得到各所述知识工作者对应的预测研发经费信息，并利用所述预测研发经费信息更新所述第二DataFrame二维表；

贡献度预测单元，根据更新后的第二DataFrame二维表，并利用多元线性回归算法，得到各所述知识工作者下一未来年份的预测贡献度，并将所述预测贡献度存储至所述第一DataFrame二维表，直至得到符合预设目标年数的预测贡献度。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于知识工作者画像的贡献度预测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于知识工作者画像的贡献度预测方法的步骤。