CN112199939A

CN112199939A - 一种评审专家智能推荐方法和存储介质

Info

Publication number: CN112199939A
Application number: CN202011258302.0A
Authority: CN
Inventors: 何维; 章彬; 汪桢子; 汪伟
Original assignee: Shenzhen Power Supply Co ltd
Current assignee: Shenzhen Power Supply Co ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-01-08
Anticipated expiration: 2040-11-12
Also published as: CN112199939B

Abstract

本发明涉及一种评审专家智能推荐方法和存储介质，该方法包括：获取待评审项目的申报材料电子文档，并对其进行文本提取得到待评审项目的待评审文本信息；获取历史项目数据库中的所有历史评审项目的申报材料电子文档以及评审专家信息，并对其进行文本提取得到所有历史评审项目的历史文本信息；根据待评审文本信息与多个历史评审项目的历史文本信息计算多个历史评审项目与待评审项目的相似度，并根据相似度确定多个历史评审项目的评审专家与待评审项目的第一关联度；根据所有评审专家的第一关联度生成推荐信息，并发送至显示单元进行显示。通过本发明，能够实现评审专家与待审项目智能匹配分析，以提升专家遴选辅助决策支撑力度。

Description

一种评审专家智能推荐方法和存储介质

技术领域

本发明涉及软件信息技术领域，具体涉及一种评审专家智能推荐方法和存储介质。

背景技术

随着电力改革不断深入、科学技术不断持续发展，电网公司各专业领域的科学技术研究项目立项评审越来越多，在立项评审时，需要相关领域的专家人员对申报的科技项目进行评审，判断该项目是否有立项的必要性。目前，立项评审工作采用人工从专家库中遴选评审专家的方式，难以保障遴选效率及评审专家专业性匹配度，因此，亟需实现评审专家与待审项目智能匹配分析，以提升专家遴选辅助决策支撑力度。

发明内容

本发明的目的在于提出一种评审专家智能推荐方法和存储介质，以实现评审专家与待审项目智能匹配分析，以提升专家遴选辅助决策支撑力度。

根据第一方面，本发明实施例提出一种评审专家智能推荐方法，包括：

步骤S10、获取待评审项目的申报材料电子文档，并对其进行文本提取得到待评审项目的待评审文本信息；

步骤S20、获取历史项目数据库中的所有历史评审项目的申报材料电子文档以及评审专家信息，并对其进行文本提取得到所有历史评审项目的历史文本信息；

步骤S30、根据所述待评审文本信息与所述多个历史评审项目的历史文本信息计算所述多个历史评审项目与所述待评审项目的相似度，并根据所述相似度确定所述多个历史评审项目的评审专家与所述待评审项目的第一关联度；

步骤S40、根据所述所有评审专家的第一关联度生成推荐信息，并发送至显示单元进行显示。

可选地，所述待评审文本信息包括待评审标题信息和待评审长文本信息；所述历史文本信息包括历史标题信息和历史长文本信息；其中长文本信息为研究内容或摘要；

其中，所述待评审项目与任一历史评审项目的相似度计算如下：

根据所述待评审标题信息和历史标题信息进行短文本相似度计算得到历史评审项目与所述待评审项目的第一相似度；

根据所述待评审长文本信息和历史长文本信息进行长文本相似度计算得到历史评审项目与所述待评审项目的第二相似度；

根据所述第一相似度和所述第二相似度计算历史评审项目与所述待评审项目的相似度。

可选地，所述根据所述待评审标题信息和历史标题信息进行短文本相似度计算得到历史评审项目与所述待评审项目的第一相似度，包括：

步骤a、获取所述待评审标题信息与任一历史评审项目的历史标题信息之间的最长连续公共子串，并将所述待评审标题信息与该历史评审项目的历史标题信息分别去除所述最长连续公共子串后得到第一字符串和第二字符串；

步骤b、计算所述第一字符串和第二字符串之间的编辑距离；

步骤c、根据所述编辑距离计算所述待评审标题信息与该历史评审项目的历史标题信息的相似度。

可选地，所述步骤a具体包括：

步骤a1、设所述待评审标题信息为字符串s₁，所述第i个历史评审项目的历史标题信息为字符串s₂；

步骤a2、求出字符串s₁和s₂的最长连续公共子串s_z；

步骤a3、如果最长连续公共子串s_z的长度大于2，则分别将字符串s₁和s₂中的s_z去除后得到新的2个字符串s₁₀和s₂₀，并令s₁＝s₁₀，s₂＝s₂₀后返回步骤a2；如果最长连续公共子串s_z的长度小于等于2，则输出s₁₀作为第一字符串，s₂₀作为第二字符串。

可选地，所述待评审标题信息与任一个历史评审项目的历史标题信息的相似度计算，包括：

其中，s₁表示第一字符串，s₂表示第二字符串，sim(s₁,s₂)表示所述编辑距离计算所述待评审标题信息与任一历史评审项目的历史标题信息的相似度，ED表示第一字符串和第二字符串之间的编辑距离，len(s₁)表示第一字符串的长度，len(s₂)表示第二字符串的长度。

可选地，所述根据所述待评审长文本信息和历史长文本信息进行长文本相似度计算得到历史评审项目与所述待评审项目的第二相似度，包括：

将所述待评审长文本信息与历史评审项目的历史长文本信息分别输入预先训练好的Doc2vec模型，输出对应的待评审段落向量和历史评审项目的历史段落向量；

根据所述待评审段落向量和历史评审项目的历史段落向量计算历史评审项目与所述待评审项目的第二相似度。

可选地，所述方法还包括步骤S31；

所述步骤S31包括：获取专家数据库中的所有评审专家信息，根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第二关联度；

其中，所述步骤S40具体包括：根据所述所有评审专家与所述待评审项目的第二关联度和第一关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度，并将所述待评审项目匹配度进行由高至低排序后生成推荐信息，发送至显示单元进行显示。

可选地，其中，所述待评审项目的文本信息包括项目所属技术领域；所述评审专家信息包括专家所属技术领域以及专业性分值；

其中，所述根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第二关联度，包括：

若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相同，则该评审专家与所述待评审项目的第二关联度等于M1加上其专业性分值；其中M1为预设分值；

若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相近，则该评审专家与所述待评审项目的第二关联度等于M2加上其专业性分值；其中M2为预设分值；且M2小于M1；

若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域不相同且不相近，则该评审专家与所述待评审项目的第二关联度等于0。

可选地，所述根据所述所有评审专家与所述待评审项目的第二关联度和第一关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度，包括：

若所述专家数据库中任一评审专家信息与一个历史评审项目的评审专家信息一致，则该评审专家与待评审项目的匹配度等于其第二关联度加上对应的第一关联度；

若所述专家数据库中任一评审专家信息与多个历史评审项目的评审专家信息一致，则该评审专家与待评审项目的匹配度等于对应的多个第一关联度的平均值乘以a再加上其第二关联度；其中，a＝(1+(n-1)/10)，n为该评审专家的历史评审项目的数量，n为整数，且n大于1；

若所述专家数据库中任一评审专家信息与任一历史评审项目的评审专家信息不一致，则该评审专家与待评审项目的匹配度等于其第二关联度。

根据第二方面，本发明实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的评审专家智能推荐方法的步骤。

本发明的实施例提出了一种评审专家智能推荐方法和存储介质，其通过获取待评审项目的申报材料电子文档，并对其进行文本提取得到待评审项目的待评审文本信息；获取历史项目数据库中的所有历史评审项目的申报材料电子文档以及评审专家信息，并对其进行文本提取得到所有历史评审项目的历史文本信息；根据所述待评审文本信息与所述多个历史评审项目的历史文本信息计算所述多个历史评审项目与所述待评审项目的相似度，并根据所述相似度确定所述多个历史评审项目的评审专家与所述待评审项目的第一关联度；根据所述所有评审专家的第一关联度生成推荐信息，并发送至显示单元进行显示；通过以上方案，本发明的实施例实现评审专家与待审项目智能匹配分析，以提升专家遴选辅助决策支撑力度。

本发明的其它特征和优点将在随后的具体实施方式中阐述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中一种评审专家智能推荐方法流程图。

图2为本发明一实施例中申请书模板示例图。

图3为本发明一实施例中一种评审专家智能推荐方法的具体流程图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。另外，为了更好地说明本发明，在下文的具体的实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的手段未作详细描述，以便于凸显本发明的主旨。

参阅图1，本发明一实施例提出一种评审专家智能推荐方法，包括步骤S10～步骤S30：

具体而言，所述文本提取的方法可以选用本领域中任一种，本实施例中不做具体限定。并且，为了便于进行文本提取，所述申报材料电子文档按照预设的申请书模板格式填写，所述申请书模板格式例如图2所示，并基于该申请书模板设计文本提取模型/算法。

其中，所述历史项目数据库存储有历史评审项目的申报材料电子文档以及对应的评审专家信息。为了减少计算量，本实施例中预先为每一评审专家设置一个唯一的专家编码；所述评审专家信息包括专家编码。

具体而言，所述相似度和第一关联度为对应关系，相似度的数值一般为0～1，此处将相似度转换为对应的第一关联度数值。

示例性地，可以是按第一关联度对所有评审专家进行排名，第一关联度越高，则排名越高，并生成所述推荐信息，所述推荐信息至少包括评审专家的排名、姓名、专业、学历、研究领域、年龄、工作经历等，用户通过显示单元显示的内容可以获知专家智能推荐情况，结合实际工作情况选择合适的评审专家。

综上，通过以上方案，本发明的实施例实现评审专家与待审项目智能匹配分析，以提升专家遴选辅助决策支撑力度。

可选地，所述待评审文本信息包括待评审标题信息和待评审长文本信息；所述历史文本信息包括历史标题信息和历史长文本信息；其中长文本信息为研究内容或摘要，如图2所示；

其中，步骤S30中所述待评审项目与任一历史评审项目的相似度计算如下：

步骤S301、根据所述待评审标题信息和历史标题信息进行短文本相似度计算得到历史评审项目与所述待评审项目的第一相似度；

步骤S302、根据所述待评审长文本信息和历史长文本信息进行长文本相似度计算得到历史评审项目与所述待评审项目的第二相似度；

步骤S303、根据所述第一相似度和所述第二相似度计算历史评审项目与所述待评审项目的相似度。

可选地，所述步骤S301，包括：

步骤b、计算所述第一字符串和第二字符串之间的编辑距离；具体而言，所述编辑距离是指两个子串之间，由一个子串转换为另一个子串所需的最少的编辑次数；其中编辑操作包括删除、插入、替换等；

可选地，所述步骤a具体包括：

步骤a2、求出字符串s₁和s₂的最长连续公共子串s_z；

可选地，所述步骤S302，包括：

例性地，两个段落向量之间的相似度可以根据它们之间的距离来确定，其中距离越近相似度越大。

可以理解的是，本实施例中长文本信息可以包括多个方面，例如项目摘要、主要研究内容等，每一个方面包括多个段落，可以将多个方面分开单独进行相似度计算；最终根据多个方面的相似度进行综合分析计算，例如取多个方面的相似度的平均值作为长文本相似度分析结果；又例如将多个方面的相似度分别乘以相应的预设权重之后累加作为长文本相似度分析结果；其中，对于某一个方面的相似度计算，例如待评审项目的E方面有n个段落，当前历史评审项目E方面有m个段落，将待评审项目的某一个方面的多个段落分别与当前历史评审项目对应的某一个方面的多个段落进行相似度计算后，待评审项目的E方面的每一段落有m个相似度计算数据，则待评审项目的E方面的n个段落有n×m个相似度计算数据，将n×m个相似度计算数据的相似度平均值作为待评审项目与当前历史评审项目在E方面的相似度。

具体而言，本实施例具体采用PV-DM(Distribute Memory Model of ParagraphVectors)训练方法训练所述Doc2vec模型，如2图所示为本实施例的Doc2vec PV-DM的框架图，由图2可以看出在加入单词级别的向量之外还有每个段落/句子的向量表示。例如对一句句子‘the cat sat on’，如果要预测句子中的单词on，那么不仅可以根据其他单词生成对应的特征，也可以根据其他单词和句子生成特征来进行预测。每一个段落/句子都被映射到向量空间中，可以用矩阵的一列来表示。每个单词同样被映射到向量空间，可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求平均得到特征，预测句子中的下一个单词。段落向量/句子向量也可以认为是一个单词，它的作用相当于是上下文的记忆单元或者是这个段落的主题。其中在训练时候，固定上下文长度，同样用滑动窗口的方法产生训练集。并且段落/句向量在该上下文中共享。本实施例Doc2vec模型的训练过程具体如下，主要有两步：

训练模型，在已知的训练数据中得到词向量，softmax参数以及段落向量/句向量。

推断过程(inference stage)，对于新的段落，得到其向量表达。具体的，在矩阵中添加更多的列，在固定长度的情况下，利用上述方法进行训练，使用梯度下降的方法得到新的D(段落向量矩阵)，从而得到新段落的向量表达。

可选地，所述方法还包括步骤S31；

示例性地，所述专业性分值指的是该专家在其所属技术领域的专业水平，所述评审专家信息包括多个维度的信息，例如姓名、专业、学历、研究领域(即专家所属技术领域)、年龄、工作经历、获奖情况、发表论文、项目经历等，其中，选取除“姓名”、“研究领域”以外的其他维度信息作为所述专业性分值的评分数据，假设有N个维度的评分数据，则根据每一个维度的评分数据分别计算该专家每个的评分，即获得N个评分，然后对该N个评分分别乘以预先设置的权重系数之后累加得到所述专业性分值，所述权重系数根据经验获得。为了提高方法的处理效率，所述专业性分值为在实施本实施例方法之前预先进行计算并存储在专家数据库中。其中，所述根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第二关联度，包括：

若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相同，则该评审专家与所述待评审项目的第二关联度等于M1加上其专业性分值，即G2＝M1+M0，其中G2为第一关联度，M0为评审专家的专业性分值；其中M1为预设分值；

若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相近，则该评审专家与所述待评审项目的第二关联度等于M2加上其专业性分值；其中M2为预设分值，即G2＝M2+M0，其中G2为第一关联度，M0为评审专家的专业性分值；且M2小于M1；

若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域不相同且不相近，则表示该专家不适合作为待评审项目的评审专家，则该评审专家与所述待评审项目的第二关联度G2等于0。

若所述专家数据库中任一评审专家信息与一个历史评审项目的评审专家信息一致，则该评审专家与待评审项目的匹配度等于其第二关联度G2加上对应的第一关联度G1，即匹配度P＝G1+G2；

若所述专家数据库中任一评审专家信息与多个历史评审项目的评审专家信息一致，则该评审专家与待评审项目的匹配度等于对应的多个第一关联度G1的平均值乘以a再加上其第二关联度G2；其中，a＝(1+(n-1)/10)，n为该评审专家的历史评审项目的数量，n为整数，且n大于1；

例如，当n为3时，即某一评审专家有3个历史评审项目，即有3个第二关联度，a＝1.2，即匹配度P＝G2+(G1₁+G1₂+G1₃)*a/3；G1₁、G1₂、G1₃分别为该评审专家3个历史评审项目与所述待评审项目的第二关联度；

若所述专家数据库中任一评审专家信息与任一历史评审项目的评审专家信息不一致，则该评审专家与待评审项目的匹配度等于其第二关联度G2。

具体而言，本实施例中所述专家数据库中的所有评审专家不一定具有历史项目评审经验，但具有历史项目评审经验的评审专家一定是当前专家数据库中的评审专家，并且，一个评审专家可以有多个历史项目评审经验，因此，本示例中提出了以上(2.1)～(2.3)的匹配度计算方式，(2.1)～(2.3)中根据专家信息中的专家姓名和年龄判断评审专家是否有历史项目评审经验；可以理解的是，基于上述(2.1)～(2.3)，对于第二关联度相同的两个评审专家，则具有丰富历史项目评审经验的评审专家的匹配度会相对较高。

本发明实施例还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述实施例所述的评审专家智能推荐方法。

示例性地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种评审专家智能推荐方法，其特征在于，包括：

2.根据权利要求1所述的评审专家智能推荐方法，其特征在于，所述待评审文本信息包括待评审标题信息和待评审长文本信息；所述历史文本信息包括历史标题信息和历史长文本信息；其中长文本信息为研究内容或摘要；

3.根据权利要求2所述的评审专家智能推荐方法，其特征在于，所述根据所述待评审标题信息和历史标题信息进行短文本相似度计算得到历史评审项目与所述待评审项目的第一相似度，包括：

步骤b、计算所述第一字符串和第二字符串之间的编辑距离；

4.根据权利要求3所述的评审专家智能推荐方法，其特征在于，所述步骤a具体包括：

步骤a2、求出字符串s₁和s₂的最长连续公共子串s_z；

5.根据权利要求3所述的评审专家智能推荐方法，其特征在于，所述待评审标题信息与任一个历史评审项目的历史标题信息的相似度计算，包括：

6.根据权利要求2所述的评审专家智能推荐方法，其特征在于，所述根据所述待评审长文本信息和历史长文本信息进行长文本相似度计算得到历史评审项目与所述待评审项目的第二相似度，包括：

7.根据权利要求1所述的评审专家智能推荐方法，其特征在于，所述方法还包括步骤S31；

8.根据权利要求7所述的评审专家智能推荐方法，其特征在于，其中，所述待评审项目的文本信息包括项目所属技术领域；所述评审专家信息包括专家所属技术领域以及专业性分值；

9.根据权利要求8所述的评审专家智能推荐方法，其特征在于，所述根据所述所有评审专家与所述待评审项目的第二关联度和第一关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-9中任一项所述评审专家智能推荐方法的步骤。