CN112381381A - 一种智能推荐专家的装置 - Google Patents

一种智能推荐专家的装置 Download PDF

Info

Publication number
CN112381381A
CN112381381A CN202011258480.3A CN202011258480A CN112381381A CN 112381381 A CN112381381 A CN 112381381A CN 202011258480 A CN202011258480 A CN 202011258480A CN 112381381 A CN112381381 A CN 112381381A
Authority
CN
China
Prior art keywords
historical
expert
review
information
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011258480.3A
Other languages
English (en)
Other versions
CN112381381B (zh
Inventor
汪伟
章彬
汪桢子
何维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN202011258480.3A priority Critical patent/CN112381381B/zh
Publication of CN112381381A publication Critical patent/CN112381381A/zh
Application granted granted Critical
Publication of CN112381381B publication Critical patent/CN112381381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063112Skill-based matching of a person or a group to a task
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063118Staff planning in a project environment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种智能推荐专家的装置,包括:待评审文本提取单元、历史文本提取单元、第一关联度计算单元、相似度计算单元、第二关联度计算单元、专家推荐信息生成单元以及显示单元。本发明的实施例考虑了历史项目因素以及专家的专业情况,实现评审专家与待审项目智能匹配分析,以提升专家遴选辅助决策支撑力度。

Description

一种智能推荐专家的装置
技术领域
本发明涉及信息化技术领域,具体涉及一种智能推荐专家的装置。
背景技术
随着电力改革不断深入、科学技术不断持续发展,电网公司各专业领域的科学技术研究项目立项评审越来越多,在立项评审时,需要相关领域的专家人员对申报的科技项目进行评审,判断该项目是否有立项的必要性。目前,立项评审工作采用人工从专家库中遴选评审专家的方式,难以保障遴选效率及评审专家专业性匹配度,因此,亟需实现评审专家与待审项目智能匹配分析,以提升专家遴选辅助决策支撑力度。
发明内容
本发明的目的在于提出一种智能推荐专家的装置,以实现评审专家与待审项目智能匹配分析,以提升专家遴选辅助决策支撑力度。
为实现上述目的,本发明实施例提出一种智能推荐专家的装置,包括:
待评审文本提取单元,用于响应于接收到评审请求,根据所述评审请求获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审项目的文本信息;
历史文本提取单元,用于响应于接收到评审请求,获取历史项目数据库中的所有历史评审项目的申报材料电子文档以及评审专家信息,并对其进行文本提取得到所有历史评审项目的历史文本信息;
第一关联度计算单元,用于获取专家数据库中的所有评审专家信息,根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度;
相似度计算单元,用于根据所述待评审文本信息与所述多个历史评审项目的历史文本信息计算所述多个历史评审项目与所述待评审项目的相似度;
第二关联度计算单元,用于根据所述相似度确定所述多个历史评审项目的评审专家与所述待评审项目的第二关联度;
专家推荐信息生成单元,用于根据所述所有评审专家的第一关联度和第二关联度生成专家推荐信息;以及
显示单元,用于接收所述专家推荐信息,并对所述专家推荐信息进行显示。
可选地,其中,所述待评审项目的文本信息包括项目所属技术领域;所述评审专家信息包括专家所属技术领域以及专业性分值;
其中,所述第一关联度计算单元,具体用于:
当专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相同,确定该评审专家与所述待评审项目的第一关联度等于M1加上其专业性分值;其中M1为预设分值;
当专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相近时,确定该评审专家与所述待评审项目的第一关联度等于M2加上其专业性分值;其中M2为预设分值;且M2小于M1;
当专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域不相同且不相近时,确定该评审专家与所述待评审项目的第一关联度等于0。
可选地,其中,所述专家推荐信息生成单元,包括:
匹配度计算单元,用于根据所述所有评审专家与所述待评审项目的第一关联度和第二关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度;以及
排序单元,用于将所述待评审项目匹配度进行由高至低排序后生成专家推荐信息,发送至显示单元进行显示。
可选地,所述匹配度计算单元,具体用于:
当所述专家数据库中任一评审专家信息与一个历史评审项目的评审专家信息一致时,确定该评审专家与待评审项目的匹配度等于其第一关联度加上对应的第二关联度;
当所述专家数据库中任一评审专家信息与多个历史评审项目的评审专家信息一致,确定该评审专家与待评审项目的匹配度等于对应的多个第二关联度的平均值乘以a再加上其第一关联度;其中,a=(1+(n-1)/10),n为该评审专家的历史评审项目的数量,n为整数,且n大于1;
当所述专家数据库中任一评审专家信息与任一历史评审项目的评审专家信息不一致,确定该评审专家与待评审项目的匹配度等于其第一关联度。
可选地,所述待评审文本信息包括待评审标题信息和待评审长文本信息;所述历史文本信息包括历史标题信息和历史长文本信息;其中长文本信息为研究内容或摘要;
其中,所述相似度计算单元,包括:
第一相似度分析单元,用于根据所述待评审标题信息和历史标题信息进行短文本相似度计算得到历史评审项目与所述待评审项目的第一相似度;
第二相似度分析单元,用于根据所述待评审长文本信息和历史长文本信息进行长文本相似度计算得到历史评审项目与所述待评审项目的第二相似度;以及
整体相似度分析单元,用于根据所述第一相似度和所述第二相似度计算历史评审项目与所述待评审项目的整体相似度。
可选地,其中所述第一相似度分析单元,包括:
字符串获取单元,用于获取所述待评审标题信息与任一历史评审项目的历史标题信息之间的最长连续公共子串,并将所述待评审标题信息与该历史评审项目的历史标题信息分别去除所述最长连续公共子串后得到第一字符串和第二字符串;
编辑距离计算单元,用于计算所述第一字符串和第二字符串之间的编辑距离;以及
第一相似度计算单元,用于根据所述编辑距离计算所述待评审标题信息与该历史评审项目的历史标题信息的相似度。
可选地,所述字符串获取单元,具体用于:
设所述待评审标题信息为字符串s1,任一个历史评审项目的历史标题信息为字符串s2
求出字符串s1和s2的最长连续公共子串sz
当最长连续公共子串sz的长度大于2时,分别将字符串s1和s2中的sz去除后得到新的2个字符串s10和s20,并令s1=s10,s2=s20后返回步骤a2;如果最长连续公共子串sz的长度小于等于2,则输出s10作为第一字符串,s20作为第二字符串。
可选地,所述第一相似度计算单元,具体用于根据以下公式计算所述待评审标题信息与任一个历史评审项目的历史标题信息的相似度:
Figure BDA0002773847720000041
其中,s1表示第一字符串,s2表示第二字符串,sim(s1,s2)表示所述编辑距离计算所述待评审标题信息与任一历史评审项目的历史标题信息的相似度,ED表示第一字符串和第二字符串之间的编辑距离,len(s1)表示第一字符串的长度,len(s2)表示第二字符串的长度。
可选地,所述第二相似度分析单元,包括:
段落向量获取单元,用于将所述待评审长文本信息与历史评审项目的历史长文本信息分别输入预先训练好的Doc2vec模型,输出对应的待评审段落向量和历史评审项目的历史段落向量;以及
第二相似度计算单元,用于根据所述待评审段落向量和历史评审项目的历史段落向量计算历史评审项目与所述待评审项目的第二相似度。
可选地,所述整体相似度分析单元,具体用于:
将所述第一相似度和所述第二相似度进行加权求和,或相乘的方式计算得到历史评审项目与所述待评审项目的整体相似度。
本发明实施例提出了一种智能推荐专家的装置,其响应于接收到用户的评审请求,获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审项目的文本信息;并获取专家数据库中的所有评审专家信息,根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度;并获取历史项目数据库中的所有历史评审项目的申报材料电子文档以及评审专家信息,并对其进行文本提取得到所有历史评审项目的历史文本信息;根据所述待评审文本信息与所述多个历史评审项目的历史文本信息计算所述多个历史评审项目与所述待评审项目的相似度,根据所述相似度确定所述多个历史评审项目的评审专家与所述待评审项目的第二关联度;最后,根据所述所有评审专家的第一关联度生成专家推荐信息,并发送至显示单元进行显示;通过以上方案,本发明的实施例考虑了历史项目因素以及专家的专业情况,实现评审专家与待审项目智能匹配分析,以提升专家遴选辅助决策支撑力度。
本发明的其它特征和优点将在随后的具体实施方式中阐述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中一种智能推荐专家的装置结构示意图。
图2为本发明一实施例中专家推荐信息生成单元结构示意图。
图3为本发明一实施例中相似度计算单元结构示意图。
1-待评审文本提取单元;
2-历史文本提取单元;
3-第一关联度计算单元;
4-相似度计算单元;41-第一相似度分析单元;42-第二相似度分析单元;43-整体相似度分析单元;
5-第二关联度计算单元;
6-专家推荐信息生成单元;61-匹配度计算单元;62-排序单元;
7-显示单元。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。另外,为了更好地说明本发明,在下文的具体的实施例中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的手段未作详细描述,以便于凸显本发明的主旨。
参阅图1,本发明实施例提出一种智能推荐专家的装置,包括:待评审文本提取单元1、历史文本提取单元2、第一关联度计算单元3、相似度计算单元4、第二关联度计算单元5、专家推荐信息生成单元6以及显示单元7;
其中,所述待评审文本提取单元1,用于响应于接收到评审请求,根据所述评审请求获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审项目的文本信息;
具体而言,所述文本提取的方式可以选用本领域中任一种,本实施例中不做具体限定。并且,为了便于进行文本提取,所述申报材料电子文档按照预设的申请书模板格式填写,并基于该申请书模板设计文本提取模型/算法。
其中,所述历史文本提取单元2,用于响应于接收到评审请求,获取历史项目数据库中的所有历史评审项目的申报材料电子文档以及评审专家信息,并对其进行文本提取得到所有历史评审项目的历史文本信息;
其中,所述历史项目数据库存储有历史评审项目的申报材料电子文档以及对应的评审专家信息。为了减少计算量,本实施例中预先为每一评审专家设置一个唯一的专家编码;所述评审专家信息包括专家编码。
其中,所述第一关联度计算单元3,用于获取专家数据库中的所有评审专家信息,根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度;
具体而言,本实施例中提供一专家数据库,所述专家数据库中存储有多个评审专家信息,即入库专家;其中,第一关联度越高,表示评审专家越适合作为待评审项目的评审专家。
其中,所述相似度计算单元4,用于根据所述待评审文本信息与所述多个历史评审项目的历史文本信息计算所述多个历史评审项目与所述待评审项目的相似度;具体而言,本实施例中可以选用任意一种文本相似度计算方式来实现所述相似度计算单元的功能,此处不做具体限定,应当理解的是,任意的文本相似度计算方式均在本发明实施例的保护范围之内。
其中,所述第二关联度计算单元5,用于根据所述相似度确定所述多个历史评审项目的评审专家与所述待评审项目的第二关联度;
具体而言,所述相似度和第二关联度为对应关系,相似度的数值一般为0~1,此处将相似度转换为对应的第二关联度数值。
其中,所述专家推荐信息生成单元6,用于根据所述所有评审专家的第一关联度和第二关联度生成专家推荐信息;
示例性地,所述推荐信息至少包括评审专家的排名、姓名、专业、学历、研究领域、年龄、工作经历等。
其中,所述显示单元7,用于接收所述专家推荐信息,并对所述专家推荐信息进行显示。
具体而言,用户通过显示单元7显示的内容可以获知专家智能推荐情况,结合实际工作情况选择合适的评审专家。
综上,通过以上方案,本发明的实施例实现评审专家与待审项目智能匹配分析,以提升专家遴选辅助决策支撑力度。
在一具体实施例中,其中,所述待评审项目的文本信息包括项目所属技术领域;所述评审专家信息包括专家所属技术领域以及专业性分值;
其中,所述第一关联度计算单元3,具体用于:
当专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相同,确定该评审专家与所述待评审项目的第一关联度G1等于M1加上其专业性分值;其中M1为预设分值,即G1=M1+M0,其中G1为第一关联度,M0为评审专家的专业性分值;其中M1为预设分值;
当专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相近时,确定该评审专家与所述待评审项目的第一关联度G1等于M2加上其专业性分值;其中M2为预设分值;,即
G1=M2+M0,其中G1为第一关联度,M0为评审专家的专业性分值;且M2小于M1;
当专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域不相同且不相近时,表示该专家不适合作为待评审项目的评审专家,确定该评审专家与所述待评审项目的第一关联度G1等于0。
可选地,其中,参阅图2,所述专家推荐信息生成单元6,包括:
匹配度计算单元61,用于根据所述所有评审专家与所述待评审项目的第一关联度和第二关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度;以及
排序单元62,用于将所述待评审项目匹配度进行由高至低排序后生成专家推荐信息,发送至显示单元7进行显示。
可选地,所述匹配度计算单元61,具体用于:
当所述专家数据库中任一评审专家信息与一个历史评审项目的评审专家信息一致时,确定该评审专家与待评审项目的匹配度等于其第一关联度G1加上对应的第二关联度G2,即匹配度P=G1+G2;
当所述专家数据库中任一评审专家信息与多个历史评审项目的评审专家信息一致,确定该评审专家与待评审项目的匹配度P等于对应的多个第二关联度G2的平均值乘以a再加上其第一关联度G1;其中,a=(1+(n-1)/10),n为该评审专家的历史评审项目的数量,n为整数,且n大于1;
例如,当n为3时,即某一评审专家有3个历史评审项目,即有3个第二关联度,a=1.2,即匹配度P=G1+(G21+G22+G23)*a/3;G21、G22、G23分别为该评审专家3个历史评审项目与所述待评审项目的第二关联度;
当所述专家数据库中任一评审专家信息与任一历史评审项目的评审专家信息不一致,确定该评审专家与待评审项目的匹配度P等于其第一关联度G1。
具体而言,所述专家数据库中的所有评审专家不一定具有历史项目评审经验,同样地,具有历史项目评审经验的评审专家不一定是当前专家数据库中的评审专家,并且,一个评审专家可以有多个历史项目评审经验,因此,本示例中提出了以上的匹配度计算方式,根据专家信息中的专家姓名和年龄判断评审专家是否有历史项目评审经验;可以理解的是,对于第一关联度相同的两个评审专家,则具有丰富历史项目评审经验的评审专家的匹配度会相对较高。
示例性地,所述专业性分值指的是该专家在其所属技术领域的专业水平,所述评审专家信息包括多个维度的信息,例如姓名、专业、学历、研究领域(即专家所属技术领域)、年龄、工作经历、获奖情况、发表论文、项目经历等,其中,选取除“姓名”、“研究领域”以外的其他维度信息作为所述专业性分值的评分数据,假设有N个维度的评分数据,则根据每一个维度的评分数据分别计算该专家每个的评分,即获得N个评分,然后对该N个评分分别乘以预先设置的权重系数之后累加得到所述专业性分值,所述权重系数根据经验获得。为了提高装置的处理效率,所述专业性分值为在实施本实施例之前预先进行计算并存储在专家数据库中。
可选地,所述待评审文本信息包括待评审标题信息和待评审长文本信息;所述历史文本信息包括历史标题信息和历史长文本信息;其中长文本信息为研究内容或摘要;
其中,参阅图3,所述相似度计算单元4,包括:
第一相似度分析单元41,用于根据所述待评审标题信息和历史标题信息进行短文本相似度计算得到历史评审项目与所述待评审项目的第一相似度;
第二相似度分析单元42,用于根据所述待评审长文本信息和历史长文本信息进行长文本相似度计算得到历史评审项目与所述待评审项目的第二相似度;以及
整体相似度分析单元43,用于根据所述第一相似度和所述第二相似度计算历史评审项目与所述待评审项目的整体相似度。
可选地,其中所述第一相似度分析单元41,包括:
字符串获取单元,用于获取所述待评审标题信息与任一历史评审项目的历史标题信息之间的最长连续公共子串,并将所述待评审标题信息与该历史评审项目的历史标题信息分别去除所述最长连续公共子串后得到第一字符串和第二字符串;
编辑距离计算单元,用于计算所述第一字符串和第二字符串之间的编辑距离;以及
第一相似度计算单元,用于根据所述编辑距离计算所述待评审标题信息与该历史评审项目的历史标题信息的相似度。
具体而言,所述编辑距离是指两个子串之间,由一个子串转换为另一个子串所需的最少的编辑次数;其中编辑操作包括删除、插入、替换等。
可选地,所述字符串获取单元,具体用于:
设所述待评审标题信息为字符串s1,任一个历史评审项目的历史标题信息为字符串s2
求出字符串s1和s2的最长连续公共子串sz
当最长连续公共子串sz的长度大于2时,分别将字符串s1和s2中的sz去除后得到新的2个字符串s10和s20,并令s1=s10,s2=s20后返回步骤a2;如果最长连续公共子串sz的长度小于等于2,则输出s10作为第一字符串,s20作为第二字符串。
可选地,所述第一相似度计算单元,具体用于根据以下公式计算所述待评审标题信息与任一个历史评审项目的历史标题信息的相似度:
Figure BDA0002773847720000101
其中,s1表示第一字符串,s2表示第二字符串,sim(s1,s2)表示所述编辑距离计算所述待评审标题信息与任一历史评审项目的历史标题信息的相似度,ED表示第一字符串和第二字符串之间的编辑距离,len(s1)表示第一字符串的长度,len(s2)表示第二字符串的长度。
具体而言,本实施例中随机选择了一些科技项目集,分别对其进行现有方式和本实施例的项目标题相似度计算,其比对结果如下表1所示:可以看出本实施例装置计算编辑距离相对较小,相似度结果来看更加符合接近真实的相似度值。此外,在没有公共子串的时候现有方式和本实施例装置得到的结果相同。
表1-不同方式下的标题相似度比对结果
Figure BDA0002773847720000111
需说明的是,本实施例装置用于项目标题之间的计算比对,可以取得较为理想的效果。例如待评审项目在项目标题上与一个历史评审项目的项目标题相似,那么该历史评审项目和待评审项目就存在相似关系,以此作为专家与待评审项目匹配度的判断依据;
可选地,所述第二相似度分析单元42,包括:
段落向量获取单元,用于将所述待评审长文本信息与历史评审项目的历史长文本信息分别输入预先训练好的Doc2vec模型,输出对应的待评审段落向量和历史评审项目的历史段落向量;以及
第二相似度计算单元,用于根据所述待评审段落向量和历史评审项目的历史段落向量计算历史评审项目与所述待评审项目的第二相似度。
例性地,两个段落向量之间的相似度可以根据它们之间的距离来确定,其中距离越近相似度越大。
可以理解的是,本实施例中长文本信息可以包括多个方面,例如项目摘要、主要研究内容等,每一个方面包括多个段落,可以将多个方面分开单独进行相似度计算;最终根据多个方面的相似度进行综合分析计算,例如取多个方面的相似度的平均值作为长文本相似度分析结果;又例如将多个方面的相似度分别乘以相应的预设权重之后累加作为长文本相似度分析结果;其中,对于某一个方面的相似度计算,例如待评审项目的E方面有n个段落,当前历史评审项目E方面有m个段落,将待评审项目的某一个方面的多个段落分别与当前历史评审项目对应的某一个方面的多个段落进行相似度计算后,待评审项目的E方面的每一段落有m个相似度计算数据,则待评审项目的E方面的n个段落有n×m个相似度计算数据,将n×m个相似度计算数据的相似度平均值作为待评审项目与当前历史评审项目在E方面的相似度。
具体而言,本实施例具体采用PV-DM(Distribute Memory Model of ParagraphVectors)训练方法训练所述Doc2vec模型,如2图所示为本实施例的Doc2vec PV-DM的框架图,由图2可以看出在加入单词级别的向量之外还有每个段落/句子的向量表示。例如对一句句子‘the cat sat on’,如果要预测句子中的单词on,那么不仅可以根据其他单词生成对应的特征,也可以根据其他单词和句子生成特征来进行预测。每一个段落/句子都被映射到向量空间中,可以用矩阵的一列来表示。每个单词同样被映射到向量空间,可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求平均得到特征,预测句子中的下一个单词。段落向量/句子向量也可以认为是一个单词,它的作用相当于是上下文的记忆单元或者是这个段落的主题。其中在训练时候,固定上下文长度,同样用滑动窗口的方法产生训练集。并且段落/句向量在该上下文中共享。本实施例Doc2vec模型的训练过程具体如下,主要有①和②:
①训练模型,在已知的训练数据中得到词向量,softmax参数以及段落向量/句向量。
②推断过程(inference stage),对于新的段落,得到其向量表达。具体的,在矩阵中添加更多的列,在固定长度的情况下,利用上述方法进行训练,使用梯度下降的方法得到新的D(段落向量矩阵),从而得到新段落的向量表达。
可选地,所述整体相似度分析单元43,具体用于:
将所述第一相似度和所述第二相似度进行加权求和,或相乘的方式计算得到历史评审项目与所述待评审项目的整体相似度。
示例性地,本实施例装置的具体实施方式可以是如下方式:
例如,一种计算机设备,包括:存储器、处理器以及显示单元,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器实现根据上述实施例所述的智能推荐专家的装置的相应功能。
当然,所述计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
示例性的,所述计算机程序可以被分割成如上述实施例装置所述的多个功能单元,所述多个功能单元包括待评审文本提取单元、历史文本提取单元、第一关联度计算单元、相似度计算单元、第二关联度计算单元以及专家推荐信息生成单元,所述多个功能单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机设备的控制中心,利用各种接口和线路连接整个所述计算机设备的各个部分。
所述存储器可用于存储所述计算机程序和/或单元,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或单元,以及调用存储在存储器内的数据,实现所述计算机设备的各种功能。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种智能推荐专家的装置,其特征在于,包括:
待评审文本提取单元,用于响应于接收到评审请求,根据所述评审请求获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审项目的文本信息;
历史文本提取单元,用于响应于接收到评审请求,获取历史项目数据库中的所有历史评审项目的申报材料电子文档以及评审专家信息,并对其进行文本提取得到所有历史评审项目的历史文本信息;
第一关联度计算单元,用于获取专家数据库中的所有评审专家信息,根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度;
相似度计算单元,用于根据所述待评审文本信息与所述多个历史评审项目的历史文本信息计算所述多个历史评审项目与所述待评审项目的相似度;
第二关联度计算单元,用于根据所述相似度确定所述多个历史评审项目的评审专家与所述待评审项目的第二关联度;
专家推荐信息生成单元,用于根据所述所有评审专家的第一关联度和第二关联度生成专家推荐信息;以及
显示单元,用于接收所述专家推荐信息,并对所述专家推荐信息进行显示。
2.根据权利要求1所述的智能推荐专家的装置,其特征在于,其中,所述待评审项目的文本信息包括项目所属技术领域;所述评审专家信息包括专家所属技术领域以及专业性分值;
其中,所述第一关联度计算单元,具体用于:
当专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相同,确定该评审专家与所述待评审项目的第一关联度等于M1加上其专业性分值;其中M1为预设分值;
当专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相近时,确定该评审专家与所述待评审项目的第一关联度等于M2加上其专业性分值;其中M2为预设分值;且M2小于M1;
当专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域不相同且不相近时,确定该评审专家与所述待评审项目的第一关联度等于0。
3.根据权利要求1所述的智能推荐专家的装置,其特征在于,其中,所述专家推荐信息生成单元,包括:
匹配度计算单元,用于根据所述所有评审专家与所述待评审项目的第一关联度和第二关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度;以及
排序单元,用于将所述待评审项目匹配度进行由高至低排序后生成专家推荐信息,发送至显示单元进行显示。
4.根据权利要求3所述的智能推荐专家的装置,其特征在于,所述匹配度计算单元,具体用于:
当所述专家数据库中任一评审专家信息与一个历史评审项目的评审专家信息一致时,确定该评审专家与待评审项目的匹配度等于其第一关联度加上对应的第二关联度;
当所述专家数据库中任一评审专家信息与多个历史评审项目的评审专家信息一致,确定该评审专家与待评审项目的匹配度等于对应的多个第二关联度的平均值乘以a再加上其第一关联度;其中,a=(1+(n-1)/10),n为该评审专家的历史评审项目的数量,n为整数,且n大于1;
当所述专家数据库中任一评审专家信息与任一历史评审项目的评审专家信息不一致,确定该评审专家与待评审项目的匹配度等于其第一关联度。
5.根据权利要求1所述的智能推荐专家的装置,其特征在于,所述待评审文本信息包括待评审标题信息和待评审长文本信息;所述历史文本信息包括历史标题信息和历史长文本信息;其中长文本信息为研究内容或摘要;
其中,所述相似度计算单元,包括:
第一相似度分析单元,用于根据所述待评审标题信息和历史标题信息进行短文本相似度计算得到历史评审项目与所述待评审项目的第一相似度;
第二相似度分析单元,用于根据所述待评审长文本信息和历史长文本信息进行长文本相似度计算得到历史评审项目与所述待评审项目的第二相似度;以及
整体相似度分析单元,用于根据所述第一相似度和所述第二相似度计算历史评审项目与所述待评审项目的整体相似度。
6.根据权利要求5所述的智能推荐专家的装置,其特征在于,其中所述第一相似度分析单元,包括:
字符串获取单元,用于获取所述待评审标题信息与任一历史评审项目的历史标题信息之间的最长连续公共子串,并将所述待评审标题信息与该历史评审项目的历史标题信息分别去除所述最长连续公共子串后得到第一字符串和第二字符串;
编辑距离计算单元,用于计算所述第一字符串和第二字符串之间的编辑距离;以及
第一相似度计算单元,用于根据所述编辑距离计算所述待评审标题信息与该历史评审项目的历史标题信息的相似度。
7.根据权利要求6所述的智能推荐专家的装置,其特征在于,所述字符串获取单元,具体用于:
设所述待评审标题信息为字符串s1,任一个历史评审项目的历史标题信息为字符串s2
求出字符串s1和s2的最长连续公共子串sz
当最长连续公共子串sz的长度大于2时,分别将字符串s1和s2中的sz去除后得到新的2个字符串s10和s20,并令s1=s10,s2=s20后返回步骤a2;如果最长连续公共子串sz的长度小于等于2,则输出s10作为第一字符串,s20作为第二字符串。
8.根据权利要求6所述的智能推荐专家的装置,其特征在于,所述第一相似度计算单元,具体用于根据以下公式计算所述待评审标题信息与任一个历史评审项目的历史标题信息的相似度:
Figure FDA0002773847710000041
其中,s1表示第一字符串,s2表示第二字符串,sim(s1,s2)表示所述编辑距离计算所述待评审标题信息与任一历史评审项目的历史标题信息的相似度,ED表示第一字符串和第二字符串之间的编辑距离,len(s1)表示第一字符串的长度,len(s2)表示第二字符串的长度。
9.根据权利要求5所述的智能推荐专家的装置,其特征在于,所述第二相似度分析单元,包括:
段落向量获取单元,用于将所述待评审长文本信息与历史评审项目的历史长文本信息分别输入预先训练好的Doc2vec模型,输出对应的待评审段落向量和历史评审项目的历史段落向量;以及
第二相似度计算单元,用于根据所述待评审段落向量和历史评审项目的历史段落向量计算历史评审项目与所述待评审项目的第二相似度。
10.根据权利要求5~9任一项所述的智能推荐专家的装置,其特征在于,所述整体相似度分析单元,具体用于:
将所述第一相似度和所述第二相似度进行加权求和,或相乘的方式计算得到历史评审项目与所述待评审项目的整体相似度。
CN202011258480.3A 2020-11-12 2020-11-12 一种智能推荐专家的装置 Active CN112381381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011258480.3A CN112381381B (zh) 2020-11-12 2020-11-12 一种智能推荐专家的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011258480.3A CN112381381B (zh) 2020-11-12 2020-11-12 一种智能推荐专家的装置

Publications (2)

Publication Number Publication Date
CN112381381A true CN112381381A (zh) 2021-02-19
CN112381381B CN112381381B (zh) 2023-11-17

Family

ID=74583005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011258480.3A Active CN112381381B (zh) 2020-11-12 2020-11-12 一种智能推荐专家的装置

Country Status (1)

Country Link
CN (1) CN112381381B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741474A (zh) * 2022-04-20 2022-07-12 山东科迅信息技术有限公司 应用于项目申报系统中的数据处理方法
CN116703328A (zh) * 2023-06-21 2023-09-05 中咨高技术咨询中心有限公司 一种项目评审方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN109308315A (zh) * 2018-10-19 2019-02-05 南京理工大学 一种基于专家领域相似度与关联关系的协同推荐方法
CN111143690A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于关联专家库的专家推荐方法和系统
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN111813898A (zh) * 2020-08-28 2020-10-23 北京智源人工智能研究院 基于语义搜索的专家推荐方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN109308315A (zh) * 2018-10-19 2019-02-05 南京理工大学 一种基于专家领域相似度与关联关系的协同推荐方法
CN111143690A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于关联专家库的专家推荐方法和系统
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN111813898A (zh) * 2020-08-28 2020-10-23 北京智源人工智能研究院 基于语义搜索的专家推荐方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晓华;方强;张钰;: "科研项目专家评审策略优化推荐仿真分析", 计算机仿真, no. 09 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741474A (zh) * 2022-04-20 2022-07-12 山东科迅信息技术有限公司 应用于项目申报系统中的数据处理方法
CN116703328A (zh) * 2023-06-21 2023-09-05 中咨高技术咨询中心有限公司 一种项目评审方法及系统
CN116703328B (zh) * 2023-06-21 2024-05-14 中咨高技术咨询中心有限公司 一种项目评审方法及系统

Also Published As

Publication number Publication date
CN112381381B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN112035453B (zh) 基于gbdt高阶特征组合的推荐方法、装置及存储介质
CN112464641A (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN112199938A (zh) 一种科技项目相似分析方法、计算机设备、存储介质
CN113449187B (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN112199940B (zh) 一种项目评审方法、存储介质
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
US11481560B2 (en) Information processing device, information processing method, and program
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN112381381B (zh) 一种智能推荐专家的装置
US20170228414A1 (en) Generating feature embeddings from a co-occurrence matrix
CN112199939B (zh) 一种评审专家智能推荐方法和存储介质
CN112883730A (zh) 相似文本匹配方法、装置、电子设备及存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
JP6880974B2 (ja) 情報出力プログラム、情報出力方法および情報処理装置
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN111190967A (zh) 用户多维度数据处理方法、装置及电子设备
CN113468421A (zh) 基于向量匹配技术的产品推荐方法、装置、设备及介质
CN114065063A (zh) 信息处理方法、信息处理装置、存储介质与电子设备
CN113298116A (zh) 基于注意力权重的图嵌入特征提取方法、装置及电子设备
CN112632951B (zh) 一种用于智能推荐专家的方法、计算机设备、存储介质
CN112199941B (zh) 一种科研项目评审平台
CN115617978A (zh) 指标名称检索方法、装置、电子设备及存储介质
CN113343102A (zh) 基于特征筛选的数据推荐方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant