CN112199940B - 一种项目评审方法、存储介质 - Google Patents

一种项目评审方法、存储介质 Download PDF

Info

Publication number
CN112199940B
CN112199940B CN202011258387.2A CN202011258387A CN112199940B CN 112199940 B CN112199940 B CN 112199940B CN 202011258387 A CN202011258387 A CN 202011258387A CN 112199940 B CN112199940 B CN 112199940B
Authority
CN
China
Prior art keywords
reviewed
review
item
information
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011258387.2A
Other languages
English (en)
Other versions
CN112199940A (zh
Inventor
何维
汪桢子
章彬
汪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Co ltd
Original Assignee
Shenzhen Power Supply Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Co ltd filed Critical Shenzhen Power Supply Co ltd
Priority to CN202011258387.2A priority Critical patent/CN112199940B/zh
Publication of CN112199940A publication Critical patent/CN112199940A/zh
Application granted granted Critical
Publication of CN112199940B publication Critical patent/CN112199940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种项目评审方法、存储介质,该方法包括:响应于接收到评审请求,自动获取待评审项目的申报材料电子文档,并基于历史项目进行重复申报的智能筛选,在确定不是重复申报的情况下,基于评审专家与待评审项目的匹配度推荐评审专家,并根据用户的选择,将待评审项目推送至对应评审专家的客户端,最后接收评审专家客户端返回的评审意见,根据评审意见输出是否立项的结果;相对于目前的评审流程,本发明实施例的评审方法,节省了人力时间资源,能够实现智能辅助立项评审,保障立项管理工作提质增效。

Description

一种项目评审方法、存储介质
技术领域
本发明涉及软件信息技术领域,具体涉及一种项目评审方法、存储介质。
背景技术
随着电力改革不断深入、科学技术不断持续发展,电网公司各专业领域的科研项目立项评审越来越多,目前,科研项目的评审流程主要包括:①科研团队提交科研项目申报材料;②评审团队组织人员对提交的科研项目申报材料进行立项评审,其中,立项评审工作包括依靠专家人员人工阅读申进行报材料,将申报材料和历史评审项目甄别比对;如果存在重复申报情况,则否决驳回其立项申请;如果不存在重复申报情况,则进一步对其进行项目创新性和有益性等人工评审分析;③最后根据专家人员的评审意见确定是否进行最终的立项。
上述评审流程存在以下问题:科技项目申报材料均为大文本,目前科技项目相似度判别方式须依靠专业人工阅读甄别比对,对于每一份科技项目申报材料,都需要将其与数据库中的海量在先科技项目申报材料进行人工对比,耗费大量人力时间成本,并且,评审专家的选择,也是采用人工遴选的方式,同样需要耗费大量人力时间成本。
发明内容
本发明的目的在于提出一种项目评审方法、存储介质,以实现待评审项目的重复申报问题智能筛选以及评审专家的智能遴选。
根据第一方面,本发明实施例提出一种项目评审方法,包括:
步骤S10、响应于接收到评审请求,获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审文本信息;
步骤S20、获取数据库中与所述待评审项目领域相同的所有历史项目的申报材料电子文档,并对其进行文本提取得到历史文本信息;
步骤S30、将所述待评审文本信息分别与所有历史项目的历史文本信息进行相似度计算得到所述待评审项目与所述所有历史项目的相似度;并根据所述待评审项目与所述所有历史项目的第三相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
步骤S40、响应于所述待评审项目为非重复申报,获取专家数据库中的所有评审专家信息,根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度;
步骤S50、根据所述所有评审专家的第一关联度生成推荐信息,并输出至显示单元进行显示以提示用户根据推荐信息选择所述待评审项目的评审专家;
步骤S60、响应于接收到用户输入的评审专家选择信息,将所述待评审项目推送至对应的评审专家客户端;
步骤S70、接收所述评审专家客户端返回的评审意见信息,根据所述评审意见信息判定所述待评审项目是否立项,并输出所述待评审项目是否立项的判定结果。
可选地,所述待评审文本信息包括待评审短文本信息;所述历史文本信息包括历史短文本信息;
其中,所述步骤S30,包括:
步骤S311、将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;
步骤S312、根据所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
可选地,所述待评审文本信息包括待评审长文本信息;所述历史文本信息包括历史长文本信息;
其中,所述步骤S30,包括:
步骤S313、响应于所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目为非重复申报,将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
步骤S314、根据所述第二相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
可选地,所述待评审文本信息包括待评审短文本信息和待评审长文本信息;所述历史文本信息包括历史短文本信息和历史长文本信息;
其中,所述步骤S30,包括:
步骤S321、将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;
步骤S322、将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
步骤S323、根据所述待评审项目与所述所有历史项目的第一相似度和第二相似度计算所述待评审项目与所述所有历史项目的第三相似度;
步骤S324、根据所述待评审项目与所述所有历史项目的第三相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
可选地,其中,所述评审专家信息包括专家所属技术领域以及专业性分值;
其中,所述根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度,包括:
若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相同,则该评审专家与所述待评审项目的第一关联度等于M1加上其专业性分值;其中M1为预设分值;
若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相近,则该评审专家与所述待评审项目的第一关联度等于M2加上其专业性分值;其中M2为预设分值;且M2小于M1;
若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域不相同且不相近,则该评审专家与所述待评审项目的第一关联度等于0。
可选地,所述方法还包括步骤S41和步骤S42;
其中,所述步骤S41包括:
获取历史项目数据库中的所有历史评审项目的申报材料电子文档,并对其进行文本提取得到所有历史评审项目的历史标题信息和评审专家信息;
其中,所述步骤S42包括:
分别计算所述待评审标题信息与所述多个历史评审项目的历史标题信息的相似度,并根据所述相似度确定所述多个历史评审项目的评审专家与所述待评审项目的第二关联度;
其中,所述步骤S50具体包括:
根据所述所有评审专家与所述待评审项目的第一关联度和第二关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度,并将所述待评审项目匹配度进行由高至低排序后生成推荐信息,发送至显示单元进行显示以提示用户根据推荐信息选择所述待评审项目的评审专家。
可选地,所述根据所述所有评审专家与所述待评审项目的第一关联度和第二关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度,包括:
若所述专家数据库中任一评审专家信息与一个历史评审项目的评审专家信息一致,则该评审专家与待评审项目的匹配度等于其第一关联度加上对应的第二关联度;
若所述专家数据库中任一评审专家信息与多个历史评审项目的评审专家信息一致,则该评审专家与待评审项目的匹配度等于对应的多个第二关联度的平均值乘以a再加上其第一关联度;其中,a=(1+(n-1)/10),n为该评审专家的历史评审项目的数量,n为整数,且n大于1;
若所述专家数据库中任一评审专家信息与任一历史评审项目的评审专家信息不一致,则该评审专家与待评审项目的匹配度等于其第一关联度。
可选地,所述方法还包括:
步骤S80、响应于所述待评审项目为重复申报,则判定不予立项,并输出不予立项的判定结果以及重复申报的结果;所述重复申报的结果包括与所述待评审项目的相似度大于预设相似度阈值的所有历史项目的项目编号信息;其中,每一项目关联设置有唯一的项目编号信息。
可选地,所述方法还包括:
步骤S90、响应于输出是否立项的判定结果,为所述待评审项目关联设置一项目编号信息后,存储至所述数据库中。
根据第二方面,本发明实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的项目评审方法。
本发明实施例提出了一种项目评审方法、存储介质,科研项目的评审采用无纸化流程,申报主体通过提交申报材料电子文档进行评审,响应于接收到评审请求,自动获取待评审项目的申报材料电子文档,并基于历史项目进行重复申报的智能筛选,在确定不是重复申报的情况下,基于评审专家与待评审项目的匹配度推荐评审专家,并根据用户的选择,将待评审项目推送至对应评审专家的客户端,最后接收评审专家客户端返回的评审意见,根据评审意见输出是否立项的结果;相对于目前的评审流程,本发明实施例的评审方法,节省了人力时间资源,能够实现智能辅助立项评审,保障立项管理工作提质增效。
本发明的其它特征和优点将在随后的具体实施方式中阐述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种项目评审方法流程图。
图2为本发明一具体实施例中步骤S30流程图。
图3为本发明另一具体实施例步骤S30流程图。
图4为本发明一具体实施例中一种项目评审方法具体流程图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。另外,为了更好地说明本发明,在下文的具体的实施例中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的手段未作详细描述,以便于凸显本发明的主旨。
参阅图1,本发明实施例提出一种项目评审方法,包括如下步骤:
步骤S10、响应于接收到评审请求,获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审文本信息;
具体而言,科研项目的评审采用无纸化流程,申报主体(例如科研团队、工作部门)按预设的申报材料电子文档格式进行填写,提交申报材料电子文档进行评审。所述评审请求包括所述待评审项目的申报材料电子文档。步骤中,当接收到所述评审请求时,自动获取所述待评审项目的申报材料电子文档,并利用预设文本提取算法对所述待评审项目的申报材料电子文档进行文本提取,得到相应的待评审文本信息。其中,所述预设文本提取算法根据所述申报材料电子文档格式进行设定。
步骤S20、获取数据库中与所述待评审项目领域相同的所有历史项目的申报材料电子文档,并对其进行文本提取得到历史文本信息;
具体而言,根据所述待评审项目的待评审文本信息与预设的多个技术领域进行匹配,确定所述待评审项目的技术领域,本实施例中数据库根据技术领域进行划分为多个存储单元,每一存储单元存储对应的历史项目的申报材料电子文档。步骤中根据确定的所述待评审项目的技术领域,获取领域对应的存储单元中的所有历史项目的申报材料电子文档,并利用预设文本提取算法对所述待评审项目的申报材料电子文档进行文本提取,得到所有历史项目的历史文本信息。
步骤S30、将所述待评审文本信息分别与所有历史项目的历史文本信息进行相似度计算得到所述待评审项目与所述所有历史项目的相似度;并根据所述待评审项目与所述所有历史项目的第三相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
具体而言,步骤中依次将所述待评审文本信息与步骤S2中获取的每一历史项目的历史文本信息进行相似度计算,得到所述待评审项目与每一历史项目的相似度;并且,实施之前,预先设置了相似度阈值,当所述待评审项目与任一历史项目的相似度大于所述相似度阈值时,则判断所述待评审项目为重复申报;否则,所述待评审项目为非重复申报。
步骤S40、响应于所述待评审项目为非重复申报,获取专家数据库中的所有评审专家信息,根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度;
具体而言,本实施例中提供一专家数据库,所述专家数据库中存储有多个评审专家信息,即入库专家;其中,第一关联度越高,表示评审专家越适合作为待评审项目的评审专家。
步骤S50、根据所述所有评审专家的第一关联度生成推荐信息,并输出至显示单元进行显示以提示用户根据推荐信息选择所述待评审项目的评审专家;
示例性地,可以是按第一关联度对所有评审专家进行排名,第一关联度越高,则排名越高,并生成所述推荐信息,所述推荐信息至少包括评审专家的排名、姓名、专业、学历、研究领域、年龄、工作经历等,用户通过显示单元显示的内容可以获知专家智能推荐情况,结合实际工作情况选择合适的评审专家。
步骤S60、响应于接收到用户输入的评审专家选择信息,将所述待评审项目推送至对应的评审专家客户端;
具体而言,所述评审专家选择信息可以是评审专家的编码信息,每一个评审专家设置一个唯一的编码信息,编码信息与客户端信息一一对应;实现评审专家与待审项目智能匹配分析,以提升专家遴选辅助决策支撑力度。步骤S70、接收所述评审专家客户端返回的评审意见信息,根据所述评审意见信息判定所述待评审项目是否立项,并输出所述待评审项目是否立项的判定结果。
具体而言,评审专家基于所述评审专家客户端,对所述待评审项目进行具体的评审,并输入评审意见信息。
基于以上描述可知,本实施例中科研项目的评审采用无纸化流程,申报主体通过提交申报材料电子文档进行评审,响应于接收到评审请求,自动获取待评审项目的申报材料电子文档,并基于历史项目进行重复申报的智能筛选,在确定不是重复申报的情况下,基于评审专家与待评审项目的匹配度推荐评审专家,并根据用户的选择,将待评审项目推送至对应评审专家的客户端,最后接收评审专家客户端返回的评审意见,根据评审意见输出是否立项的结果;相对于目前的评审流程,本发明实施例的评审方法,节省了人力时间资源,能够实现智能辅助立项评审,保障立项管理工作提质增效。
可选地,在一具体实施例中,所述待评审文本信息包括待评审短文本信息;所述历史文本信息包括历史短文本信息;
其中,参阅图2,所述步骤S30,包括:
步骤S311、将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;
示例性地,待评审短文本信息为标题信息,则短文本相似度计算包括如下步骤:
步骤a、获取所述待评审标题信息与任一历史评审项目的历史标题信息之间的最长连续公共子串,并将所述待评审标题信息与该历史评审项目的历史标题信息分别去除所述最长连续公共子串后得到第一字符串和第二字符串;
步骤b、计算所述第一字符串和第二字符串之间的编辑距离;具体而言,所述编辑距离是指两个子串之间,由一个子串转换为另一个子串所需的最少的编辑次数;其中编辑操作包括删除、插入、替换等;
步骤c、根据所述编辑距离计算所述待评审标题信息与该历史评审项目的历史标题信息的相似度。
可选地,所述步骤a具体包括:
步骤a1、设所述待评审标题信息为字符串s1,所述第i个历史评审项目的历史标题信息为字符串s2
步骤a2、求出字符串s1和s2的最长连续公共子串sz
步骤a3、如果最长连续公共子串sz的长度大于2,则分别将字符串s1和s2中的sz去除后得到新的2个字符串s10和s20,并令s1=s10,s2=s20后返回步骤a2;如果最长连续公共子串sz的长度小于等于2,则输出s10作为第一字符串,s20作为第二字符串。
可选地,所述待评审标题信息与任一个历史评审项目的历史标题信息的相似度计算,包括:
其中,s1表示第一字符串,s2表示第二字符串,sim(s1,s2)表示所述编辑距离计算所述待评审标题信息与任一历史评审项目的历史标题信息的相似度,ED表示第一字符串和第二字符串之间的编辑距离,len(s1)表示第一字符串的长度,len(s2)表示第二字符串的长度。
步骤S312、根据所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
具体而言,当所述第一相似度大于预设相似度阈值T1时,判断所述待评审项目为重复申报;当所述第一相似度小于等于预设相似度阈值T1时,判断所述待评审项目为非重复申报。
其中,所述待评审文本信息还包括待评审长文本信息;所述历史文本信息还包括历史长文本信息;
其中,所述步骤S30,包括:
步骤S313、响应于所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目为非重复申报,将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
示例性地,所述长文本相似度计算包括:
将所述待评审长文本信息与历史评审项目的历史长文本信息分别输入预先训练好的Doc2vec模型,输出对应的待评审段落向量和历史评审项目的历史段落向量;以及
根据所述待评审段落向量和历史评审项目的历史段落向量计算历史评审项目与所述待评审项目的第二相似度。
示例性地,两个段落向量之间的相似度可以根据它们之间的距离来确定,其中距离越近相似度越大。
可以理解的是,本实施例中长文本信息可以包括多个方面,例如项目摘要、主要研究内容等,每一个方面包括多个段落,可以将多个方面分开单独进行相似度计算;最终根据多个方面的相似度进行综合分析计算,例如取多个方面的相似度的平均值作为长文本相似度分析结果;又例如将多个方面的相似度分别乘以相应的预设权重之后累加作为长文本相似度分析结果;其中,对于某一个方面的相似度计算,例如待评审项目的E方面有n个段落,当前历史评审项目E方面有m个段落,将待评审项目的某一个方面的多个段落分别与当前历史评审项目对应的某一个方面的多个段落进行相似度计算后,待评审项目的E方面的每一段落有m个相似度计算数据,则待评审项目的E方面的n个段落有n×m个相似度计算数据,将n×m个相似度计算数据的相似度平均值作为待评审项目与当前历史评审项目在E方面的相似度。
具体而言,本实施例具体采用PV-DM(Distribute Memory Model of ParagraphVectors)训练方法训练所述Doc2vec模型,如2图所示为本实施例的Doc2vec PV-DM的框架图,由图2可以看出在加入单词级别的向量之外还有每个段落/句子的向量表示。例如对一句句子‘the cat sat on’,如果要预测句子中的单词on,那么不仅可以根据其他单词生成对应的特征,也可以根据其他单词和句子生成特征来进行预测。每一个段落/句子都被映射到向量空间中,可以用矩阵的一列来表示。每个单词同样被映射到向量空间,可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求平均得到特征,预测句子中的下一个单词。段落向量/句子向量也可以认为是一个单词,它的作用相当于是上下文的记忆单元或者是这个段落的主题。其中在训练时候,固定上下文长度,同样用滑动窗口的方法产生训练集。并且段落/句向量在该上下文中共享。本实施例Doc2vec模型的训练过程具体如下,主要有①~②:
①训练模型,在已知的训练数据中得到词向量,softmax参数以及段落向量/句向量。
②推断过程(inference stage),对于新的段落,得到其向量表达。具体的,在矩阵中添加更多的列,在固定长度的情况下,利用上述方法进行训练,使用梯度下降的方法得到新的D(段落向量矩阵),从而得到新段落的向量表达。步骤S314、根据所述第二相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
步骤S314、根据所述第二相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
具体而言,当所述第二相似度大于预设相似度阈值T2时,判断所述待评审项目为重复申报;当所述第二相似度小于等于预设相似度阈值T2时,判断所述待评审项目为非重复申报。
在另一具体实施例中,所述待评审文本信息包括待评审短文本信息和待评审长文本信息;所述历史文本信息包括历史短文本信息和历史长文本信息;
其中,所述步骤S30,包括:
步骤S321、将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;
示例性地,待评审短文本信息为标题信息,则短文本相似度计算包括如下步骤:
步骤a、获取所述待评审标题信息与任一历史评审项目的历史标题信息之间的最长连续公共子串,并将所述待评审标题信息与该历史评审项目的历史标题信息分别去除所述最长连续公共子串后得到第一字符串和第二字符串;
步骤b、计算所述第一字符串和第二字符串之间的编辑距离;具体而言,所述编辑距离是指两个子串之间,由一个子串转换为另一个子串所需的最少的编辑次数;其中编辑操作包括删除、插入、替换等;
步骤c、根据所述编辑距离计算所述待评审标题信息与该历史评审项目的历史标题信息的相似度。
可选地,所述步骤a具体包括:
步骤a1、设所述待评审标题信息为字符串s1,所述第i个历史评审项目的历史标题信息为字符串s2
步骤a2、求出字符串s1和s2的最长连续公共子串sz
步骤a3、如果最长连续公共子串sz的长度大于2,则分别将字符串s1和s2中的sz去除后得到新的2个字符串s10和s20,并令s1=s10,s2=s20后返回步骤a2;如果最长连续公共子串sz的长度小于等于2,则输出s10作为第一字符串,s20作为第二字符串。
可选地,所述待评审标题信息与任一个历史评审项目的历史标题信息的相似度计算,包括:
其中,s1表示第一字符串,s2表示第二字符串,sim(s1,s2)表示所述编辑距离计算所述待评审标题信息与任一历史评审项目的历史标题信息的相似度,ED表示第一字符串和第二字符串之间的编辑距离,len(s1)表示第一字符串的长度,len(s2)表示第二字符串的长度。
步骤S322、将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
示例性地,所述长文本相似度计算包括:
将所述待评审长文本信息与历史评审项目的历史长文本信息分别输入预先训练好的Doc2vec模型,输出对应的待评审段落向量和历史评审项目的历史段落向量;以及
根据所述待评审段落向量和历史评审项目的历史段落向量计算历史评审项目与所述待评审项目的第二相似度。
示例性地,两个段落向量之间的相似度可以根据它们之间的距离来确定,其中距离越近相似度越大。
可以理解的是,本实施例中长文本信息可以包括多个方面,例如项目摘要、主要研究内容等,每一个方面包括多个段落,可以将多个方面分开单独进行相似度计算;最终根据多个方面的相似度进行综合分析计算,例如取多个方面的相似度的平均值作为长文本相似度分析结果;又例如将多个方面的相似度分别乘以相应的预设权重之后累加作为长文本相似度分析结果;其中,对于某一个方面的相似度计算,例如待评审项目的E方面有n个段落,当前历史评审项目E方面有m个段落,将待评审项目的某一个方面的多个段落分别与当前历史评审项目对应的某一个方面的多个段落进行相似度计算后,待评审项目的E方面的每一段落有m个相似度计算数据,则待评审项目的E方面的n个段落有n×m个相似度计算数据,将n×m个相似度计算数据的相似度平均值作为待评审项目与当前历史评审项目在E方面的相似度。
具体而言,本实施例具体采用PV-DM(Distribute Memory Model of ParagraphVectors)训练方法训练所述Doc2vec模型,如2图所示为本实施例的Doc2vec PV-DM的框架图,由图2可以看出在加入单词级别的向量之外还有每个段落/句子的向量表示。例如对一句句子‘the cat sat on’,如果要预测句子中的单词on,那么不仅可以根据其他单词生成对应的特征,也可以根据其他单词和句子生成特征来进行预测。每一个段落/句子都被映射到向量空间中,可以用矩阵的一列来表示。每个单词同样被映射到向量空间,可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求平均得到特征,预测句子中的下一个单词。段落向量/句子向量也可以认为是一个单词,它的作用相当于是上下文的记忆单元或者是这个段落的主题。其中在训练时候,固定上下文长度,同样用滑动窗口的方法产生训练集。并且段落/句向量在该上下文中共享。本实施例Doc2vec模型的训练过程具体如下,主要有①~②:
①训练模型,在已知的训练数据中得到词向量,softmax参数以及段落向量/句向量。
②推断过程(inference stage),对于新的段落,得到其向量表达。具体的,在矩阵中添加更多的列,在固定长度的情况下,利用上述方法进行训练,使用梯度下降的方法得到新的D(段落向量矩阵),从而得到新段落的向量表达。
步骤S323、根据所述待评审项目与所述所有历史项目的第一相似度和第二相似度计算所述待评审项目与所述所有历史项目的第三相似度;
具体而言,可以采用将所述第一相似度和第二相似度加权相加的方式或相乘的方式计算第三相似度。
步骤S324、根据所述待评审项目与所述所有历史项目的第三相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
具体而言,当所述第三相似度大于预设相似度阈值T3时,判断所述待评审项目为重复申报;当所述第三相似度小于等于预设相似度阈值T3时,判断所述待评审项目为非重复申报。
可选地,其中,所述评审专家信息包括专家所属技术领域以及专业性分值;
示例性地,所述专业性分值指的是该专家在其所属技术领域的专业水平,所述评审专家信息包括多个维度的信息,例如姓名、专业、学历、研究领域(即专家所属技术领域)、年龄、工作经历、获奖情况、发表论文、项目经历等,其中,选取除“姓名”、“研究领域”以外的其他维度信息作为所述专业性分值的评分数据,假设有N个维度的评分数据,则根据每一个维度的评分数据分别计算该专家每个的评分,即获得N个评分,然后对该N个评分分别乘以预先设置的权重系数之后累加得到所述专业性分值,所述权重系数根据经验获得。为了提高方法的处理效率,所述专业性分值为在实施本实施例方法之前预先进行计算并存储在专家数据库中。
示例性地,所述根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度,可以设置为如下方式计算:(1.1)若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相同,则该评审专家与所述待评审项目的第一关联度等于M1加上其专业性分值,即G1=M1+M0,其中G1为第一关联度,M0为评审专家的专业性分值;其中M1为预设分值;
(1.2)若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相近,则该评审专家与所述待评审项目的第一关联度等于M2加上其专业性分值;其中M2为预设分值,即G1=M2+M0,其中G1为第一关联度,M0为评审专家的专业性分值;且M2小于M1;
(1.3)若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域不相同且不相近,则表示该专家不适合作为待评审项目的评审专家,该评审专家与所述待评审项目的第一关联度G1等于0。
可选地,所述方法还包括步骤S41和步骤S42;
其中,所述步骤S41包括:
获取历史项目数据库中的所有历史评审项目的申报材料电子文档,并对其进行文本提取得到所有历史评审项目的历史标题信息和评审专家信息;
示例性地,为了减少计算量,本实施例中预先为每一评审专家设置一个唯一的专家编码;所述评审专家信息包括专家编码。
其中,所述步骤S42包括:
分别计算所述待评审标题信息与所述多个历史评审项目的历史标题信息的相似度,并根据所述相似度确定所述多个历史评审项目的评审专家与所述待评审项目的第二关联度;
其中,所述步骤S50具体包括:
根据所述所有评审专家与所述待评审项目的第一关联度和第二关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度,并将所述待评审项目匹配度进行由高至低排序后生成推荐信息,发送至显示单元进行显示以提示用户根据推荐信息选择所述待评审项目的评审专家。
示例性地,所述根据所述所有评审专家与所述待评审项目的第一关联度和第二关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度,包括:
其中,根据所述待评审项目中的专家编码以及所有历史评审项目中的专家编码进行对比,可以快速地确定所述专家数据库中任一评审专家信息与一个历史评审项目的评审专家信息是否一致;
(2.1)若所述专家数据库中任一评审专家信息与一个历史评审项目的评审专家信息一致,则该评审专家与待评审项目的匹配度等于其第一关联度G1加上对应的第二关联度G2,即匹配度P=G1+G2;
(2.2)若所述专家数据库中任一评审专家信息与多个历史评审项目的评审专家信息一致,则该评审专家与待评审项目的匹配度等于对应的多个第二关联度G2的平均值乘以a再加上其第一关联度G1;其中,a=(1+(n-1)/10),n为该评审专家的历史评审项目的数量,n为整数,且n大于1;
例如,当n为3时,即某一评审专家有3个历史评审项目,即有3个第二关联度,a=1.2,即匹配度P=G1+(G21+G22+G23)*a/3;G21、G22、G23分别为该评审专家3个历史评审项目与所述待评审项目的第二关联度;
(2.3)若所述专家数据库中任一评审专家信息与任一历史评审项目的评审专家信息不一致,则该评审专家与待评审项目的匹配度等于其第一关联度G1;
具体而言,所述专家数据库中的所有评审专家不一定具有历史项目评审经验,同样地,具有历史项目评审经验的评审专家不一定是当前专家数据库中的评审专家,并且,一个评审专家可以有多个历史项目评审经验,因此,本示例中提出了以上(2.1)~(2.3)的匹配度计算方式,(2.1)~(2.3)中根据专家信息中的专家姓名和年龄判断评审专家是否有历史项目评审经验;可以理解的是,基于上述(2.1)~(2.3),对于第一关联度相同的两个评审专家,则具有丰富历史项目评审经验的评审专家的匹配度会相对较高。
可选地,所述方法还包括:
步骤S80、响应于所述待评审项目为重复申报,则判定不予立项,并输出不予立项的判定结果以及重复申报的结果;所述重复申报的结果包括与所述待评审项目的相似度大于预设相似度阈值的所有历史项目的项目编号信息;其中,每一项目关联设置有唯一的项目编号信息。
具体而言,根据项目编号信息,可以获取对应的历史项目的具体申报材料电子文档。
可选地,所述方法还包括:
步骤S90、响应于输出是否立项的判定结果,为所述待评审项目关联设置一项目编号信息后,存储至所述数据库中。
具体而言,所述待评审项目在经过评审之后,会作为历史项目存储于所述数据库中,以便于后续作为历史项目与下一个待评审项目进行比较。
本发明另一实施例还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述实施例方法所述的项目评审方法的步骤。
示例性地,所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (6)

1.一种项目评审方法,其特征在于,包括:
步骤S10、响应于接收到评审请求,获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审文本信息;所述待评审文本信息包括待评审短文本信息和待评审长文本信息;历史文本信息包括历史短文本信息和历史长文本信息;
步骤S20、获取数据库中与所述待评审项目领域相同的所有历史项目的申报材料电子文档,并对其进行文本提取得到历史文本信息;
步骤S30、将所述待评审文本信息分别与所有历史项目的历史文本信息进行相似度计算得到所述待评审项目与所述所有历史项目的相似度;并根据所述待评审项目与所述所有历史项目的第三相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
步骤S40、响应于所述待评审项目为非重复申报,获取专家数据库中的所有评审专家信息,根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度;所述评审专家信息包括专家所属技术领域以及专业性分值;
步骤S50、根据所述所有评审专家的第一关联度生成推荐信息,并输出至显示单元进行显示以提示用户根据推荐信息选择所述待评审项目的评审专家;
步骤S60、响应于接收到用户输入的评审专家选择信息,将所述待评审项目推送至对应的评审专家客户端;
步骤S70、接收所述评审专家客户端返回的评审意见信息,根据所述评审意见信息判定所述待评审项目是否立项,并输出所述待评审项目是否立项的判定结果;
其中,所述步骤S30,包括:
步骤S321、将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;
步骤S322、将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
步骤S323、根据所述待评审项目与所述所有历史项目的第一相似度和第二相似度计算所述待评审项目与所述所有历史项目的第三相似度;
步骤S324、根据所述待评审项目与所述所有历史项目的第三相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
其中,所述根据所述所有评审专家信息与所述待评审项目的文本信息计算所有评审专家与所述待评审项目的第一关联度,包括:
若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相同,则该评审专家与所述待评审项目的第一关联度等于M1加上其专业性分值;其中M1为预设分值;
若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域相近,则该评审专家与所述待评审项目的第一关联度等于M2加上其专业性分值;其中M2为预设分值;且M2小于M1;
若专家数据库中任一评审专家所属技术领域与所述待评审项目所属技术领域不相同且不相近,则该评审专家与所述待评审项目的第一关联度等于0;
所述方法还包括步骤S41和步骤S42;
其中,所述步骤S41包括:
获取历史项目数据库中的所有历史评审项目的申报材料电子文档,并对其进行文本提取得到所有历史评审项目的历史标题信息和评审专家信息;
其中,所述步骤S42包括:
分别计算待评审标题信息与所述多个历史评审项目的历史标题信息的相似度,并根据所述相似度确定所述多个历史评审项目的评审专家与所述待评审项目的第二关联度;
其中,所述步骤S50具体包括:
根据所述所有评审专家与所述待评审项目的第一关联度和第二关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度,并将所述待评审项目匹配度进行由高至低排序后生成推荐信息,发送至显示单元进行显示以提示用户根据推荐信息选择所述待评审项目的评审专家;
其中,所述根据所述所有评审专家与所述待评审项目的第一关联度和第二关联度计算所述专家数据库中所有评审专家与待评审项目的匹配度,包括:
若所述专家数据库中任一评审专家信息与一个历史评审项目的评审专家信息一致,则该评审专家与待评审项目的匹配度等于其第一关联度加上对应的第二关联度;
若所述专家数据库中任一评审专家信息与多个历史评审项目的评审专家信息一致,则该评审专家与待评审项目的匹配度等于对应的多个第二关联度的平均值乘以a再加上其第一关联度;其中,a=(1+(n-1)/10),n为该评审专家的历史评审项目的数量,n为整数,且n大于1;
若所述专家数据库中任一评审专家信息与任一历史评审项目的评审专家信息不一致,则该评审专家与待评审项目的匹配度等于其第一关联度。
2.根据权利要求1所述的项目评审方法,其特征在于,所述待评审文本信息包括待评审短文本信息;所述历史文本信息包括历史短文本信息;
其中,所述步骤S30,包括:
步骤S311、将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;
步骤S312、根据所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
3.根据权利要求2所述的项目评审方法,其特征在于,所述待评审文本信息包括待评审长文本信息;所述历史文本信息包括历史长文本信息;
其中,所述步骤S30,包括:
步骤S313、响应于所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目为非重复申报,将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
步骤S314、根据所述第二相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
4.根据权利要求1~3中任一项所述的项目评审方法,其特征在于,所述方法还包括:
步骤S80、响应于所述待评审项目为重复申报,则判定不予立项,并输出不予立项的判定结果以及重复申报的结果;所述重复申报的结果包括与所述待评审项目的相似度大于预设相似度阈值的所有历史项目的项目编号信息;其中,每一项目关联设置有唯一的项目编号信息。
5.根据权利要求1~3中任一项所述的项目评审方法,其特征在于,所述方法还包括:
步骤S90、响应于输出是否立项的判定结果,为所述待评审项目关联设置一项目编号信息后,存储至所述数据库中。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-5中任一项所述项目评审方法。
CN202011258387.2A 2020-11-12 2020-11-12 一种项目评审方法、存储介质 Active CN112199940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011258387.2A CN112199940B (zh) 2020-11-12 2020-11-12 一种项目评审方法、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011258387.2A CN112199940B (zh) 2020-11-12 2020-11-12 一种项目评审方法、存储介质

Publications (2)

Publication Number Publication Date
CN112199940A CN112199940A (zh) 2021-01-08
CN112199940B true CN112199940B (zh) 2023-09-15

Family

ID=74033425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011258387.2A Active CN112199940B (zh) 2020-11-12 2020-11-12 一种项目评审方法、存储介质

Country Status (1)

Country Link
CN (1) CN112199940B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926299B (zh) * 2021-03-29 2024-04-09 杭州天谷信息科技有限公司 一种文本比对方法、合同审阅方法、审核系统
CN114219320A (zh) * 2021-12-17 2022-03-22 中国建设银行股份有限公司 一种对象评审方法、装置、电子设备及存储介质
CN115169989B (zh) * 2022-09-02 2023-01-06 北京新机场建设指挥部 多耦合项目管理方法、系统、装置、电子设备及存储介质
CN116703328B (zh) * 2023-06-21 2024-05-14 中咨高技术咨询中心有限公司 一种项目评审方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133743A (zh) * 2017-05-19 2017-09-05 重庆文理学院 一种小微企业运营项目的评估方法
CN107563789A (zh) * 2017-07-31 2018-01-09 石河子大学 数据处理方法、系统、终端及计算机可读存储介质
CN108108869A (zh) * 2017-11-03 2018-06-01 苏州海创天地信息科技有限公司 一种面向众创空间入驻企业项目的评估方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133743A (zh) * 2017-05-19 2017-09-05 重庆文理学院 一种小微企业运营项目的评估方法
CN107563789A (zh) * 2017-07-31 2018-01-09 石河子大学 数据处理方法、系统、终端及计算机可读存储介质
CN108108869A (zh) * 2017-11-03 2018-06-01 苏州海创天地信息科技有限公司 一种面向众创空间入驻企业项目的评估方法

Also Published As

Publication number Publication date
CN112199940A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112199940B (zh) 一种项目评审方法、存储介质
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN112199938B (zh) 一种科技项目相似分析方法、计算机设备、存储介质
CN112199939B (zh) 一种评审专家智能推荐方法和存储介质
CN110825901A (zh) 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111221962B (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN108446316B (zh) 联想词的推荐方法、装置、电子设备及存储介质
CN105095444A (zh) 信息获取方法和装置
CN112199937B (zh) 一种短文本相似度分析方法及其系统、计算机设备、介质
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
WO2020123689A1 (en) Suggesting text in an electronic document
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN112381381B (zh) 一种智能推荐专家的装置
CN109065015B (zh) 一种数据采集方法、装置、设备及可读存储介质
CN112199941B (zh) 一种科研项目评审平台
CN112329425B (zh) 一种科研项目智能评审方法、存储介质
CN116303922B (zh) 咨询消息应答方法、装置、计算机设备、存储介质和产品
CN112417840B (zh) 一种科研项目智能评审系统、计算机设备
CN112632951B (zh) 一种用于智能推荐专家的方法、计算机设备、存储介质
CN114756617A (zh) 一种工程档案结构化数据提取方法、系统、设备和存介质
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
JP2002269120A (ja) 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体
CN114548787B (zh) 用户生成内容管理方法、装置、电子设备及存储介质
CN117725191B (zh) 大语言模型的引导信息生成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant