CN112417840A - 一种科研项目智能评审系统、计算机设备 - Google Patents

一种科研项目智能评审系统、计算机设备 Download PDF

Info

Publication number
CN112417840A
CN112417840A CN202011258254.5A CN202011258254A CN112417840A CN 112417840 A CN112417840 A CN 112417840A CN 202011258254 A CN202011258254 A CN 202011258254A CN 112417840 A CN112417840 A CN 112417840A
Authority
CN
China
Prior art keywords
evaluated
historical
project
declaration
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011258254.5A
Other languages
English (en)
Other versions
CN112417840B (zh
Inventor
章彬
汪伟
汪桢子
何维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN202011258254.5A priority Critical patent/CN112417840B/zh
Publication of CN112417840A publication Critical patent/CN112417840A/zh
Application granted granted Critical
Publication of CN112417840B publication Critical patent/CN112417840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种科研项目智能评审系统、计算机设备,该系统实现以下功能:获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审文本信息;将待评审文本信息分别与所有历史项目的历史文本信息进行相似度计算得到待评审项目与所有历史项目的相似度,并判断待评审项目是否为重复申报;若否,则获取待评审项目的申报主体信息;根据申报主体信息计算待评审项目的申报主体的竞争力分数;根据申报主体信息与待评审长文本信息计算得到申报主体与待评审项目的关联度分数;根据竞争力分数以及关联度分数计算待评审项目的评审分数;最后根据评审分数判定是否立项。通过本发明,能够智能辅助立项评审,无需人工参与,保障立项管理工作提质增效。

Description

一种科研项目智能评审系统、计算机设备
技术领域
本发明涉及软件信息技术领域,具体涉及一种科研项目智能评审系统、计算机设备。
背景技术
随着电力改革不断深入、科学技术不断持续发展,电网公司各专业领域的科研项目立项评审越来越多,目前,科研项目的评审流程主要包括:①科研团队提交科研项目申报材料;②评审团队组织人员对提交的科研项目申报材料进行立项评审,其中,立项评审工作包括依靠专家人员人工阅读申进行报材料,将申报材料和历史评审项目甄别比对;如果存在重复申报情况,则否决驳回其立项申请;如果不存在重复申报情况,则进一步对其进行项目创新性和有益性等人工评审分析;③最后根据专家人员的评审意见确定是否进行最终的立项。
上述评审流程存在以下问题:科技项目申报材料均为大文本,目前科技项目相似度判别方式须依靠专业人工阅读甄别比对,对于每一份科技项目申报材料,都需要将其与数据库中的海量在先科技项目申报材料进行人工对比,耗费大量人力时间成本。
发明内容
本发明的目的在于提出一种科研项目智能评审系统、计算机设备,以实现智能辅助立项评审,无需人工参与,保障立项管理工作提质增效。
根据第一方面,本发明实施例提出一种科研项目智能评审系统,包括:
待评审文本处理单元,用于响应于接收到评审请求,获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审文本信息;
历史文本处理单元,用于获取数据库中与所述待评审项目领域相同的所有历史项目的申报材料电子文档,并对其进行文本提取得到历史文本信息;
重复申报判断单元,用于将所述待评审文本信息分别与所有历史项目的历史文本信息进行相似度计算得到所述待评审项目与所述所有历史项目的相似度;并根据所述待评审项目与所述所有历史项目的相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
主体信息提取单元,用于响应于所述待评审项目为非重复申报,对所述待评审项目的申报材料电子文档文本提取得到待评审项目的申报主体信息;
竞争力确定单元,用于根据所述待评审项目的申报主体信息计算所述待评审项目的申报主体的竞争力分数;
关联度确定单元,用于根据所述待评审项目的申报主体信息与所述待评审长文本信息计算得到所述待评审项目的申报主体与所述待评审项目的关联度分数;
综合确定单元,用于根据所述竞争力分数以及所述关联度分数计算所述待评审项目的评审分数;以及
立项确定单元,用于根据所述评审分数与预设分数阈值的比较结果判定是否立项,并输出是否立项的判定结果。
可选地,所述待评审文本信息包括待评审短文本信息;所述历史文本信息包括历史短文本信息;
其中,所述重复申报判断单元,包括:
第一相似度计算单元,用于将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;以及
第一判断单元,用于根据所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
可选地,所述待评审文本信息包括待评审长文本信息;所述历史文本信息包括历史长文本信息;
其中,所述重复申报判断单元,包括:
第二相似度计算单元,用于响应于所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目为非重复申报,将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
第二判断单元,用于根据所述第二相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
可选地,所述待评审文本信息包括待评审短文本信息和待评审长文本信息;所述历史文本信息包括历史短文本信息和历史长文本信息;
其中,所述重复申报判断单元,包括:
短文本相似度计算单元,用于将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;
长文本相似度计算单元,用于将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
第三相似度计算单元,用于根据所述待评审项目与所述所有历史项目的第一相似度和第二相似度计算所述待评审项目与所述所有历史项目的第三相似度;以及
第三判断单元,用于根据所述待评审项目与所述所有历史项目的第三相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
可选地,所述申报主体信息包括申报主体的每一人员的多维信息;
其中,所述竞争力确定单元,包括:
单维分数计算单元,用于根据每一人员的多维信息分别计算每一人员的多个维度的竞争力分数,并根据每一人员多个维度的竞争力分数以及预设权重计算每一人员的整体竞争力分数;其中,该预设权重根据每一维度的对实施项目的重要性确定;
人员分数权重确定单元,用于根据每一人员在申报主体中的职位确其分数权重;以及
竞争力分数计算单元,用于根据每一人员的整体竞争力分数以及所述分数权重计算申报主体的竞争力分数。
可选地,所述申报主体信息包括申报主体的每一人员的多维信息;
其中,所述关联度确定单元6,包括:
第一向量处理单元,用于将所述申报主体信息输入预先训练好的word2vec模型进行处理,输出第一向量;
第二向量处理单元,用于将所述待评审长文本信息输入预先训练好的word2vec模型进行处理,输出第二向量;以及
关联度分数计算单元,根据余弦相似度计算方式计算所述第一向量和所述第二向量的相似度,并将其转换为对应的关联度分数。
可选地,所述综合确定单元,具体用于:
将所述竞争力分数以及所述关联度分数进行加权求和,或相乘的方式计算得到所述待评审项目的评审分数。
可选地,所述立项确定单元,还用于响应于所述待评审项目为重复申报,则判定不予立项,并输出不予立项的判定结果以及重复申报的结果;所述重复申报的结果包括与所述待评审项目的相似度大于预设相似度阈值的所有历史项目的项目编号信息;其中,每一项目关联设置有唯一的项目编号信息。
可选地,所述立项确定单元,还用于:
响应于输出是否立项的判定结果,为所述待评审项目关联设置一项目编号信息后,存储至所述数据库中。
根据第二方面,本发明实施例提出一种计算机设备,包括:上述第一方面所述的科研项目智能评审系统。
本发明实施例提出了一种科研项目智能评审系统、计算机设备,其实施过程中,科研项目的评审采用无纸化流程,申报主体通过提交申报材料电子文档进行评审,响应于接收到评审请求,自动获取待评审项目的申报材料电子文档,并进行智能评审,最后输出是否立项的结果;整个评审过程不需要依靠评审专家进行人工阅读甄别比对,节省了人力时间资源,能够实现智能辅助立项评审,保障立项管理工作提质增效。
本发明的其它特征和优点将在随后的具体实施方式中阐述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种科研项目智能评审系统框架结构示意图。
图2为本发明一具体实施例中重复申报判断单元结构示意图。
图3为本发明另一具体实施例中重复申报判断单元结构示意图。
图4为本发明一具体实施例中竞争力确定单元结构示意图。
图5为本发明另一具体实施例中关联度确定单元结构示意图。
图中标记:
1-待评审文本处理单元;
2-历史文本处理单元;
3-重复申报判断单元,311-第一相似度计算单元,312-第一判断单元,313-第二相似度计算单元,314-第二判断单元,321-短文本相似度计算单元,322-长文本相似度计算单元,323-第三相似度计算单元,324-第三判断单元;
4-主体信息提取单元;
5-竞争力确定单元,51-单维分数计算单元,52-人员分数权重确定单元,53-竞争力分数计算单元;
6-关联度确定单元,61-第一向量处理单元,62-第二向量处理单元,63-关联度分数计算单元;
7-综合确定单元;
8-立项确定单元。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。另外,为了更好地说明本发明,在下文的具体的实施例中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的手段未作详细描述,以便于凸显本发明的主旨。
参阅图1,本发明一实施例提出一种科研项目智能评审系统,包括待评审文本处理单元1、历史文本处理单元2、重复申报判断单元3、主体信息提取单元4、竞争力确定单元5、关联度确定单元6、综合确定单元7、立项确定单元8;
所述待评审文本处理单元1,用于响应于接收到评审请求,获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审文本信息;
具体而言,科研项目的评审采用无纸化流程,申报主体(例如科研团队、工作部门)按预设的申报材料电子文档格式进行填写,提交申报材料电子文档进行评审。所述评审请求包括所述待评审项目的申报材料电子文档。当接收到所述评审请求时,自动获取所述待评审项目的申报材料电子文档,并利用预设文本提取算法对所述待评审项目的申报材料电子文档进行文本提取,得到相应的待评审文本信息。其中,所述预设文本提取算法根据所述申报材料电子文档格式进行设定。
所述历史文本处理单元2,用于获取数据库中与所述待评审项目领域相同的所有历史项目的申报材料电子文档,并对其进行文本提取得到历史文本信息;
具体而言,根据所述待评审项目的待评审文本信息与预设的多个技术领域进行匹配,确定所述待评审项目的技术领域,本实施例中数据库根据技术领域进行划分为多个存储单元,每一存储单元存储对应的历史项目的申报材料电子文档。本单元根据确定的所述待评审项目的技术领域,获取领域对应的存储单元中的所有历史项目的申报材料电子文档,并利用预设文本提取算法对所述待评审项目的申报材料电子文档进行文本提取,得到所有历史项目的历史文本信息。
所述重复申报判断单元3,用于将所述待评审文本信息分别与所有历史项目的历史文本信息进行相似度计算得到所述待评审项目与所述所有历史项目的相似度;并根据所述待评审项目与所述所有历史项目的相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
具体而言,本单元依次将所述待评审文本信息与所述历史文本处理单元2获取的每一历史项目的历史文本信息进行相似度计算,得到所述待评审项目与每一历史项目的相似度;并且,系统实施之前,预先设置了相似度阈值,当所述待评审项目与任一历史项目的相似度大于所述相似度阈值时,则判断所述待评审项目为重复申报;否则,所述待评审项目为非重复申报;并将判断结果发送给下述的主体信息提取单元以及立项确定单元。
所述主体信息提取单元4,用于响应于所述待评审项目为非重复申报,对所述待评审项目的申报材料电子文档文本提取得到待评审项目的申报主体信息;
具体而言,当所述重复申报判断单元的判断结果为待评审项目为非重复申报时,进一步地,对所述待评审项目的申报材料电子文档文本提取得到待评审项目的申报主体信息,所述申报主体信息包括项目成员的年龄、学历、专业、工作经历、发表论文、职位等等。
所述竞争力确定单元5,用于根据所述待评审项目的申报主体信息计算所述待评审项目的申报主体的竞争力分数;具体而言,所述竞争力可以理解为是申报主体的专业水平。并发送给下述的综合确定单元;
所述关联度确定单元6,用于根据所述待评审项目的申报主体信息与所述待评审长文本信息计算得到所述待评审项目的申报主体与所述待评审项目的关联度分数;并发送给下述的综合确定单元;
具体而言,本实施例中主要是要确定申报主体与待评审项目的专业关联情况,只有申报主体与待评审项目的项目内容为高度关联的情况下,申报主体承担、落实待评审项目从而取得预期目标才更可信,因此,评审过程中需要考虑关联度问题。
所述综合确定单元7,用于接收所述竞争力确定单元和关联度确定单元的计算结果,即所述竞争力分数以及所述关联度分数,并根据所述竞争力分数以及所述关联度分数计算所述待评审项目的评审分数;
具体而言,基于上述竞争力确定单元和关联度确定单元的计算结果,综合考虑,得到所述待评审项目的整体评审分数。
所述立项确定单元8,用于根据所述评审分数与预设分数阈值的比较结果判定是否立项,并输出是否立项的判定结果。
具体而言,本实施例系统实施之前,预先设置了分数阈值,当综合确定单元计算得到的评审分数大于所述分数阈值时,表明所述待评审项目的申报主体竞争力较强,并且与所述待评审项目关联度较高,所述待评审项目的可操作性较高,则判定所述待评审项目立项评审通过,输出立项的判定结果;反之,当综合确定单元7计算得到的评审分数小于等于所述分数阈值时,立项确定单元8判定所述待评审项目立项评审不通过,输出不予立项的判定结果。
基于本实施例系统,科研项目的评审采用无纸化流程,申报主体通过提交申报材料电子文档进行评审,响应于接收到评审请求,自动获取待评审项目的申报材料电子文档,并进行智能评审,最后输出是否立项的结果;整个评审过程不需要依靠评审专家进行人工阅读甄别比对,节省了人力时间资源,能够实现智能辅助立项评审,保障立项管理工作提质增效。
在一具体实施例中,所述待评审文本信息包括待评审短文本信息;所述历史文本信息包括历史短文本信息;
其中,参阅图2,所述重复申报判断单元3,包括第一相似度计算单元311、第一判断单元312;
所述第一相似度计算单元311,用于将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;以及
所述第一判断单元312,用于根据所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
具体而言,当所述第一相似度大于预设相似度阈值T1时,判断所述待评审项目为重复申报;当所述第一相似度小于等于预设相似度阈值T1时,判断所述待评审项目为非重复申报。
示例性地,所述短文本信息具体为标题信息,所述第一相似度计算单元311具体包括字符串计算单元、编辑距离计算单元以及标题相似度计算单元;
所述字符串计算单元,用于获取所述待评审标题信息与任一历史评审项目的历史标题信息之间的最长连续公共子串,并将所述待评审标题信息与该历史评审项目的历史标题信息分别去除所述最长连续公共子串后得到第一字符串和第二字符串;
所述编辑距离计算单元,用于计算所述第一字符串和第二字符串之间的编辑距离;具体而言,所述编辑距离是指两个子串之间,由一个子串转换为另一个子串所需的最少的编辑次数;其中编辑操作包括删除、插入、替换等;
所述标题相似度计算单元,用于根据所述编辑距离计算所述待评审标题信息与该历史评审项目的历史标题信息的相似度。
其中,所述字符串计算单元具体用于:
设所述待评审标题信息为字符串s1,所述第i个历史评审项目的历史标题信息为字符串s2
求出字符串s1和s2的最长连续公共子串sz
以及,如果最长连续公共子串sz的长度大于2,则分别将字符串s1和s2中的sz去除后得到新的2个字符串s10和s20,并令s1=s10,s2=s20后返回步骤a2;如果最长连续公共子串sz的长度小于等于2,则输出s10作为第一字符串,s20作为第二字符串。
其中,所述标题相似度计算单元,具体用于根据以下公式计算待评审标题信息与任一个历史评审项目的历史标题信息的相似度;
Figure BDA0002773774040000101
其中,s1表示第一字符串,s2表示第二字符串,sim(s1,s2)表示所述编辑距离计算所述待评审标题信息与任一历史评审项目的历史标题信息的相似度,ED表示第一字符串和第二字符串之间的编辑距离,len(s1)表示第一字符串的长度,len(s2)表示第二字符串的长度。
具体而言,本实施例中随机选择了一些科技项目集,分别对其进行现有系统和本实施例系统的项目标题相似度计算,其比对结果如下表1所示:可以看出本实施例系统计算编辑距离相对较小,相似度结果来看更加符合接近真实的相似度值。此外,在没有公共子串的时候现有系统和本实施例系统得到的结果相同。
表1-不同技术下的标题相似度比对结果
Figure BDA0002773774040000102
需说明的是,本实施例系统用于项目标题之间的计算比对,可以取得较为理想的效果。例如待评审项目在项目标题上与一个历史评审项目的项目标题相似,那么该历史评审项目和待评审项目就存在相似关系。
具体地,所述待评审文本信息包括待评审长文本信息;所述历史文本信息包括历史长文本信息;
其中,参阅图2,所述重复申报判断单元3,还包括第二相似度计算单元313和第二判断单元314;
所述第二相似度计算单元313,用于响应于所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目为非重复申报,将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
所述第二判断单元314,用于根据所述第二相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
具体而言,当所述第二相似度大于预设相似度阈值T2时,判断所述待评审项目为重复申报;当所述第二相似度小于等于预设相似度阈值T2时,判断所述待评审项目为非重复申报。
示例性地,所述第二相似度计算单元313具体包括:
段落向量获取单元,用于将所述待评审长文本信息与历史评审项目的历史长文本信息分别输入预先训练好的Doc2vec模型,输出对应的待评审段落向量和历史评审项目的历史段落向量;以及
段落相似度计算单元,用于根据所述待评审段落向量和历史评审项目的历史段落向量计算历史评审项目与所述待评审项目的第二相似度。
示例性地,两个段落向量之间的相似度可以根据它们之间的距离来确定,其中距离越近相似度越大。
可以理解的是,本实施例中长文本信息可以包括多个方面,例如项目摘要、主要研究内容等,每一个方面包括多个段落,可以将多个方面分开单独进行相似度计算;最终根据多个方面的相似度进行综合分析计算,例如取多个方面的相似度的平均值作为长文本相似度分析结果;又例如将多个方面的相似度分别乘以相应的预设权重之后累加作为长文本相似度分析结果;其中,对于某一个方面的相似度计算,例如待评审项目的E方面有n个段落,当前历史评审项目E方面有m个段落,将待评审项目的某一个方面的多个段落分别与当前历史评审项目对应的某一个方面的多个段落进行相似度计算后,待评审项目的E方面的每一段落有m个相似度计算数据,则待评审项目的E方面的n个段落有n×m个相似度计算数据,将n×m个相似度计算数据的相似度平均值作为待评审项目与当前历史评审项目在E方面的相似度。
具体而言,本实施例具体采用PV-DM(Distribute Memory Model of ParagraphVectors)训练系统训练所述Doc2vec模型,如2图所示为本实施例的Doc2vec PV-DM的框架图,由图2可以看出在加入单词级别的向量之外还有每个段落/句子的向量表示。例如对一句句子‘the cat sat on’,如果要预测句子中的单词on,那么不仅可以根据其他单词生成对应的特征,也可以根据其他单词和句子生成特征来进行预测。每一个段落/句子都被映射到向量空间中,可以用矩阵的一列来表示。每个单词同样被映射到向量空间,可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求平均得到特征,预测句子中的下一个单词。段落向量/句子向量也可以认为是一个单词,它的作用相当于是上下文的记忆单元或者是这个段落的主题。其中在训练时候,固定上下文长度,同样用滑动窗口的系统产生训练集。并且段落/句向量在该上下文中共享。本实施例Doc2vec模型的训练过程具体如下,主要有以下①和②:
①训练模型,在已知的训练数据中得到词向量,softmax参数以及段落向量/句向量。
②推断过程(inference stage),对于新的段落,得到其向量表达。具体的,在矩阵中添加更多的列,在固定长度的情况下,利用上述系统进行训练,使用梯度下降的系统得到新的D(段落向量矩阵),从而得到新段落的向量表达。步骤S314、根据所述第二相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
在另一具体实施例中,所述待评审文本信息包括待评审短文本信息和待评审长文本信息;所述历史文本信息包括历史短文本信息和历史长文本信息;
其中,所述重复申报判断单元3,包括短文本相似度计算单元321、长文本相似度计算单元322、第三相似度计算单元323以及第三判断单元324;
所述短文本相似度计算单元321,用于将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;
所述长文本相似度计算单元322,用于将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
所述第三相似度计算单元323,用于根据所述待评审项目与所述所有历史项目的第一相似度和第二相似度计算所述待评审项目与所述所有历史项目的第三相似度;
具体而言,可以采用将所述第一相似度和第二相似度加权相加的方式或相乘的方式计算第三相似度。
所述第三判断单元324,用于根据所述待评审项目与所述所有历史项目的第三相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
具体而言,当所述第三相似度大于预设相似度阈值T3时,判断所述待评审项目为重复申报;当所述第三相似度小于等于预设相似度阈值T3时,判断所述待评审项目为非重复申报。
示例性地,所述短文本信息具体为标题信息,所述短文本相似度计算单元具体包括字符串计算单元、编辑距离计算单元以及标题相似度计算单元;
所述字符串计算单元,用于获取所述待评审标题信息与任一历史评审项目的历史标题信息之间的最长连续公共子串,并将所述待评审标题信息与该历史评审项目的历史标题信息分别去除所述最长连续公共子串后得到第一字符串和第二字符串;
所述编辑距离计算单元,用于计算所述第一字符串和第二字符串之间的编辑距离;
具体而言,所述编辑距离是指两个子串之间,由一个子串转换为另一个子串所需的最少的编辑次数;其中编辑操作包括删除、插入、替换等;
所述标题相似度计算单元,用于根据所述编辑距离计算所述待评审标题信息与该历史评审项目的历史标题信息的相似度。
其中,所述字符串计算单元具体用于:
设所述待评审标题信息为字符串s1,所述第i个历史评审项目的历史标题信息为字符串s2
求出字符串s1和s2的最长连续公共子串sz
以及,如果最长连续公共子串sz的长度大于2,则分别将字符串s1和s2中的sz去除后得到新的2个字符串s10和s20,并令s1=s10,s2=s20后返回步骤a2;如果最长连续公共子串sz的长度小于等于2,则输出s10作为第一字符串,s20作为第二字符串。
其中,所述标题相似度计算单元,具体用于根据以下公式计算待评审标题信息与任一个历史评审项目的历史标题信息的相似度;
Figure BDA0002773774040000141
其中,s1表示第一字符串,s2表示第二字符串,sim(s1,s2)表示所述编辑距离计算所述待评审标题信息与任一历史评审项目的历史标题信息的相似度,ED表示第一字符串和第二字符串之间的编辑距离,len(s1)表示第一字符串的长度,len(s2)表示第二字符串的长度。
示例性地,所述长文本相似度计算单元322具体包括段落向量获取单元、段落相似度计算单元;
所述段落向量获取单元,用于将所述待评审长文本信息与历史评审项目的历史长文本信息分别输入预先训练好的Doc2vec模型,输出对应的待评审段落向量和历史评审项目的历史段落向量;以及
所述段落相似度计算单元,用于根据所述待评审段落向量和历史评审项目的历史段落向量计算历史评审项目与所述待评审项目的第二相似度。
示例性地,两个段落向量之间的相似度可以根据它们之间的距离来确定,其中距离越近相似度越大。
可以理解的是,本实施例中长文本信息可以包括多个方面,例如项目摘要、主要研究内容等,每一个方面包括多个段落,可以将多个方面分开单独进行相似度计算;最终根据多个方面的相似度进行综合分析计算,例如取多个方面的相似度的平均值作为长文本相似度分析结果;又例如将多个方面的相似度分别乘以相应的预设权重之后累加作为长文本相似度分析结果;其中,对于某一个方面的相似度计算,例如待评审项目的E方面有n个段落,当前历史评审项目E方面有m个段落,将待评审项目的某一个方面的多个段落分别与当前历史评审项目对应的某一个方面的多个段落进行相似度计算后,待评审项目的E方面的每一段落有m个相似度计算数据,则待评审项目的E方面的n个段落有n×m个相似度计算数据,将n×m个相似度计算数据的相似度平均值作为待评审项目与当前历史评审项目在E方面的相似度。
具体而言,本实施例具体采用PV-DM(Distribute Memory Model of ParagraphVectors)训练系统训练所述Doc2vec模型,如2图所示为本实施例的Doc2vec PV-DM的框架图,由图2可以看出在加入单词级别的向量之外还有每个段落/句子的向量表示。例如对一句句子‘the cat sat on’,如果要预测句子中的单词on,那么不仅可以根据其他单词生成对应的特征,也可以根据其他单词和句子生成特征来进行预测。每一个段落/句子都被映射到向量空间中,可以用矩阵的一列来表示。每个单词同样被映射到向量空间,可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求平均得到特征,预测句子中的下一个单词。段落向量/句子向量也可以认为是一个单词,它的作用相当于是上下文的记忆单元或者是这个段落的主题。其中在训练时候,固定上下文长度,同样用滑动窗口的系统产生训练集。并且段落/句向量在该上下文中共享。本实施例Doc2vec模型的训练过程具体如下,主要有以下①和②:
①训练模型,在已知的训练数据中得到词向量,softmax参数以及段落向量/句向量。
②推断过程(inference stage),对于新的段落,得到其向量表达。具体的,在矩阵中添加更多的列,在固定长度的情况下,利用上述系统进行训练,使用梯度下降的系统得到新的D(段落向量矩阵),从而得到新段落的向量表达。
可选地,所述申报主体信息包括申报主体的每一人员的多维信息;
其中,参阅图4,所述竞争力确定单元5,包括单维分数计算单元51、人员分数权重确定单元52、竞争力分数计算单元53;
所述单维分数计算单元51,用于根据每一人员的多维信息分别计算每一人员的多个维度的竞争力分数,并根据每一人员多个维度的竞争力分数以及预设权重计算每一人员的整体竞争力分数;其中,该预设权重根据每一维度的对实施项目的重要性确定;
所述人员分数权重确定单元52,用于根据每一人员在申报主体中的职位确其分数权重;以及
所述竞争力分数计算单元53,用于根据每一人员的整体竞争力分数以及所述分数权重计算申报主体的竞争力分数。
具体而言,所述多维信息包括项目成员的年龄、学历、专业、工作经历、发表论文、职位等等。
其中,对于每一维度的竞争力分数,预先设置具体信息与对应分数的转换规则;根据所述转换规则,可以根据每一人员的多维信息分别计算每一人员的多个维度的竞争力分数;例如,博士学历所对应的竞争力分数为10分,硕士学历所对应的竞争力分数为7分,本科学历所对应的竞争力分数为5分;其他维度的竞争力分数可以具体根据实际情况量化确定,此处不再赘述。
其中,每一人员多个维度的竞争力分数所对应的预设权重获取方式如下:
首先抽取具体的申报主体信息(年龄、学历、专业、工作经历等),然后分别对每个维度(即指标)进行权重计算,具体使用信息熵来计算,信息熵公式如下:
Figure BDA0002773774040000161
其中yj表示第j个度量指标,m表示统计训练数据的对象个数(即有多少个主体),yij表示第i个科技项目主体的第j个规范化评测指标数值,其计算公式如下:
Figure BDA0002773774040000162
其中,n表示评测指标个数,一般而言,综合评价指标中的某项指标值的不确定程度越大,信息熵就越大,指标提供的信息量越大,权重系数也就越大;反之,该指标的权重系数越小。因此我们可以根据各项指标的混乱程度,利用信息熵,计算出各个指标的权重系数--熵权。具体的计算公式如下:
Figure BDA0002773774040000171
其中wj为第j个指标的对应权重,Gj=1-Ej,(1≤j≤n),表示指标的差异度,Ej=H(yj)/lnm,称之为熵。
具体而言,对于一个申报主体而言,项目团队负责人的分数权重大于项目团队普通成员的分数权重;本实施例中具体采用每一人员的整体竞争力分数分别乘以相应的分数权重之后进行累加得到申报主体的竞争力分数。
其中,参阅图5,所述关联度确定单元6,包括第一向量处理单元61、第二向量处理单元62和关联度分数计算单元63;
所述第一向量处理单元61,用于将所述申报主体信息输入预先训练好的word2vec模型进行处理,输出第一向量;
所述第二向量处理单元62,用于将所述待评审长文本信息输入预先训练好的word2vec模型进行处理,输出第二向量;
所述关联度分数计算单元63,根据余弦相似度计算方式计算所述第一向量和所述第二向量的相似度,并将其转换为对应的关联度分数。
可以理解的是,第一向量和第二向量的计算,不一定限制于word2vec模型。
其中,所述第一向量和所述第二向量的相似度计算公式具体如下:
Figure BDA0002773774040000172
其中,所述第一向量包括元素x1~xn;所述第二向量包括元素y1~yn;cosθ为所述第一向量和所述第二向量的相似度。
具体地,由于相似度的值为0~1,其相对于前面的竞争力分数而言,其值太小,为了便于与前面的竞争力分数合并计算比较,需要将将其转换为对应的关联度分数。
可选地,所述综合确定单元7,具体用于:
将所述竞争力分数以及所述关联度分数进行加权求和,或相乘的方式计算得到所述待评审项目的评审分数。
具体而言,评审分数=竞争力分数×预设第一系数+关联度分数×预设第二系数。
可选地,所述立项确定单元8,还用于:
响应于所述待评审项目为重复申报,则判定不予立项,并输出不予立项的判定结果以及重复申报的结果;所述重复申报的结果包括与所述待评审项目的相似度大于预设相似度阈值的所有历史项目的项目编号信息;其中,每一项目关联设置有唯一的项目编号信息。
具体而言,根据项目编号信息,可以获取对应的历史项目的具体申报材料电子文档。
可选地,所述立项确定单元8,还用于:
响应于输出是否立项的判定结果,为所述待评审项目关联设置一项目编号信息后,存储至所述数据库中。
具体而言,所述待评审项目在经过评审之后,会作为历史项目存储于所述数据库中,以便于后续作为历史项目与下一个待评审项目进行比较。
本发明实施例还提出一种计算机设备,包括:上述实施例所述的科研项目智能评审系统。
当然,所述计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
示例性的,所述计算机程序可以被分割成所述科研项目智能评审系统的多个单元,所述多个单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机设备的控制中心,利用各种接口和线路连接整个所述计算机设备的各个部分。
所述存储器可用于存储所述计算机程序和/或单元,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或单元,以及调用存储在存储器内的数据,实现所述计算机设备的各种功能。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种科研项目智能评审系统,其特征在于,包括:
待评审文本处理单元,用于响应于接收到评审请求,获取待评审项目的申报材料电子文档,并对其进行文本提取得到待评审文本信息;
历史文本处理单元,用于获取数据库中与所述待评审项目领域相同的所有历史项目的申报材料电子文档,并对其进行文本提取得到历史文本信息;
重复申报判断单元,用于将所述待评审文本信息分别与所有历史项目的历史文本信息进行相似度计算得到所述待评审项目与所述所有历史项目的相似度;并根据所述待评审项目与所述所有历史项目的相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报;
主体信息提取单元,用于响应于所述待评审项目为非重复申报,对所述待评审项目的申报材料电子文档文本提取得到待评审项目的申报主体信息;
竞争力确定单元,用于根据所述待评审项目的申报主体信息计算所述待评审项目的申报主体的竞争力分数;
关联度确定单元,用于根据所述待评审项目的申报主体信息与所述待评审长文本信息计算得到所述待评审项目的申报主体与所述待评审项目的关联度分数;
综合确定单元,用于根据所述竞争力分数以及所述关联度分数计算所述待评审项目的评审分数;以及
立项确定单元,用于根据所述评审分数与预设分数阈值的比较结果判定是否立项,并输出是否立项的判定结果。
2.根据权利要求1所述的科研项目智能评审系统,其特征在于,所述待评审文本信息包括待评审短文本信息;所述历史文本信息包括历史短文本信息;
其中,所述重复申报判断单元,包括:
第一相似度计算单元,用于将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;以及
第一判断单元,用于根据所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
3.根据权利要求2所述的科研项目智能评审系统,其特征在于,所述待评审文本信息包括待评审长文本信息;所述历史文本信息包括历史长文本信息;
其中,所述重复申报判断单元,包括:
第二相似度计算单元,用于响应于所述第一相似度与预设相似度阈值的比较结果判断所述待评审项目为非重复申报,将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
第二判断单元,用于根据所述第二相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
4.根据权利要求1所述的科研项目智能评审系统,其特征在于,所述待评审文本信息包括待评审短文本信息和待评审长文本信息;所述历史文本信息包括历史短文本信息和历史长文本信息;
其中,所述重复申报判断单元,包括:
短文本相似度计算单元,用于将所述待评审短文本信息分别与所有历史项目的历史短文本信息进行短文本相似度计算得到所述待评审项目与所述所有历史项目的第一相似度;
长文本相似度计算单元,用于将所述待评审长文本信息分别与所有历史项目的历史长文本信息进行长文本相似度计算得到所述待评审项目与所述所有历史项目的第二相似度;
第三相似度计算单元,用于根据所述待评审项目与所述所有历史项目的第一相似度和第二相似度计算所述待评审项目与所述所有历史项目的第三相似度;以及
第三判断单元,用于根据所述待评审项目与所述所有历史项目的第三相似度与预设相似度阈值的比较结果判断所述待评审项目是否为重复申报。
5.根据权利要求1所述的科研项目智能评审系统,其特征在于,所述申报主体信息包括申报主体的每一人员的多维信息;
其中,所述竞争力确定单元,包括:
单维分数计算单元,用于根据每一人员的多维信息分别计算每一人员的多个维度的竞争力分数,并根据每一人员多个维度的竞争力分数以及预设权重计算每一人员的整体竞争力分数;其中,该预设权重根据每一维度的对实施项目的重要性确定;
人员分数权重确定单元,用于根据每一人员在申报主体中的职位确其分数权重;以及
竞争力分数计算单元,用于根据每一人员的整体竞争力分数以及所述分数权重计算申报主体的竞争力分数。
6.根据权利要求5所述的科研项目智能评审系统,其特征在于,所述申报主体信息包括申报主体的每一人员的多维信息;
其中,所述关联度确定单元6,包括:
第一向量处理单元,用于将所述申报主体信息输入预先训练好的word2vec模型进行处理,输出第一向量;
第二向量处理单元,用于将所述待评审长文本信息输入预先训练好的word2vec模型进行处理,输出第二向量;以及
关联度分数计算单元,根据余弦相似度计算方式计算所述第一向量和所述第二向量的相似度,并将其转换为对应的关联度分数。
7.根据权利要求6所述的科研项目智能评审系统,其特征在于,所述综合确定单元,具体用于:
将所述竞争力分数以及所述关联度分数进行加权求和,或相乘的方式计算得到所述待评审项目的评审分数。
8.根据权利要求1~7所述的科研项目智能评审系统,其特征在于,所述立项确定单元,还用于响应于所述待评审项目为重复申报,则判定不予立项,并输出不予立项的判定结果以及重复申报的结果;所述重复申报的结果包括与所述待评审项目的相似度大于预设相似度阈值的所有历史项目的项目编号信息;其中,每一项目关联设置有唯一的项目编号信息。
9.根据权利要求1~7中任一项所述的科研项目智能评审系统,其特征在于,所述立项确定单元,还用于:
响应于输出是否立项的判定结果,为所述待评审项目关联设置一项目编号信息后,存储至所述数据库中。
10.一种计算机设备,包括:权利要求1~9任一项所述的科研项目智能评审系统。
CN202011258254.5A 2020-11-12 2020-11-12 一种科研项目智能评审系统、计算机设备 Active CN112417840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011258254.5A CN112417840B (zh) 2020-11-12 2020-11-12 一种科研项目智能评审系统、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011258254.5A CN112417840B (zh) 2020-11-12 2020-11-12 一种科研项目智能评审系统、计算机设备

Publications (2)

Publication Number Publication Date
CN112417840A true CN112417840A (zh) 2021-02-26
CN112417840B CN112417840B (zh) 2023-09-15

Family

ID=74781901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011258254.5A Active CN112417840B (zh) 2020-11-12 2020-11-12 一种科研项目智能评审系统、计算机设备

Country Status (1)

Country Link
CN (1) CN112417840B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133839A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有智能检测功能的数据处理方法及系统
CN104133842A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有智能专家检测功能的数据处理方法及系统
CN104133838A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有系统检测功能的数据处理方法及系统
CN110502632A (zh) * 2019-07-19 2019-11-26 平安科技(深圳)有限公司 基于聚类算法的合同条款评审方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133839A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有智能检测功能的数据处理方法及系统
CN104133842A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有智能专家检测功能的数据处理方法及系统
CN104133838A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有系统检测功能的数据处理方法及系统
CN110502632A (zh) * 2019-07-19 2019-11-26 平安科技(深圳)有限公司 基于聚类算法的合同条款评审方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112417840B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN111373392B (zh) 文献分类装置
CN112199938B (zh) 一种科技项目相似分析方法、计算机设备、存储介质
CN112199940B (zh) 一种项目评审方法、存储介质
KR101505546B1 (ko) 텍스트 마이닝을 이용한 키워드 도출 방법
CN109840532A (zh) 一种基于k-means的法院类案推荐方法
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
CN112199937B (zh) 一种短文本相似度分析方法及其系统、计算机设备、介质
CN112883730B (zh) 相似文本匹配方法、装置、电子设备及存储介质
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
CN112381381B (zh) 一种智能推荐专家的装置
CN112818117A (zh) 标签映射方法、系统、计算机可读存储介质
US20210117448A1 (en) Iterative sampling based dataset clustering
CN116578696A (zh) 文本摘要生成方法、装置、设备及存储介质
CN112417840B (zh) 一种科研项目智能评审系统、计算机设备
CN112199941B (zh) 一种科研项目评审平台
CN115455939A (zh) 篇章级事件抽取方法、装置、设备及存储介质
JP5533272B2 (ja) データ出力装置、データ出力方法およびデータ出力プログラム
CN112329425B (zh) 一种科研项目智能评审方法、存储介质
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
WO2021042517A1 (zh) 基于人工智能的文章主旨提取方法、装置及存储介质
CN113688854A (zh) 数据处理方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant