CN116503026A - 科技项目的运维风险评估方法、系统及存储介质 - Google Patents

科技项目的运维风险评估方法、系统及存储介质 Download PDF

Info

Publication number
CN116503026A
CN116503026A CN202310753876.2A CN202310753876A CN116503026A CN 116503026 A CN116503026 A CN 116503026A CN 202310753876 A CN202310753876 A CN 202310753876A CN 116503026 A CN116503026 A CN 116503026A
Authority
CN
China
Prior art keywords
project
sample data
data set
science
risk assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310753876.2A
Other languages
English (en)
Other versions
CN116503026B (zh
Inventor
陈建敏
罗亮
马志平
蔡建新
林珠
石慧芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Science & Technology Infrastructure Center
Original Assignee
Guangdong Science & Technology Infrastructure Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Science & Technology Infrastructure Center filed Critical Guangdong Science & Technology Infrastructure Center
Priority to CN202310753876.2A priority Critical patent/CN116503026B/zh
Publication of CN116503026A publication Critical patent/CN116503026A/zh
Application granted granted Critical
Publication of CN116503026B publication Critical patent/CN116503026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种科技项目的运维风险评估方法、系统及存储介质,该方法包括:对科技项目申报材料及其对应的评审报告材料进行数据特征提取,构建样本数据集;根据对样本数据集过采样处理后得到的均衡样本数据集,对混合随机森林算法的径向基神经网络进行训练,得到科技项目风险评估模型;对当前上传的科技项目文件进行数据特征提取,得到科技项目文件的项目评估指标;根据科技项目文件的项目评估指标,采用科技项目风险评估模型进行预测,得到科技项目文件的运维风险等级;本发明采用混合随机森林算法的径向基神经网络对上传的科技项目文件进行风险预测,可以减少传统专家评估模式导致的误差,提高科技项目文件进行运维风险评估的准确性。

Description

科技项目的运维风险评估方法、系统及存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种科技项目的运维风险评估方法、系统及存储介质。
背景技术
科技项目是科技管理过程中的重要内容和抓手,当前科技竞争与科技自立自强对我国的科技项目管理提出了更高要求,并且面对激增的科学基金项目申请量,如何降低管理过程中人力、时间成本,并保证评审质量,便成为一个亟待解决的问题,对科技项目管理基本过程中进行智能审查,已成为提升科技项目选题合理性、立项客观性、执行合理性等方面评价的重要手段。在实际的科技项目管理过程中,将涉及到项目全生命周期的管理,这对科技管理能否取得良好的社会经济效益均起到重要作用,其中,有一大部分的科技项目管理工作,是需要进行项目的各方面审查。
传统的科技项目审查往往采用专家评估的形式,这形式可以较大程度的保障项目评估计的客观性,从第三方的视角出发,筛选出合适的项目立项,同时在项目执行和验收过程中,通过专家的评议意见,来判断项目是否达到了验收的标准,是否取得较好的经济社会效益。然而,该方法仍具有一定的局限性,在科技项目审查过程中,科技项目所需要上传的评审材料涉及范围广泛,评审材料质量参齐不齐,特征数据来源广泛等等特征,进而容易导致科技项目在人工审查阶段中消耗大量人力资源的同时,对某些评审结论无法给出合理的判断,因此,如何研究一种科技项目的智能辅助审查引擎,融合到项目管理中,以辅助科技项目管理成为本领域亟待解决的技术问题。
发明内容
本发明实施例提供一种科技项目的运维风险评估方法、系统及存储介质,其在充分利用历史专家评审知识的基础上,采用混合随机森林算法的径向基神经网络对上传的科技项目文件进行风险预测,可以减少传统专家评估模式导致的误差,提高科技项目文件进行运维风险评估的准确性。
第一方面,本发明实施例提供了一种科技项目的运维风险评估方法,包括:
对预先采集的科技项目申报材料及其对应的评审报告材料进行数据特征提取,构建样本数据集;其中,所述样本数据集中每一个样本数据包括多个项目评估指标;
对所述样本数据集进行过采样处理,得到均衡样本数据集;
根据所述均衡样本数据集,对混合随机森林算法的径向基神经网络进行训练,得到科技项目风险评估模型;
对当前上传的科技项目文件进行数据特征提取,得到当前上传的科技项目文件的项目评估指标;
根据当前上传的科技项目文件的项目评估指标,采用所述科技项目风险评估模型进行项目运维风险预测,得到当前上传的科技项目文件的运维风险等级。
作为上述方案的改进,所述对预先采集的科技项目申报材料及其对应的评审报告材料进行数据特征提取,构建样本数据集,包括:
对于每一份科技项目申报材料,对所述科技项目申报材料及其对应的评审报告材料进行电子化扫描处理;
对电子化扫描处理后的科技项目申报材料及其对应的评审报告材料进行目标检测和OCR识别,获得相应科技项目申报材料的项目评估表单;所述项目评估表单记录了多个项目评估指标及其评分;
将每一份科技项目申报材料的项目评估表单作为一个样本数据,构建样本数据集。
作为上述方案的改进,所述项目评估指标包括:查重率指标、投入与产出效率指标、可行性审查指标、技术可行性指标、真实性审查指标、达标性审查指标。
作为上述方案的改进,所述对所述样本数据集进行过采样处理,得到均衡样本数据集,包括:
计算所述样本数据集中各个样本数据的缺失值;
根据各个样本数据的缺失值,将所述样本数据集中的样本数据划分为多数类子数据集和少数类子数据集;
对所述少数类子数据集进行过采样处理;
根据过采样处理后的少数类子数据集和所述多数类子数据集,更新所述样本数据集;
计算更新后的样本数据集的非均衡尺度,并判断更新后的样本数据集的非均衡尺度是否满足预设的阈值;
若是,则将更新后的样本数据集作为均衡样本数据集;
若否,则重新对更新后的样本数据集进行过采样处理。
作为上述方案的改进,所述计算所述样本数据集中各个样本数据的缺失值,包括:
对于每一个样本数据,计算所述样本数据中缺失的项目评估指标的数量与项目评估指标总数量的比值,作为相应样本数据的缺失值。
作为上述方案的改进,所述根据各个样本数据的缺失值,将所述样本数据集中的样本数据划分为多数类子数据集和少数类子数据集,包括:
判断各个样本数据的缺失值所属的数值区间;
将属于最小数值区间的样本数据划分为多数类子数据集;
将属于其他数值区间的样本数据划分为相应的少数类子数据集;其中,一个少数类子数据集对应一个其他数值区间的样本数据。
作为上述方案的改进,所述根据所述均衡样本数据集,对混合随机森林算法的径向基神经网络进行训练,得到科技项目风险评估模型,包括:
对所述均衡样本数据集采用有放回随机抽取的方式,生成多个训练子集;
对各个所述训练子集分别建立决策树,并设置分裂节点,获得决策森林;
通过所述决策森林对样本数据中的多个项目评估指标进行特征选择,并将特征选择后得到项目评估指标输入到径向基神经网络进行训练,得到科技项目风险评估模型。
作为上述方案的改进,所述对当前上传的科技项目文件进行数据特征提取,得到当前上传的科技项目文件的项目评估指标,包括:
对于当前上传的科技项目文件进行电子化扫描处理;
对电子化扫描处理后的科技项目文件进行数据增强处理;
对数据增强处理后的科技项目文件进行目标检测和OCR识别,得到相应科技项目文件的多个项目评估指标。
第二方面,本发明实施例提供了一种科技项目的运维风险评估系统,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的科技项目的运维风险评估方法。
第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的科技项目的运维风险评估方法。
相对于现有技术,本发明实施例的有益效果在于:对预先采集的科技项目申报材料及其对应的评审报告材料进行数据特征提取,构建样本数据集;其中,所述样本数据集中每一个样本数据包括多个项目评估指标;对所述样本数据集进行过采样处理,得到均衡样本数据集;根据所述均衡样本数据集,对混合随机森林算法的径向基神经网络进行训练,得到科技项目风险评估模型;对当前上传的科技项目文件进行数据特征提取,得到当前上传的科技项目文件的项目评估指标;根据当前上传的科技项目文件的项目评估指标,采用所述科技项目风险评估模型进行项目运维风险预测,得到当前上传的科技项目文件的运维风险等级;本发明实施例通过过采样技术对样本数据进行均衡,以解决在科技项目评估过程中存在的数据样本量不足/不均衡情况以及某些低质量的负面样本稀缺的问题,从而提高预测结果的可靠性,同时在充分利用历史专家评审知识的基础上,采用混合随机森林算法的径向基神经网络对上传的科技项目文件进行风险预测,可以减少传统专家评估模式导致的误差,提高科技项目文件进行运维风险评估的准确性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所占据要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种科技项目的运维风险评估方法的流程图;
图2是本发明实施例提供的科技项目评审信息综合集成框架示意图;
图3是本发明实施例提供的样本数据集进行过采样处理流程示意图;
图4是本发明实施例提供的科技项目风险评估模型训练流程示意图;
图5是本发明实施例提供的一种科技项目的运维风险评估系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参见图1,其是本发明实施例提供的一种科技项目的运维风险评估方法的流程图。所述科技项目的运维风险评估方法,包括:
S1:对预先采集的科技项目申报材料及其对应的评审报告材料进行数据特征提取,构建样本数据集;其中,所述样本数据集中每一个样本数据包括多个项目评估指标;
进一步,所述对预先采集的科技项目申报材料及其对应的评审报告材料进行数据特征提取,构建样本数据集,包括:
对于每一份科技项目申报材料,对所述科技项目申报材料及其对应的评审报告材料进行电子化扫描处理;
对电子化扫描处理后的科技项目申报材料及其对应的评审报告材料进行目标检测和OCR识别,获得相应科技项目申报材料的项目评估表单;所述项目评估表单记录了多个项目评估指标及其评分;
将每一份科技项目申报材料的项目评估表单作为一个样本数据,构建样本数据集。
其中,所述项目评估指标包括:查重率指标、投入与产出效率指标、可行性审查指标、技术可行性指标、真实性审查指标、达标性审查指标。
以科技项目立项评审为例,科技项目评审指标体系主要包括评审指标、立项指标、综合指标等等。
如图2所示,在立项阶段,需要对申报书、申请单位基本信息等进行重复性审查、可行性审查、完整性审查、关联性审查和真实性审查;在执行阶段,需要对申请单位所提交的年度执行报告进行关联性审查、真实性审查;在验收阶段,需要对验收材料,包括科技报告、成果产出、经费使用、项目实施总结等,进行关联性审查、真实性审查和达标性审查。通过各阶段审查所需关注的不同审标模块进行集成,最终实现科技项目全过程管理的智能审查。
本发明实施例根据科技项目的评估、审查指标,结合科技项目全过程管理中需要进行项目评估、审查的关键环节,采用了归一化处理与数据无量纲化技术将科技项目的多位专家评审信息进行数据综合(包括项目重复率、投入与产出效率分数、可行性审查(专家情感程度)、技术可行性(承担项目数量/情况)、真实性审查分数、达标性审查分数等特征参数);然后使用基于智能算法对集成后的项目指标综合评价值划分特征分数以获得了后续模型训练所需的特定数据形式的项目评估指标。
重复性审查:重复性审查即项目查重,主要用于科技计划项目立项前,对申报书进行相似度检索。
可行性审查:包括政策可行性、组织可行性、经济可行性、技术可行性四个方面的审查。
政策可行性:因考虑其是否符合国家规划等情况,其立项依据通常具备一些政策文件的响应;考察其立项依据文件;或随着行业重点转移,不再符合现有的政策环境
组织可行性:人才团队保障,检查项目人员数量与项目类型的规模是否匹配;如基金项目在3-10人;重点研发计划20名以上等。
经济可行性:科研机构投入与产出效率分数;
技术可行性:申请人及申请单位是否曾经承担科技计划项目、有无延期或终强的项目、研究内容与申请单位研究方向是否一致、是否开展预实验、是否具有前期工作基础等特征。
完整性审查:对标项目形式查审指标,逐项检测是否具有相应内容。对于不同类型的项目立项申请,具有不同的形审要求,这些要求主要体现在形式审查指标表,将在信息系统中录入该指标表。对申请材料结构化数据进行审查,结构化主要体现在所要求文件是否齐全,如真实性承诺函、年度审计报告、申请书、统一机构代码证、项目负责人信息、项目合作协议(多方合作时)、知识产权清单及佐证材料。非结构化主要是将申报书进行文本识别,关键词提取后,看是否包括必要内容,如:研究背景、研究内容、技术路线、人才团队、可行性分析、前期工作基础等是否均已具备。
关联性审查:匹配项目申报指南与申报书的内容,看是否关联。采用结构化与非结构化相互结合的方式。
真实性审查:专家分析项目所提供的专利、标准、论文等知识产权归属是否属于申请单位、所申请的项目领域与申请单位经营范围和研究内容是否一致等特征。
达标性审查:对标项目合同书指标,检查验收材料中是否达标,如合同要求发明专利2件,验收材料中是否有知识产权清单及其佐证材料;
将上述评审特征通过自然语言处理分析/人工评分得到数据特征,即上述包含项目评估指标的项目评估表单,然后输入到后续的智能模型进行学习与训练。
本发明实施例通过采集大量科技项目申报材料及专家对科技项目申报材料的评审报告材料,并进行上述的自然语言处理后得到相应的样本数据,并构建样本数据集。
所述项目评估表单如下表所示:
本发明实施例基于历史大数据中项目评估指标(包括重复率、投入与产出效率分数、可行性审查(专家情感程度)、技术可行性(承担项目数量/情况)、真实性审查分数、达标性审查分数等)作为学习样本,建立评估指标体系。其中,文本情感得分可以理解为专家对申报材料评审的分数。
S2:对所述样本数据集进行过采样处理,得到均衡样本数据集;
本发明实施例通过过采样技术对样本数据进行均衡,以解决在科技项目评估过程中存在的数据样本量不足/不均衡情况以及某些低质量的负面样本稀缺的问题,从而提高预测结果的可靠性。
S3:根据所述均衡样本数据集,对混合随机森林算法的径向基神经网络进行训练,得到科技项目风险评估模型;
S4:对当前上传的科技项目文件进行数据特征提取,得到当前上传的科技项目文件的项目评估指标;
S5:根据当前上传的科技项目文件的项目评估指标,采用所述科技项目风险评估模型进行项目运维风险预测,得到当前上传的科技项目文件的运维风险等级。
本发明实施例在充分利用历史专家评审知识的基础上,结合随机森林的特征选择优势和多层神经网络的预测能力,设计混合随机森林算法的径向基神经网络对上传的科技项目文件进行风险预测,可以减少传统专家评估模式导致的误差,提高科技项目文件进行运维风险评估的准确性。
在一种可选的实施例中,所述对所述样本数据集进行过采样处理,得到均衡样本数据集,包括:
计算所述样本数据集中各个样本数据的缺失值;
进一步,所述计算所述样本数据集中各个样本数据的缺失值,包括:
对于每一个样本数据,计算所述样本数据中缺失的项目评估指标的数量与项目评估指标总数量的比值,作为相应样本数据的缺失值。
根据各个样本数据的缺失值,将所述样本数据集中的样本数据划分为多数类子数据集和少数类子数据集;、
进一步,所述根据各个样本数据的缺失值,将所述样本数据集中的样本数据划分为多数类子数据集和少数类子数据集,包括:
判断各个样本数据的缺失值所属的数值区间;
将属于最小数值区间的样本数据划分为多数类子数据集;
将属于其他数值区间的样本数据划分为相应的少数类子数据集;其中,一个少数类子数据集对应一个其他数值区间的样本数据。
对所述少数类子数据集进行过采样处理;
根据过采样处理后的少数类子数据集和所述多数类子数据集,更新所述样本数据集;
计算更新后的样本数据集的非均衡尺度,并判断更新后的样本数据集的非均衡尺度是否满足预设的阈值;
若是,则将更新后的样本数据集作为均衡样本数据集;
若否,则重新对更新后的样本数据集进行过采样处理。
在大规模的科技项目评估、审查特征的样本数据集中,高质量类样本在数据集中占比很高,仅依靠欠采样算法删除部分噪声样本,难以完全平衡数据集。因此,本发明实施例采用一种改进的合成少数样本过采样算法使样本比例达到平衡,增加模型的泛化能力和对少数样本的识别能力。下面结合图3对样本数据集的过采样处理过程进行说明:
步骤a,获得样本数据集D,并对样本数据集D进行数据预处理;
步骤b,设置样本数据集D的非均衡尺度=1,其中,多数类子数据集设为Dmax,少数类子数据集设为Dmin。由于科技项目评估指标数据通常是高维的,例如项目重复率、投入与产出效率分数、可行性审查(专家情感程度)、技术可行性(承担项目数量/情况)、真实性审查分数、达标性审查分数等,且评审质量高的数据占比较多、评审质量差的数据占比较少,本发明实施例使用改进的合成少数样本过采样技术对项目评审、评价指标数据中的少数类样本线性插值,从而可能高效扩充数据集的样本数量,进而获得较为平衡的训练数据集。在本发明实施例中,多数类子数据集是指数据特征指标质量较好的数据,通常是具有较多历史数据的,少数类子数据集是指数据特征指标质量较差的评分数据,通常是较少的历史数据的。例如通过计算各个样本数据的缺失值,并判断各个样本数据的缺失值所属的数值区间,进而划分多数类子数据集设为Dmax,少数类子数据集设为Dmin2、Dmin3、Dmin4、...、Dminn、其中,Dmax中样本数据的缺失值<Dmin2中样本数据的缺失值<Dmin3中样本数据的缺失值<Dmin4中样本数据的缺失值<、...、<Dminn
步骤c,判别Dmax与不同少数类子数据集大小:
,则执行步骤d,否则执行步骤f;
步骤d,判别Dmin2与不同少数类子数据集大小:
,则执行步骤e,否则执行步骤f;
步骤e,判别Dmin3与不同少数类子数据集大小:
,则执行步骤f;少数类子数据集/>类推后续的步骤;
步骤f,对于少数类子数据集使用改进的合成少数样本过采样算法处理,例如采用通过SMOTE算法以增加其样本数量,得到;具体地,SMOTE算法的插值公式如下:
;其中,X表示少数类样本;rand(0,1),为区间(0,1)中的一个随机数;yi表示距离数据样本X的n个最近邻样本中的第i个。
步骤g,合成数据集Dmax获得数据集Do
步骤h,获得非均衡尺度=/>//>&/>=/>//>&…&/>=/>//>,判断/>是否等于/>,如两者不相等则返回步骤c,否则进行步骤 9。
步骤i,输出均衡样本数据集,将获得的均衡样本数据集/>,使用所提出的混合随机森林算法的径向基神经网络对项目运维风险进行预测研究,从而得到科技项目风险评估模型。
在一种可选的实施例中,所述根据所述均衡样本数据集,对混合随机森林算法的径向基神经网络进行训练,得到科技项目风险评估模型,包括:
对所述均衡样本数据集采用有放回随机抽取的方式,生成多个训练子集;
对各个所述训练子集分别建立决策树,并设置分裂节点,获得决策森林;
通过所述决策森林对样本数据中的多个项目评估指标进行特征选择,并将特征选择后得到项目评估指标输入到径向基神经网络进行训练,得到科技项目风险评估模型。
改进的随机森林设计步骤如下:
预设决策树的棵数和每棵决策树的节点拆分次数;
获取训练子集:从均衡样本数据集中有放回地随机抽取n个独立的训练子集,则每个子样本中未抽取的概率为:/>
选取节点特征指标;对n个训练子集分别建立决策树,通过计算每个节点特征指标的纯度,得到其Gini指数:;其中,D/>为独立训练的训练子集,pn为各个取值的概率。
设置分裂节点,获得决策森林。以指标变量为基础构建的决策森林,其核心是要对每一组指标值评判出对应的风险等级,这个工作由决策树承担,该决策树是一棵简单二叉分类树(CART),由根节点、子节点和叶子节点组成。其中,每一从根节点到叶子节点的路径对应一评判规则,而叶子节点则对应一评价级别。训练子集D1的训练过程对应单棵分类树的生长过程,即把位于根节点的训练子集D1按给定标准自顶向下不断进行递归分割。具体地,对Gini指数最大的节点进行分裂,并重新计算Gini指数,不断重复分裂步骤直至Gini指数小于阈值,最终形成具有k棵数的决策森林,同时根据Gini指数实现对项目评估指标的重要性排序。
反馈各决策树的分类结果:实现对项目评估指标的重要性排序。其中,决策森林对项目评估指标的重要性进行计算的方法主要有以下两种:(1)对每棵树,首先计算其OOB误差(EOOB1);然后对项目评估指标i的数据加入噪声并计算OOB误差(EOOB2);最后,把EOOB1与EOOB2的差对所有树取平均,并用标准差归一化,即为项目评估指标i的重要性。(2)计算项目评估指标i在节点分割时基尼指数的减少值DGi;把森林中所有节点的DGi求和后对所有树取平均,即为项目评估指标i的重要性。本发明实施优先采用上述第二种方法对项目评估指标进行重要性评判,并以指标平均基尼减小值占所有指标平均基尼减少值总和的百分比度量指标的重要程度,从而筛选出输入到径向基神经网络的特征,模型训练过程如图4所示。
径向基神经网络(Radical Basis Function,RBF)是一种由输入层、一个或多个隐藏层和输出层组成的前馈人工神经网络;各层之间通过带有非线性激活函数的神经元全连接。该网络中每个连接都赋有不同的权值,使得各层神经网络的输入为前一层神经元输出值的加权和,即:
其中,为第/>层第/>个神经元的输出;/>为第/>层的激活函数;/>为/>层的神经元的个数;/>为第/>层第/>个神经元的连接权重;/>为第/>层第/>个神经元的输出;/>为第/>层第/>个神经元的偏置值。
考虑到径向基神经网络具有出色的泛化能力与非线性匹配;因此,在本发明实施例中通过径向基神经网络对随机决策森林优选过后的项目评估指标进行学习训练,由经大量数据训练的径向基神经网络的输出层上的每个神经元对应一个科技项目运维风险等级,从而获取精确度较高的科技项目运维风险评价预测值。
在一种可选的实施例中,所述对当前上传的科技项目文件进行数据特征提取,得到当前上传的科技项目文件的项目评估指标,包括:
对于当前上传的科技项目文件进行电子化扫描处理;
对电子化扫描处理后的科技项目文件进行数据增强处理;
对数据增强处理后的科技项目文件进行目标检测和OCR识别,得到相应科技项目文件的多个项目评估指标。
示例性,本发明实施例允许上传PNG/JPG格式的科技项目文件/图像,并通过预处理将基于纸质的科技项目文件/图像中项目表单数据提取为数字表单。具体预处理过程包括:
对上传PNG/JPG格式的科技项目文件与专家报告文件进行电子化扫描处理;
对所上传的科技项目文件进行区域检测并进行注释;
对科技项目文件进行数据增强处理(例如灰度、饱和度、噪声增强处理);
基于上传的科技项目文件构建一个具有泛化能力强、检测以及定位准确率高的目标检测模型,通过目标检测模型对输入的科技项目文件进行检测,得到对应项目评估指标的区域位置并传递数据集,获取目评估指标边框内的区域;例如,本发明实施例采用一种采用自适应空间特征融合模块改进的YOLOv7模型作为目标检测模型,该目标检测模型的特征金字塔网络中增加自适应空间特征融合模块,根据特征权值自适应融合多层特征,同时将特征融合网络中的普通卷积块替换为深度可分离卷积块,然后,利用稀疏训练以及模型微调等方式重构模型,进而构建一个具有泛化能力强、检测以及定位准确率高的目标检测模型。在本发明实施例中使用上述改进YOLOv7目标检测模型对输入的科技项目文件进行检测,高效得到对应项目的项目评估指标的区域位置并传递数据集,获取边框内的区域;
所上传的科技项目文件经过目标检测模型处理过后,通过OCR模块将其识别结果输出保存为CSV文件;该CSV文件包括科技项目文件对行的多个项目评估指标,例如查重率、投入与产出效率分数、可行性审查(专家情感程度)、技术可行性(承担项目数量/情况)、真实性审查分数、达标性审查等特征参数);
调用所设计的科技项目风险评估模型进行项目运维风险预测,得到当前上传的科技项目文件的运维风险等级,并基于输出的运维风险等级供项目审查的参考依据。
在其他实施例中,用户可以打开终端中的科技项目的运维风险评估程序,终端在检测到开启科技项目的运维风险评估程序的指令后,可以呈现一个表单录入带审查、评估的项目信息,管理员能够根据自行的申请情况在该表单中输入项目评估指标等相关参数等信息,收集的信息包括但不限于查重率、投入与产出效率分数、可行性审查(专家情感程度)、技术可行性(承担项目数量/情况)、真实性审查分数、达标性审查等特征参数,此时终端能够通过在表单获取检测项目的描述参数,并输入项目特例样本数据到所设计的科技项目风险评估模型确定目标科技项目对应的运维风险等级。
相较于现有技术,本发明实施例的有益效果在于:
本发明实施例通过使用随机森林对径向基神经网络的输入属性(包括查重率、投入与产出效率分数、可行性审查(专家情感程度)、技术可行性(承担项目数量/情况)、真实性审查分数、达标性审查等)进行优化,进而对相关特征进行优化选择,以进一步提高深度学习网络利用自学习特征来分类的能力和预测模型的预测精准度。
本发明实施例通过对样本数据集中的少数类样本进行过采样,使样本比例达到平衡,增加模型的泛化能力和对少数类样本的识别能力,从而使得采用均衡后的样本数据训练的模型具有较好的预测效果。
实施例二
参见图5,是本发明实施例提供的科技项目的运维风险评估系统的示意图。该实施例的科技项目的运维风险评估系统包括:处理器100、存储器200以及存储在所述存储器200中并可在所述处理器100上运行的计算机程序,例如科技项目的运维风险评估程序。所述处理器100执行所述计算机程序时实现上述各个科技项目的运维风险评估方法实施例中的步骤,例如图1所示的步骤S1-S5。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述科技项目的运维风险评估系统中的执行过程。
所述科技项目的运维风险评估系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是科技项目的运维风险评估系统的示例,并不构成对科技项目的运维风险评估系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述科技项目的运维风险评估系统还可以包括输入输出设备、网络接入设备、总线等。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述科技项目的运维风险评估系统的控制中心,利用各种接口和线路连接整个科技项目的运维风险评估系统的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述科技项目的运维风险评估系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述科技项目的运维风险评估系统集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出多台改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种科技项目的运维风险评估方法,其特征在于,包括:
对预先采集的科技项目申报材料及其对应的评审报告材料进行数据特征提取,构建样本数据集;其中,所述样本数据集中每一个样本数据包括多个项目评估指标;
对所述样本数据集进行过采样处理,得到均衡样本数据集;
根据所述均衡样本数据集,对混合随机森林算法的径向基神经网络进行训练,得到科技项目风险评估模型;
对当前上传的科技项目文件进行数据特征提取,得到当前上传的科技项目文件的项目评估指标;
根据当前上传的科技项目文件的项目评估指标,采用所述科技项目风险评估模型进行项目运维风险预测,得到当前上传的科技项目文件的运维风险等级。
2.如权利要求1所述的科技项目的运维风险评估方法,其特征在于,所述对预先采集的科技项目申报材料及其对应的评审报告材料进行数据特征提取,构建样本数据集,包括:
对于每一份科技项目申报材料,对所述科技项目申报材料及其对应的评审报告材料进行电子化扫描处理;
对电子化扫描处理后的科技项目申报材料及其对应的评审报告材料进行目标检测和OCR识别,获得相应科技项目申报材料的项目评估表单;所述项目评估表单记录了多个项目评估指标及其评分;
将每一份科技项目申报材料的项目评估表单作为一个样本数据,构建样本数据集。
3.如权利要求2所述的科技项目的运维风险评估方法,其特征在于,所述项目评估指标包括:查重率指标、投入与产出效率指标、可行性审查指标、技术可行性指标、真实性审查指标、达标性审查指标。
4.如权利要求1所述的科技项目的运维风险评估方法,其特征在于,所述对所述样本数据集进行过采样处理,得到均衡样本数据集,包括:
计算所述样本数据集中各个样本数据的缺失值;
根据各个样本数据的缺失值,将所述样本数据集中的样本数据划分为多数类子数据集和少数类子数据集;
对所述少数类子数据集进行过采样处理;
根据过采样处理后的少数类子数据集和所述多数类子数据集,更新所述样本数据集;
计算更新后的样本数据集的非均衡尺度,并判断更新后的样本数据集的非均衡尺度是否满足预设的阈值;
若是,则将更新后的样本数据集作为均衡样本数据集;
若否,则重新对更新后的样本数据集进行过采样处理。
5.如权利要求4所述的科技项目的运维风险评估方法,其特征在于,所述计算所述样本数据集中各个样本数据的缺失值,包括:
对于每一个样本数据,计算所述样本数据中缺失的项目评估指标的数量与项目评估指标总数量的比值,作为相应样本数据的缺失值。
6.如权利要求5所述的科技项目的运维风险评估方法,其特征在于,所述根据各个样本数据的缺失值,将所述样本数据集中的样本数据划分为多数类子数据集和少数类子数据集,包括:
判断各个样本数据的缺失值所属的数值区间;
将属于最小数值区间的样本数据划分为多数类子数据集;
将属于其他数值区间的样本数据划分为相应的少数类子数据集;其中,一个少数类子数据集对应一个其他数值区间的样本数据。
7.如权利要求1所述的科技项目的运维风险评估方法,其特征在于,所述根据所述均衡样本数据集,对混合随机森林算法的径向基神经网络进行训练,得到科技项目风险评估模型,包括:
对所述均衡样本数据集采用有放回随机抽取的方式,生成多个训练子集;
对各个所述训练子集分别建立决策树,并设置分裂节点,获得决策森林;
通过所述决策森林对样本数据中的多个项目评估指标进行特征选择,并将特征选择后得到项目评估指标输入到径向基神经网络进行训练,得到科技项目风险评估模型。
8.如权利要求1所述的科技项目的运维风险评估方法,其特征在于,所述对当前上传的科技项目文件进行数据特征提取,得到当前上传的科技项目文件的项目评估指标,包括:
对于当前上传的科技项目文件进行电子化扫描处理;
对电子化扫描处理后的科技项目文件进行数据增强处理;
对数据增强处理后的科技项目文件进行目标检测和OCR识别,得到相应科技项目文件的多个项目评估指标。
9.一种科技项目的运维风险评估系统,其特征在于,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的科技项目的运维风险评估方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至8中任意一项所述的科技项目的运维风险评估方法。
CN202310753876.2A 2023-06-26 2023-06-26 科技项目的运维风险评估方法、系统及存储介质 Active CN116503026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310753876.2A CN116503026B (zh) 2023-06-26 2023-06-26 科技项目的运维风险评估方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310753876.2A CN116503026B (zh) 2023-06-26 2023-06-26 科技项目的运维风险评估方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN116503026A true CN116503026A (zh) 2023-07-28
CN116503026B CN116503026B (zh) 2024-02-09

Family

ID=87325159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310753876.2A Active CN116503026B (zh) 2023-06-26 2023-06-26 科技项目的运维风险评估方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116503026B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076783A (zh) * 2023-10-16 2023-11-17 广东省科技基础条件平台中心 基于数据分析的科技信息推荐方法、装置、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242361A (zh) * 2018-10-31 2019-01-18 深圳市中电数通智慧安全科技股份有限公司 一种消防风险评估方法、装置及终端设备
CN111210098A (zh) * 2018-11-21 2020-05-29 国网上海市电力公司 一种基于项目类型的科技项目评估系统
CN113506160A (zh) * 2021-06-17 2021-10-15 山东师范大学 一种面向不平衡财务文本数据的风险预警方法及系统
CN114202243A (zh) * 2021-12-31 2022-03-18 杭州电子科技大学 一种基于随机森林的工程项目管理风险预警方法及系统
CN114330541A (zh) * 2021-12-28 2022-04-12 于志青 道路交通事故风险预测深度学习算法
WO2022246843A1 (zh) * 2021-05-28 2022-12-01 京东方科技集团股份有限公司 软件项目的风险评估方法、装置、计算机设备、存储介质
CN116187932A (zh) * 2022-12-28 2023-05-30 北京中百信信息技术股份有限公司 一种信息系统工程监理项目风险自适应评估方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242361A (zh) * 2018-10-31 2019-01-18 深圳市中电数通智慧安全科技股份有限公司 一种消防风险评估方法、装置及终端设备
CN111210098A (zh) * 2018-11-21 2020-05-29 国网上海市电力公司 一种基于项目类型的科技项目评估系统
WO2022246843A1 (zh) * 2021-05-28 2022-12-01 京东方科技集团股份有限公司 软件项目的风险评估方法、装置、计算机设备、存储介质
CN113506160A (zh) * 2021-06-17 2021-10-15 山东师范大学 一种面向不平衡财务文本数据的风险预警方法及系统
CN114330541A (zh) * 2021-12-28 2022-04-12 于志青 道路交通事故风险预测深度学习算法
CN114202243A (zh) * 2021-12-31 2022-03-18 杭州电子科技大学 一种基于随机森林的工程项目管理风险预警方法及系统
CN116187932A (zh) * 2022-12-28 2023-05-30 北京中百信信息技术股份有限公司 一种信息系统工程监理项目风险自适应评估方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
何英洁: "基于RF-BP组合模型的混合型基金预测研究", 《计算机与数字工程》, vol. 51, no. 3, pages 742 - 747 *
张雷;王家琪;费职友;罗帅;隋京岐;: "基于RF-SMOTE-XGboost下的银行用户个人信用风险评估模型", 现代电子技术, no. 16, pages 76 - 81 *
田臣;周丽娟;: "基于带多数类权重的少数类过采样技术和随机森林的信用评估方法", 计算机应用, no. 06, pages 1707 - 1712 *
田臣等: "基于带多数类权重的少数类过采样技术和随机森林的信用评估方法", 《计算机应用》, vol. 39, no. 6, pages 1707 - 1712 *
陆晓琴;黄元君;王喜;: "基于PCA-RBF神经网络的PPP项目风险智能评价研究", 科技管理研究, no. 14, pages 59 - 63 *
陆晓琴等: "基于PCA-RBF神经网络的PPP 项目风险智能评价研究", 《科技管理研究》, vol. 37, no. 14, pages 59 - 63 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076783A (zh) * 2023-10-16 2023-11-17 广东省科技基础条件平台中心 基于数据分析的科技信息推荐方法、装置、介质及设备
CN117076783B (zh) * 2023-10-16 2023-12-26 广东省科技基础条件平台中心 基于数据分析的科技信息推荐方法、装置、介质及设备

Also Published As

Publication number Publication date
CN116503026B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
Krešňáková et al. Deep learning methods for Fake News detection
US10909188B2 (en) Machine learning techniques for detecting docketing data anomalies
US9280739B2 (en) Computer implemented system for automating the generation of a business decision analytic model
US20200167593A1 (en) Dynamic reconfiguration training computer architecture
Coyne et al. Forecasting stock prices using social media analysis
CN116503026B (zh) 科技项目的运维风险评估方法、系统及存储介质
CN110188047A (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
Wang et al. Mushroom toxicity recognition based on multigrained cascade forest
CN112148776A (zh) 基于引入语义信息的神经网络的学术关系预测方法和装置
US20220156862A1 (en) System and method for analyzing grantability of a legal filing
CN112434862B (zh) 上市企业财务困境预测方法及装置
Walker et al. Harnessing large-scale herbarium image datasets through representation learning
CN114238062B (zh) 板卡烧录装置性能分析方法、装置、设备及可读存储介质
CN114862531A (zh) 一种基于深度学习的企业财务风险预警方法及系统
CN113888318A (zh) 风险检测方法及系统
Vrunda et al. Sentimental analysis of Twitter data and Comparison of covid 19 Cases trend Using Machine learning algorithms
De Pril User classification based on public Reddit data
Eck Neural networks for survey researchers
Sindhu et al. Mapping Distinct Source and Target Domains on Amazon Product Customer Critiques with Cross Domain Sentiment Analysis
CN117541044B (zh) 基于项目风险分析的项目分类方法、系统、介质及设备
Bremmer Predicting tomorrow’s cryptocurrency price using a LSTM model, historical prices and Reddit comments
CN114118542A (zh) 烟气含氧量负荷预测模型的选择方法及装置
Shah et al. Comparative Analysis of Deep Learning Architectures for Rice Crop Image Classification
Jack et al. Meta-Analysis of Machine Learning Algorithms for Deep Learning Chatbots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant