CN116703328B

CN116703328B - 一种项目评审方法及系统

Info

Publication number: CN116703328B
Application number: CN202310737910.7A
Authority: CN
Inventors: 丛怀实; 石伟; 闫文敏; 卢漫天; 安萍; 徐光瑞; 黄灿金
Original assignee: Zhongzi High Tech Consulting Center Co ltd
Current assignee: Zhongzi High Tech Consulting Center Co ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2024-05-14
Anticipated expiration: 2043-06-21
Also published as: CN116703328A

Abstract

本发明提供了一种项目评审方法及系统，涉及数据处理技术领域，包括：获取用户上传的待评审项目的申报材料数据并进行形式审核；当形式审核通过后，对待评审项目建立项目标签，再利用专家遴选系统实现评审专家推荐，得到第一推荐列表；将申报材料数据传送给第一推荐列表中的所有评审专家进行评审，获取得到第一评审意见；汇总所有第一评审意见得到待评审项目的评审立项结果后，存储至项目评审数据库中供用户查询。通过对待评审项目的申报资料进行形式审核后，再利用专家遴选系统推荐的评审专家进行人工审核得到待评审项目的评审立项结果，存储至项目评审数据库中供用户查询，减少人力时间成本以及提高评审系统效率的同时，保证了项目质量。

Description

一种项目评审方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种项目评审方法及系统。

背景技术

近年来，随着科技与经济的不断发展，每年的项目数量逐步增长，项目的涉及的学科领域也越来越多样化，为保证项目的质量与可行性，对项目的“形式+人工”评审环节必不可少，而面对规模不断增加、信息不断更新的专家学术成果，如何实现快速筛选合适专家来对项目进行人工评审，以减少人工时间成本的同时保证评审可靠有效就显得尤为重要。

因此，本发明提供一种项目评审方法及系统。

发明内容

本发明提供一种项目评审方法及系统，用以通过对待评审项目的申报资料进行形式审核后，再利用专家遴选系统推荐的评审专家进行人工审核得到待评审项目的评审立项结果，存储至项目评审数据库中供用户查询，减少人力时间成本以及提高评审系统效率的同时，保证了项目质量。

本发明提供一种项目评审方法，包括：

步骤1：获取用户上传的待评审项目的申报材料数据并进行形式审核；

步骤2：当形式审核通过后，对待评审项目建立项目标签，再利用专家遴选系统实现评审专家推荐，得到第一推荐列表；

步骤3：将待评审项目的申报材料数据传送给第一推荐列表中的所有评审专家进行评审，获取得到第一评审意见；

步骤4：汇总所有第一评审意见得到待评审项目的评审立项结果后，存储至项目评审数据库中供用户查询。

优选的，所述形式审核包括：项目资料齐全性审核、项目重复申报审核、项目资源来源合规性审核以及项目投资策略合规性审核。

优选的，当形式审核通过后，对待评审项目建立项目标签，再利用专家遴选系统实现评审专家推荐，得到第一推荐列表，包括：

步骤11：对待评审项目的申报材料数据进行文本信息提取，得到第一文本数据；

步骤12：将所述第一文本数据中的不重要数据删除后，再分别利用预设的项目涉及专业词词典以及停用词词典进行分词与去除停用词处理得到第一评审数据；

步骤13：选取LDA模型对所述第一评审数据进行主题与领域提取，得到待评审项目的主题标签与技术领域标签，再作为项目标签输出；

步骤14：将所述项目标签输入专家遴选系统中进行专家推荐后得到第一推荐列表。

优选的，将所述项目标签输入专家遴选系统中进行专家推荐后得到第一推荐列表，包括：

步骤21：按照预设时间周期，利用机器人流程自动化来基于筛选规则定期从线上开放数据源采集评审专家名单以及对应学术成果信息，再预处理后得到第一数据；

步骤22：基于预设特征项，利用文本信息的统计特征与语义特征分析所述第一数据得到第一画像并存储；

步骤23：利用第一画像与预设的RDF三元组模式，对所述第一数据构建可实现自动更新的专家知识图谱；

步骤24：利用所述项目标签，从专家知识图谱中通过技术领域标签相似度定位专家，从而得到从事对应领域研究的候选专家名单；

步骤25：通过计算待评审项目的主题标签与候选专家的第一画像标签相似度并排序，结合预设标签相似阈值，从候选专家名单中筛选并生成第一推荐列表。

优选的，基于预设特征项，利用文本信息的统计特征与语义特征分析所述第一数据得到第一画像并存储，包括：

步骤31：基于Python技术与TF-IDF算法，对第一数据分析得到对应统计特征向量；

步骤32：对MacBERT模型进行带掩码的语言模型训练与错词修正两个任务的并行训练后，输入第一数据后输出得到包含语义特征的语义特征向量；

步骤33：将非同名专家的统计特征向量与语义特征向量集合作为第一多特征向量，并存储至专家多特征数据集中；

步骤34：利用同名的专家的统计特征向量以及语义特征向量计算得到对应的文本相似度；

当仅存在两个名字的同名的情况，且该两个同名的专家的文本相似度大于预设相似阈值时，判断两个同名的专家为同一人，并任意选取一组统计-语义特征向量集合作为该专家的第一多特征向量，存入专家多特征数据集中；

否则，将该两个同名的专家的统计特征向量、语义特征向量集合作为第一多特征向量再依次存入专家多特征数据集中；

当存在大于两个名字的同名的情况时，对所有同名的专家编号标记得到第一标记专家；

若计算得到的任意两个第一标记专家之间的文本相似度均大于预设相似阈值时，判断所有同名的专家为同一人，并任意选取一组统计-语义特征向量集合作为该专家的第一多特征向量，存入专家多特征数据集中；

若计算得到的任意两个第一标记专家之间的文本相似度均不大于预设相似阈值时，判断所有同名的专家均不是同一人，此时依次将所有同名的专家的统计特征向量、语义特征向量集合得到第一多特征向量，再存入专家多特征数据集中；

否则，对文本相似度大于预设相似阈值的对应第一标记专家进行集合，得到第一专家组；

对文本相似度不大于预设相似阈值的对应第一标记专家进行集合，得到第二专家组；

将第一专家组中出现的所有第一标记专家视为同一人，并任意选取一组统计-语义特征向量集合作为该专家的第一多特征向量，存入专家多特征数据集，再将第二专家组中存在重复的第一标记专家的统计-语义特征向量集合作为对应的第一多特征向量，存入专家多特征数据集；

步骤35：结合所述预设特征项，利用所述专家多特征集中的第一多特征向量依次构建得到对应专家的第一画像。

优选的，通过基于同名的专家的统计特征向量以及语义特征向量计算得到对应的文本相似度，包括：

根据同名专家i和专家j的对应统计特征向量X＝(x₁，x₂，x₃，…，x_n)和Y＝(y₁，y₂，y₃，…，y_n)，以及语义特征向量A＝(a₁，a₂，a₃，…，a_m)和B＝(b₁，b₂，b₃，…，b_m)进行文本相似度的计算；

其中，文本相似度的计算公式如下所示：

其中，S_ij表示为同名专家专家i和专家j的文本相似度；T_ij表示为同名专家专家i和专家j的统计特征向量的相似度；x_k表示为同名专家i对应统计特征向量中的第k个统计特征向量元素，其中k∈1，2，3，…，n；y_k表示为同名专家j对应统计特征向量中的第k个统计特征向量元素，其中k∈1，2，3，…，n；U_ij表示为同名专家专家i和专家j的语义特征向量的相似度；a_h表示为同名专家i对应语义特征向量中的第h个语义特征向量元素，其中h∈1，2，3，…，m；b_h表示为同名专家j对应语义特征向量中的第h个语义特征向量元素，其中h∈1，2，3，…，m；表示为统计特征对文本相似的影响权重；/>表示为语义特征对文本相似的影响权重，且/>

优选的，汇总所有第一评审意见得到待评审项目的评审立项结果后，存储至项目评审数据库中供用户查询，包括：

获取并分析所有第一评审意见，当评审结果均为通过时，将所述待评审项目标定为可执行项目，并采用对应全部的第一评审意见生成立项可行性报告作为评审立项结果传输至项目评审数据库中供用户查询；

当评审结果存在不通过时，将所述待评审项目标定为待定项目，并采用对应全部的第一评审意见生成评审报告作为评审立项结果传输至项目评审数据库中供用户查询。

本发明提供一种项目评审系统，包括：

形式审核模块：获取用户上传的待评审项目的申报材料数据并进行形式审核；

专家推荐模块：当形式审核通过后，对待评审项目建立项目标签，再利用专家遴选系统实现评审专家推荐，得到第一推荐列表；

评审模块：将待评审项目的申报材料数据传送给第一推荐列表中的所有评审专家进行评审，获取得到第一评审意见；

评审结果储存模块：汇总所有第一评审意见得到待评审项目的评审立项结果后，存储至项目评审数据库中供用户查询。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种项目评审方法的流程图；

图2为本发明实施例中一种项目评审系统的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种项目评审方法，如图1所示，包括：

该实施例中，申报材料数据主要由文档数据、图像数据以及视频数据构成，其中，文档数据有项目申报书、项目涉及技术可行性报告以及投资可行性分析报告；图像数据以及视频数据作为待评审项目的材料补充，用于表现项目的可执行性；形式审核包括有项目资料齐全性审核、项目重复申报审核、项目资源来源合规性审核以及项目投资策略合规性审核，其中投资策略合规性审核包括投资流程有效性、投资授权制度、投资比例以及投资范围。

该实施例中，项目标签是基于LDA模型对处理后的申报材料数据进行主题与领域提取，得到的主题标签与技术领域标签组成，有助于后续评审专家精准推荐。

该实施例中，专家遴选系统指的是根据输入的项目标签以及利用机器人流程自动化采集得到的评审专家名单以及对应学术成果信息进行合适的专家推荐，从而输出第一推荐列表的系统，其中第一推荐列表是由专家遴选系统筛选出的合适的评审专家并按照相似度从大到小依次排列构成的；第一评审意见指的是第一推荐列表内的专家基于待评审项目的申报材料数据进行项目创新性、有益性以及可行性审核分析后得出的结果；评审立项结果指的是汇总所有第一评审意见后生成的立项可行性报告或评审报告；项目评审数据库用于存储待评审项目以及已评审项目的评审立项结果，用户可通过访问项目评审数据库来获取待评审项目的评审结果。

上述技术方案的有益效果是：通过对待评审项目的申报资料进行形式审核后，再利用专家遴选系统推荐的评审专家进行人工审核得到待评审项目的评审立项结果，存储至项目评审数据库中供用户查询，减少人力时间成本以及提高评审系统效率的同时，保证了项目质量。

本发明实施例提供一种项目评审方法，当形式审核通过后，对待评审项目建立项目标签，再利用专家遴选系统实现评审专家推荐，得到第一推荐列表，包括：

该实施例中，申报材料数据主要由文档数据、图像数据以及视频数据构成，其中，文档数据有项目申报书、项目涉及技术可行性报告以及投资可行性分析报告；图像数据以及视频数据作为待评审项目的材料补充，用于表现项目的可执行性。

该实施例中，第一文本数据指的是对申报材料数据中的文档数据进行文本信息提取后得到的数据，其中文档数据有项目申报书、项目涉及技术可行性报告以及投资可行性分析报告；不重要数据指的是标点符号、英文字母以及数字。

该实施例中，项目涉及专业词词典是基于所属于待评审项目涉及的专业技术领域的文献中的专业词汇预先构建的；停用词词典可通过从一般网页下载得到，用于去除对分类任务没有贡献度的词，比如“一个”、“的”；第一评审数据是对第一文本数据剔除不重要数据再分词、去停用词处理后得到的数据；LDA模型用于推测文本的主题；主题标签用于描述待评审项目的技术主题，比如，智能变电站网络状态；技术领域标签用于描述待评审项目的技术领域，比如，电力通信、人工智能；项目标签是基于LDA模型对处理后的申报材料数据进行主题与领域提取，得到的主题标签与技术领域标签组成，有助于后续评审专家精准推荐。

上述技术方案的有益效果是：通过将基于处理后的待评审项目的申报材料数据建立得到的项目标签输入专家遴选系统中筛选得到合适的评审专家，可实现高效管理专家信息的同时提高专家遴选效率，从而减少人力时间成本。

本发明实施例提供一种项目评审方法，将所述项目标签输入专家遴选系统中进行专家推荐后得到第一推荐列表，包括：

该实施例中，预设时间周期是提前设定好的；机器人流程自动化用于根据灵活添加的组件，基于筛选规则从线上开放数据源自动收集评审专家名单以及对应学术成果信息，其中，筛选规则是基于专家的百度学术影响力以及专家的学术成果产出效率提前设定好的。

该实施例中，线上开放数据源指的是公开可自由访问的在线数据存储处；第一数据是对从线上开放数据源采集评审专家名单以及对应学术成果信息进行剔除不重要数据、分词再去停用词处理后得到的数据；预设特征项指的是评审专家的关注领域、工作单位、论文名称以及摘要、专利名称以及摘要。

该实施例中，统计特征指的是能代表专家学术成果信息的关键特征；语义特征指的是专家学术成果信息中的字词区别与其他字词的语义要素；第一画像是基于预设特征项，利用统计特征向量与语义特征向量集合的多特征向量构建得到的半结构化数据；专家知识图谱是一种语义网络，可实现知识的高效组织与存储，是将第一画像与RDF三元组模式相结合再基于第一数据构建的。

该实施例中，RDF三元组模式{(f₁，g，f₂)}，f₁、f₂分别为头部实体与尾部实体，比如专家姓名、工作单位、论文名称、专利名称等等，g表示为实体间的语义关系，比如，隶属于；候选专家名单是利用待评审项目的技术领域标签与专家知识图谱中的技术领域标签相似度进行定位得到的专家集合；预设标签相似阈值是提前设定好的；第一推荐列表是对候选专家名单中筛选出的主题标签与第一画像的标签相似度大于预设标签相似阈值的候选专家按照标签相似度从大到小依次排列构成的。

上述技术方案的有益效果是：通过基于对利用机器人自动化收集的数据预处理，再利用文本信息的统计特征与语义特征分析进行专家同名分析后得到的数据构建得到专家知识图谱，再结合待评审项目的项目标签得到第一推荐列表，实现了高效管理专家信息的同时提高专家遴选效率。

本发明实施例提供一种项目评审方法，基于预设特征项，利用文本信息的统计特征与语义特征分析所述第一数据得到第一画像并存储，包括：

该实施例中，TF-IDF算法是一种评估语料库中字词重要性的统计方法；统计特征向量是对利用TF-IDF算法与Python技术分析第一数据得到的字词重要特性分析得到的用于代表专家学术成果的关键特征；MacBERT模型是一种面向中文的全词掩码模型，用于抽取词语的意义，生成包含语义特征的语义特征向量，其中，语义特征向量用于表示字词区别与其他字词的语义要素；对MacBERT模型进行带掩码的语言模型训练与错词修正训练的目的是为了提高模型计算效率与精度。

该实施例中，非同名专家指的是评审专家名单中不存在同名字的专家；第一多特征向量是集合统计特征向量和语义特征向量得到的向量；专家多特征数据集是由第一多特征向量构成的；文本相似度是分别对两同名专家的统计特征向量和语义特征向量相似度计算后再加权求和得到的，用于判断两同名专家是否为同一人；预设相似阈值是提前设定好的。

该实施例中，比如，存在同名专家A1、A2的文本相似度小于预设相似阈值，故判定同名专家A1、A2不为同一人，此时，将专家A1、A2的对应统计特征向量、语义特征向量分别进行集合得到第一多特征向量后，再依次存入专家多特征数据集中。

该实施例中，第一标记专家指的是存在大于两个名字的同名的情况时，对所有同名的专家进行编号标记的专家。

该实施例中，比如，存在第一标记专家B1、B2、B3，且第一标记专家B1、B2之间、第一标记专家B1、B3之间以及第一标记专家B2、B3之间的文本相似度均大于预设相似阈值，此时判定第一标记专家B1、B2以及B3为同一人，并从第一标记专家B1、B2、B3中任意选取一名专家对应的统计特征向量和语义特征向量集合成第一多特征向量存入专家多特征数据集中。

该实施例中，比如，存在第一标记专家C1、C2、C3、C4，经计算得到任意两个第一标记专家的文本相似度分别是S₁₂、S₁₃、S₁₄、S₂₃、S₂₄以及S₃₄，其中S₁₂、S₁₃以及S₂₃大于预设相似阈值，S₁₄、S₂₄以及S₃₄小于预设相似阈值，故按照C1、C2，C1、C3以及C2、C3顺序集合得到第一专家组，再按照C1、C4，C2、C4以及C3、C4顺序集合得到第二专家组，此时，判定第一专家组中出现的C1、C2、C3为同一人，并从第一标记专家C1、C2、C3中任意选取一名专家对应的统计特征向量和语义特征向量集合成第一多特征向量存入专家多特征数据集中；

再将第二专家组中的存在重复的第一标记专家C4的统计特征向量和语义特征向量集合成第一多特征向量存入专家多特征数据集中。

该实施例中，预设特征项指的是评审专家的关注领域、工作单位、论文名称以及摘要、专利名称以及摘要；第一画像是基于预设特征项，利用统计特征向量与语义特征向量集合的多特征向量构建得到的半结构化数据。

上述技术方案的有益效果是：通过利用文本信息的统计特征与语义特征对预处理后的同名字的专家的学术成果信息进行文本相似度的分析，来确定是否为同一人后再利用对应的多特征向量构建专家的第一画像，有利于后续专家知识图谱的精确构建。

本发明实施例提供一种项目评审方法，通过基于同名的专家的统计特征向量以及语义特征向量计算得到对应的文本相似度，包括：

其中，文本相似度的计算公式如下所示：

上述技术方案的有益效果是：通过对两同名专家的统计特征向量和语义特征向量分别相似度计算再加权求和得到两同名专家的学术成果的文本相似度，为构建专家的第一画像提供数据支撑。

本发明实施例提供一种项目评审方法，汇总所有第一评审意见得到待评审项目的评审立项结果后，存储至项目评审数据库中供用户查询，包括：

该实施例中，第一评审意见指的是第一推荐列表内的专家基于待评审项目的申报材料数据进行项目创新性、有益性以及可行性审核分析后得出的结果。

该实施例中，可执行项目指的是第一推荐列表内的所有专家的第一评审意见均为通过的项目；立项可行性报告是集合可执行项目的对应所有第一评审意见得到的文档报告；待定项目指的是存在第一推荐列表内专家的第一评审意见为不通过的项目；评审报告是集合待定项目的对应所有第一评审意见得到的文档报告。

该实施例中，评审立项结果指的是汇总所有第一评审意见后生成的立项可行性报告或评审报告；项目评审数据库用于存储待评审项目以及已评审项目的评审立项结果，用户可通过访问项目评审数据库来获取待评审项目的评审结果。

上述技术方案的有益效果是：通过对第一推荐列表中的所有专家根据待评审项目的申报材料数据生成的第一评审意见分析与汇总，确定待评审项目的评审立项结果，并存储至项目评审数据库中供用户查询，提高了项目评审的可靠性，从而保证了项目的质量。

本发明实施例提供一种项目评审系统，如图2所示，包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种项目评审方法，其特征在于，包括：

步骤4：汇总所有第一评审意见得到待评审项目的评审立项结果后，存储至项目评审数据库中供用户查询；

其中，步骤2，包括：

步骤25：通过计算待评审项目的主题标签与候选专家的第一画像标签相似度并排序，结合预设标签相似阈值，从候选专家名单中筛选并生成第一推荐列表；

其中，步骤22，包括：

2.根据权利要求1所述的一种项目评审方法，其特征在于，所述形式审核包括：项目资料齐全性审核、项目重复申报审核、项目资源来源合规性审核以及项目投资策略合规性审核。

3.根据权利要求1所述的一种项目评审方法，其特征在于，当形式审核通过后，对待评审项目建立项目标签，再利用专家遴选系统实现评审专家推荐，得到第一推荐列表，包括：

4.根据权利要求1所述的一种项目评审方法，其特征在于，通过基于同名的专家的统计特征向量以及语义特征向量计算得到对应的文本相似度，包括：

根据同名专家i和专家j的对应统计特征向量X＝(x₁,x₂,x₃,…,x_n)和Y＝(y₁,y₂,y₃,…,y_n)，以及语义特征向量A＝(a₁,a₂,a₃,…,a_m)和B＝(b₁,b₂,b₃,…,b_m)进行文本相似度的计算；

其中，文本相似度的计算公式如下所示：

5.根据权利要求1所述的一种项目评审方法，其特征在于，汇总所有第一评审意见得到待评审项目的评审立项结果后，存储至项目评审数据库中供用户查询，包括：

6.一种项目评审系统，其特征在于，包括：

评审结果储存模块：汇总所有第一评审意见得到待评审项目的评审立项结果后，存储至项目评审数据库中供用户查询；

其中，专家推荐模块，用于：

按照预设时间周期，利用机器人流程自动化来基于筛选规则定期从线上开放数据源采集评审专家名单以及对应学术成果信息，再预处理后得到第一数据；

基于预设特征项，利用文本信息的统计特征与语义特征分析所述第一数据得到第一画像并存储；

利用第一画像与预设的RDF三元组模式，对所述第一数据构建可实现自动更新的专家知识图谱；

利用所述项目标签，从专家知识图谱中通过技术领域标签相似度定位专家，从而得到从事对应领域研究的候选专家名单；

通过计算待评审项目的主题标签与候选专家的第一画像标签相似度并排序，结合预设标签相似阈值，从候选专家名单中筛选并生成第一推荐列表；

其中，利用文本信息的统计特征与语义特征分析所述第一数据得到第一画像并存储，包括：

基于Python技术与TF-IDF算法，对第一数据分析得到对应统计特征向量；

对MacBERT模型进行带掩码的语言模型训练与错词修正两个任务的并行训练后，输入第一数据后输出得到包含语义特征的语义特征向量；

将非同名专家的统计特征向量与语义特征向量集合作为第一多特征向量，并存储至专家多特征数据集中；

利用同名的专家的统计特征向量以及语义特征向量计算得到对应的文本相似度；

结合所述预设特征项，利用所述专家多特征集中的第一多特征向量依次构建得到对应专家的第一画像。