CN115329742B

CN115329742B - 基于文本分析的科研项目产出评价验收方法及系统

Info

Publication number: CN115329742B
Application number: CN202211251387.9A
Authority: CN
Inventors: 舒涛; 曾诗培; 刘晗; 代山; 张凯; 张淑娟; 吴书涵
Original assignee: Shenzhen Research Institute of Big Data SRIBD
Current assignee: Shenzhen Research Institute of Big Data SRIBD
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-02-03
Anticipated expiration: 2042-10-13
Also published as: CN115329742A

Abstract

本发明公开了基于文本分析的科研项目产出评价验收方法、系统、计算机设备及存储介质，其方法实现，包括：采集科研项目的项目文本数据以及项目产出文本数据，并生成项目数据表以及项目产出数据表；对所述项目产出数据表与所述项目数据表进行预处理；计算所述项目产出信息中属于其所属项目信息的重点词个数、所述项目产出信息与所述项目信息的词频分布相似度，以及词频加权后的项目产出信息与所述项目信息的词向量相似度；对所述重点词个数、词频分布相似度以及词向量分布相似度进行加权平均，以获取每个项目产出与其所属项目的相似度，并进行归一化后，作为最终项目产出与其所属项目的匹配度得分。提高了准确度，实现了科研项目产出的智能化验收。

Description

基于文本分析的科研项目产出评价验收方法及系统

技术领域

本发明涉及文本分析技术领域，尤其涉及一种基于文本分析的科研项目产出评价验收方法、系统、计算机设备及存储介质。

背景技术

目前科研项目产出的验收方式大多为人工审核，即组织专家对科研项目申请书的目标研究内容与最终产出内容进行人工比对，该方法费时费力且存在评价误差，原因如下：（1）缺乏可以基于文本内容进行批量化、自动化、快速化比对的计算方法，当需要验收的产出数量大时，人工审核费时费力；（2）人工审核具有一定的主观性，专家依据主观经验对项目产出进行匹配度评价，缺乏客观的评价验收标准；（3）专家组成员主攻领域、方向不同，对不同专业领域的科研项目产出评价角度各不相同，跨学科之间的科研产出评价缺乏统一性和可比性。

虽然，当前已经存在诸多可以实现自动化比对的文本识别算法与技术，但是，一方面现有的算法大多停留在字面的相似度计算而忽略了文本语义的相似度计算；另一方面，科研项目申请书通常包含数个研究目标，满足任一研究目标的项目产出应视为与目标研究内容高度匹配，而大多数算法仅可以通过文本相似内容所占比重的方式确定匹配度，例如，论文查重，因此，其计算方式单一、准确率差，无法达到科研项目验收的需求。

发明内容

基于此，有必要针对上述技术问题，提供一种基于文本分析的科研项目产出评价验收方法、系统、计算机设备及存储介质，以解决现有技术中计算方式单一、准确率低，无法满足科研项目验收的需求。

第一方面，提供了一种基于文本分析的科研项目产出评价验收方法，包括：

采集科研项目的项目文本数据以及项目产出文本数据，并生成项目数据表以及项目产出数据表；

对所述项目产出数据表与所述项目数据表进行预处理，以合并成新的数据表，所述新的数据表包括项目信息以及项目产出信息；

计算所述项目产出信息中属于其所属项目信息的重点词个数、所述项目产出信息与所述项目信息的词频分布相似度，以及词频加权后的项目产出信息与所述项目信息的词向量相似度；

对所述重点词个数、词频分布相似度以及词向量分布相似度进行加权平均，以获取每个项目产出与其所属项目的相似度，并进行归一化后，作为最终项目产出与其所属项目的匹配度得分。

在一实施例中，所述计算所述项目产出信息中属于其所属项目信息的重点词个数、所述项目产出信息与所述项目信息的词频分布相似度，以及词频加权后的项目产出信息与所述项目信息的词向量相似度之前，包括：

将所述项目信息作为语料库，并计算所述项目信息中每个词的词频及词频逆文档频率，以生成每个项目的词列表、词频列表以及词频逆文档频率列表。

在一实施例中，所述计算所述项目产出信息中属于其所属项目信息的重点词个数，包括：

提取所述项目产出信息对应的词频逆文档频率列表中数值最大的前N个词；

计算所述项目产出信息中出现所述前N个词的数量，以作为所述重点词个数。

在一实施例中，所述计算所述项目产出信息与所述项目信息的词频分布相似度，包括：

计算所述项目产出信息的段落词频逆文档频率与所述项目信息的段落词频逆文档频率之间的相似度，以作为词频第一相似度；

计算所述项目产出信息中的每句话词频逆文档频率与所述项目信息的每句话词频逆文档频率之间的相似度，以作为词频第二相似度；

计算所述项目产出信息中的每句话词频逆文档频率与所述项目信息的主旨句词频逆文档频率之间的相似度，以作为词频第三相似度。

在一实施例中，所述计算词频加权后的项目产出信息与项目信息的词向量相似度，包括：

根据所述项目信息以及所述项目产出信息，计算词向量，以生成词向量单词表；

计算所述项目产出信息的段落词向量与所述项目信息的段落词向量之间之间的相似度，以作为词向量第一相似度；

计算所述项目产出信息中的每句话词向量与所述项目信息的每句话词向量之间的相似度，以作为词向量第二相似度；

计算所述项目产出信息中的每句话词向量与所述项目信息的主旨句词向量之间的相似度，以作为词向量第三相似度。

在一实施例中，所述对所述重点词个数、词频分布相似度以及词向量分布相似度进行加权平均，以获取每个项目产出与其所属项目的相似度，并进行归一化后，作为最终项目产出与其所属项目的匹配度得分，包括：

将所述重点词个数、所述词频第一相似度、所述词向量第一相似度归一化处理后求最大值，以作为最大相似度；

将所述最大相似度、所述词频第二相似度、所述词频第三相似度、所述词向量第二相似度、所述词向量第三相似度，进行加权平均后归一化处理，以获取每个项目产出与其所属项目的相似度。

在一实施例中，所述项目产出信息包括论文，所述对所述项目产出数据表与所述项目数据表进行预处理，以合并成新的数据表，所述新的数据表包括项目信息以及项目产出信息，包括：

分别提取所述项目数据表以及项目产出数据表关键列进行合并，以生成所述新的表格，所述新的表格包括项目编号、项目名称、项目研究内容、论文标题、论文摘要；

将所述项目编号、项目名称、项目研究内容、论文标题、论文摘要翻译为英文，并去除所述论文标题中为空的行；

将所述项目名称、项目内容以及项目研究内容合并为项目信息，将所述论文标题、论文摘要合并为论文信息。

第二方面，还提供了一种基于文本分析的科研项目产出评价验收系统，所述系统包括：

采集单元，用于采集多个科研项目的项目文本数据以及项目产出文本数据，并生成项目数据表以及项目产出数据表；

预处理单元，用于对所述项目产出数据表与所述项目数据表进行预处理，以合并成新的数据表，所述新的数据表包括项目信息以及项目产出信息；

第一计算单元，用于计算所述项目产出信息中属于其所属项目信息的重点词个数、所述项目产出信息与所述项目信息的词频分布相似度，以及词频加权后的项目产出信息与所述项目信息的词向量相似度；

匹配度得分获取单元，用于对所述重点词个数、词频分布相似度以及词向量分布相似度进行加权平均，以获取每个项目产出与其所属项目的相似度，并进行归一化后，作为最终项目产出与其所属项目的匹配度得分。

第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述所述的基于文本分析的科研项目产出评价验收的步骤。

第四方面，提供了一个或多个可读存储介质，所述可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述所述基于文本分析的科研项目产出评价验收方法的步骤。

上述基于文本分析的科研项目产出评价验收方法、系统、计算机设备及存储介质，其方法实现，包括：采集科研项目的项目文本数据以及项目产出文本数据，并生成项目数据表以及项目产出数据表；对所述项目产出数据表与所述项目数据表进行预处理，以合并成新的数据表，所述新的数据表包括项目信息以及项目产出信息；计算所述项目产出信息中属于其所属项目信息的重点词个数、所述项目产出信息与所述项目信息的词频分布相似度，以及词频加权后的项目产出信息与所述项目信息的词向量相似度；对所述重点词个数、词频分布相似度以及词向量分布相似度进行加权平均，以获取每个项目产出与其所属项目的相似度，并进行归一化后，作为最终项目产出与其所属项目的匹配度得分。本申请中，通过以科研项目申请书的文本数据和科研项目产出文本数据为基础，结合不同算法对项目与论文内容进行匹配度打分，判定论文是否匹配项目要求、解决项目问题，提高了验收准确度，实现了科研项目产出的智能化验收。

附图说明

图1是本发明一实施例中基于文本分析的科研项目产出评价验收方法的一流程示意图；

图2是本发明一实施例中重点词个数计算方法的一流程示意图；

图3是本发明一实施例中词频第一相似度计算方法的一流程示意图；

图4是本发明一实施例中词频第二相似度的计算方法的一流程示意图；

图5是本发明一实施例中词频第三相似度的计算方法的一流程示意图；

图6是本发明一实施例中词向量第一相似度的计算方法的一流程示意图；

图7是本发明一实施例中词向量第二相似度的计算方法的一流程示意图；

图8是本发明一实施例中词向量第三相似度的计算方法的一流程示意图；

图9为本发明一实施例中项目产出与其所属项目之间相似度的计算方法的一流程示意图；

图10是本发明一实施例中基于文本分析的科研项目产出评价验收方法的一结构示意图；

图11是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一实施例中，如图1所示，提供一种基于文本分析的科研项目产出评价验收方法，包括如下步骤：

在步骤S110中，采集科研项目的项目文本数据以及项目产出文本数据，并生成项目数据表以及项目产出数据表；

在本申请实施例中，项目文本数据可包括科研项目申请书等文本数据，一个科研项目申请书中可包括多个研究项目，一个研究项目可包括多个项目产出，例如多篇论文、专利申请。

在本申请实施例中，该项目产出文本数据可包括发表的论文、专利申请等文本产出数据。

在本申请实施例中，对科研项目的项目文本数据以及项目产出文本数据进行采集后，可分别生成项目数据表以及项目产出数据表。

其中，该项目数据表可包括项目编号、项目名称、项目拟解决的关键科学问题和主要研究内容、总体研究方案等科研项目申请详情。

该项目产出数据表，可包括项目产出的基本详情，以论文为例进行说明，具体可包括：论文标题、论文摘要等描述研究产出的文本内容。

在步骤S120中，对所述项目产出数据表与所述项目数据表进行预处理，以合并成新的数据表，所述新的数据表包括项目信息以及项目产出信息；

在本申请实施例中，该项目信息可包括项目名称、项目内容以及项目研究内容等，该项目产出信息，以论文为例进行说明，具体可包括论文标题、论文摘要等。

在本申请一实施例中，所述项目产出信息包括论文，所述对所述项目产出数据表与所述项目数据表进行预处理，以合并成新的数据表，所述新的数据表包括项目信息以及项目产出信息，包括：

具体的，在获取项目产出数据表与项目数据表之后，以该项目产出为论文进行说明，可以提取两张表格的关键列，并进行合并，以形成新的数据表，然后可以将新的数据表中的信息统一翻译成英文，并去除掉论文标题为空的行，并将新的数据表中的属于项目的内容合并成项目信息，属于论文的内容合并成论文信息，将该项目信息以及论文信息作为文本匹配的分析对象。

其中，新的表格中可以包括项目编号、项目名称、项目研究内容、项目研究问题、论文标题、论文摘要等信息。

在步骤S130中，计算所述项目产出信息中属于其所属项目信息的重点词个数、所述项目产出信息与所述项目信息的词频分布相似度，以及词频加权后的项目产出信息与所述项目信息的词向量相似度；

本申请实施例中，计算所述重点词个数、所述词频分布相似度，以及词向量相似度之前，包括：

具体的，该词频tf可通过计数得到，相当于每个词的出现频率，该逆文档频率idf与包含该词的文档数方向相反，具体的计算公式可为：

逆文档频率=log(n/m)+1，其中，n为总的文档数，m为出现某个词的文档数。

进一步，可根据每个项目的词列表、词频列表以及词频逆文档频率列表，通过预先构建文本匹配模型，在该模型上按照不同的计算方式可计算出所述项目产出信息中属于其所属项目信息的重点词个数、所述项目产出信息与所述项目信息的词频分布相似度，以及词频加权后的项目产出信息与所述项目信息的词向量相似度。

其中，在计算所述项目信息中每个词的词频及词频逆文档频率之前，还需过滤掉该项目信息中的停用词。

在步骤S140中，对所述重点词个数、词频分布相似度以及词向量分布相似度进行加权平均，以获取每个项目产出与其所属项目的相似度，并进行归一化后，作为最终项目产出与其所属项目的匹配度得分。

在本申请实施例中，在获取重点词个数、词频分布相似度以及词向量分布相似度之后，可以通过加权平均算法对重点词个数、词频分布相似度以及词向量分布相似度进行计算，以获取每个项目产出与其所属项目的相似度，然后通过归一化处理后，作为最终项目产出与其所属项目的匹配度得分，当匹配度得分大于预设阈值时，则可认为项目产出与其所属项目匹配，否则，表示不匹配，当不匹配时，可以送到专家组进行二次审核。

本申请实施例，提供了一种基于文本分析的科研项目产出评价验收方法，包括：采集科研项目的项目文本数据以及项目产出文本数据，并生成项目数据表以及项目产出数据表；对所述项目产出数据表与所述项目数据表进行预处理，以合并成新的数据表，所述新的数据表包括项目信息以及项目产出信息；计算所述项目产出信息中属于其所属项目信息的重点词个数、所述项目产出信息与所述项目信息的词频分布相似度，以及词频加权后的项目产出信息与所述项目信息的词向量相似度；对所述重点词个数、词频分布相似度以及词向量分布相似度进行加权平均，以获取每个项目产出与其所属项目的相似度，并进行归一化后，作为最终项目产出与其所属项目的匹配度得分。本申请中，通过以科研项目申请书的文本数据和科研项目产出文本数据为基础，结合不同算法对项目与论文内容进行匹配度打分，判定论文是否匹配项目要求、解决项目问题，提高了验收准确度，实现了科研项目产出的智能化验收。

参见图2，所述计算所述项目产出信息中属于其所属项目信息的重点词个数，包括：

在本申请实施例中，根据项目信息，计算出项目信息的词频逆文档频率tidif，然后可提取所述词频逆文档频率列表中数值最大的前N个词，该前N个词可表示该论文信息中属于项目信息中最重要的N个词，计算论文信息的段落中包含有这个N个词的数量，即，同一个重点词重复出现的数量，具体的可将论文信息逐词与每个重点词进行比对，判定是否存在与该N个词相同的单词，如果不存在，则继续下一个单词的比对，直到比对完成，输出结果subset_score，如果存在，则将输出结果subset_score的数值加一。

其中，N可为具体的数值，例如，20，也可为其他数值，例如30、10等具体可以根据实际情况进行设置，本申请在此不做限定。

在本申请一实施例中，所述计算所述项目产出信息与所述项目信息的词频分布相似度，包括：

具体的，项目产出信息的段落与所述项目信息的段落之间的第一相似度可以段落为单位，计算项目段落与论文段落的相似度，即，可分别计算出论文信息和项目信息的段落的词频逆文档频率tidif，然后可通过余弦相似度算法，根据tidif计算出项目段落与论文段落之间的相似度，作为词频第一相似度tfidf_score1。

进一步，可以句子为单位，将论文信息和项目信息分别按照句子拆分后生成每句话的词频逆文档频率tfdif，然后分别计算论文信息的句子和项目信息的所有句子的词频分布相似度，求平均值取最大值，作为词频第二相似度tfidf_score2。

再进一步，可以句子为单位，提取出项目信息中的每个段落的重点句作为主旨句，然后依次和论文信息中的每句话通过余弦相似度算法计算相似度。即，可先计算出项目信息与论文信息的每句话的tfdif，然后根据句子和段落词频分布相似度，选取出项目信息的主旨句，然后计算论文信息的每句话的词频分布与每个段落的主旨句之间的相似度，求平均取最大值作为词频第三相似度tfidf_score3。

参见图3，在本申请一实施例中，计算所述项目产出信息的段落与所述项目信息的段落之间的词频第一相似度，包括：

计算所述项目信息的所有段落的词频逆文本频率，以生成项目段落向量；

计算所述项目产出信息的所有段落的词频逆文本频率，以生成项目产出段落向量；

根据所述项目段落向量以及项目产出段落向量，计算所述项目产出信息的段落与所述项目信息的段落之间的词频分布相似度，以作为所述词频第一相似度。

具体的，分别计算每个项目信息的所有段落的词频逆文档频率以及项目产出信息的所有段落的词频逆文档频率后，可生成项目信息和项目产出信息整体段落的词频逆文本频率的项目段落向量以及项目产出段落向量，提取项目段落向量以及项目产出段落向量，以计算所述项目产出信息的段落与所述项目信息的段落之间的词频分布相似度，以作为所述词频第一相似度tfidf_score1。

参见图4，所述计算所述项目产出信息中的每句话与所述项目信息的每句话之间的相似度，以确定所述词频第二相似度，包括：

将所述项目信息的所有段落，按照句子进行拆分，并计算每句话的词频逆文档频率，以生成项目句子矩阵，并提取所述项目信息中每句话对应的句子向量；

将所述项目产出信息的所有段落，按照句子进行拆分，并计算每句话的词频逆文档频率，以生成项目产出句子矩阵，并提取所述项目产出信息中每句话对应的句子向量；

计算所述项目产出信息中每句话对应的句子向量与所述项目信息中每个句子对应的句子向量之间的相似度，并求平均值，平均值可包括多个，可用于代表所述项目产出信息所有段落与所述项目信息的每个句子的相似度；

根据所述平均值，取最大值，作为词频第二相似度。

具体的，将项目信息中所有的段落均按照句子进行分割，然后可以计算每句话的词频逆文档频率，以形成项目句子矩阵，项目句子矩阵中的一行向量则代表了该项目信息中的一句话，因此，可以通过该项目句子矩阵，提取出项目信息中每句话的对应的句子向量。同理，该项目产出信息，例如，论文，也可将该论文的所有段落按照句子进行分割，然后可以计算论文中每句话的词频逆文档频率，以形成项目产出句子矩阵，该项目产出句子矩阵中的一行向量则代表了该论文中的一句话，因此，可以通过该项目产出句子矩阵，提取出该论文中每句话对应的句子向量。以该项目产出信息为论文为例进行说明，可提取项目信息的第一句话的句子向量，依次与论文中的每一句话的句子向量进行相似度计算，直到与论文中所有的句子均计算完成，即计算至论文信息的末句，然后提取项目信息的第二句话的句子向量依次与论文中的每一句话的句子向量进行相似度计算，直到与论文中所有的句子均计算完成，重复上述步骤，直到项目信息中所有句子均计算完成为止，即，计算至项目信息中的末句，此时，可取论文信息中所有句子的相似度，求平均值，以代表论文信息与项目信息每句话的相似度，然后，取最大值，作为词频第二相似度，将其计作tfidf_score2。

其中，项目句子矩阵以及项目句子产出矩阵中，每一行可分别对应段落中的每句话，每句话可按照词袋法展开，例如“a a b c”、“a a c d”这两句，展开后是（2，1，1，0）和（2， 0， 1，1），对应的列为”a b c d”。

参见图5，所述计算所述项目产出信息中的每句话与所述项目信息的主旨句之间的相似度，以确定所述词频第三相似度，包括：

提取所述项目信息的所有段落，按照句子进行拆分，并计算每句话的词频逆文档频率，以形成项目句子矩阵，并提取所述目标项目信息中每句话对应的句子向量；

提取所述项目产出信息的所有段落，按照句子进行拆分，并计算每句话的词频逆文档频率，以形成项目产出句子矩阵；

提取所述目标项目的段落向量，分别计算每个所述句子向量与所述段落向量之间的相似度，当所述相似度大于目标预设阈值时，将所述句子向量对应的句子作为其所属段落的主旨句；

计算所述项目产出信息中每句话对应的句子向量与所述项目信息中每个主旨句对应的句子向量之间的相似度，并求平均值，平均值可包括多个，可用于代表所述项目产出信息所有段落与所述项目信息的每个主旨句的相似度；

根据所述平均值，取最大值，作为词频第三相似度。

具体的，将项目信息中所有的段落均按照句子进行分割，然后可以计算每句话的词频逆文档频率，以形成项目句子矩阵，项目句子矩阵中的一行向量则代表了该项目信息中的一句话，因此，可以通过该项目句子矩阵，提取出项目信息中每句话的对应的句子向量。同理，该项目产出信息，例如，论文，也可将该论文的所有段落按照句子进行分割，然后可以计算论文中每句话的词频逆文档频率，以形成项目产出句子矩阵，该项目产出句子矩阵中的一行向量则代表了该论文中的一句话，因此，可以通过该项目产出句子矩阵，提取出该论文中每句话对应的句子向量。同时，还可以根据所述项目产出信息所属的项目信息的所有段落的段落向量，然后可通过余弦相似度计算出该项目信息的段落向量与项目信息句子向量之间的相似度，当该相似度大于设定的目标预设阈值时，则可认为该句话为其所属段落的主旨句。然后可进一步计算每一个主旨句与论文中的每一个段落中的每一句话的余弦相似度，并取每一个段落中的所有句子的相似度平均值，以代表论文中每一个段落与该主旨句之间的相似度。进一步，计算论文中每一个段落与所有主旨句之间的相似度，取最大值，作为词频第三相似度，计作tfidf_score3。

在本申请实施例中，tfidf_score3，其可代表论文信息段落与其所属项目信息段落的相似度，这里的段落的相似度，其并不是单纯的表示段落之间整体文本内容的相似，例如，段落甲是a、b、c，段落乙是a，如果是段落之间的相似度，那么甲乙之间只有a相似，相似度并不高，但是通过上述方式计算，得到段落甲的主旨句为a，则甲乙的相似度可以达到100%，即只要论文符合项目信息中的关键内容，例如与其中某个研究方向相同，即可认为论文与项目相似。

在本申请实施例中，第一项目矩阵以及第一项目产出矩阵中，每一行可分别对应段落中的每句话，每句话可按照词袋法展开，例如“a a b c”、“a a c d”这两句，展开后是（2，1，1，0）和（2，0， 1，1），对应的列为”a b c d”。

在本申请一实施例中，所述计算词频加权后的项目产出信息与项目信息的词向量相似度，包括：

计算所述项目产出信息的段落词向量与所述项目信息的段落词向量之间的相似度，以作为词向量第一相似度；

具体的，可以段落为单位，通过Word2Vec方式计算词向量Word2Vec，以生成词向量单词表，然后可以通过词向量单词表以及所有项目信息的词频逆文档频率列表，计算所述项目信息的段落向量与目标项目产出信息的段落向量，通过词频加权后的项目信息的段落向量与词频加权后的项目产出信息的段落向量计算出词向量第一相似度计作w2v_score1。

进一步，可以句子为单位，将论文信息和项目信息分别按照句子拆分后生成每句话的词向量，然后分别计算词频加权后论文信息的句子和项目信息的所有句子的词向量相似度，求平均值取最大值，作为词向量第二相似度w2v_score2。

再进一步，可以句子为单位，提取出项目信息中的每个段落的重点句作为主旨句，然后依次和论文信息中的每句话通过余弦相似度算法计算相似度。即，可先计算出项目信息与论文信息的每句话的词向量，然后根据句子和段落词频分布相似度，选取出项目信息的主旨句，然后计算论文信息的每句话的词向量与每个段落的主旨句之间的相似度，求平均取最大值作为词向量第三相似度w2v_score3。

参见图6，在本申请一实施例中，计算所述项目产出信息的段落与所述项目信息的段落之间的词向量第一相似度，包括：

根据所述词向量单词表以及所有项目信息的词频逆文档频率列表，按照语序生成项目段落权重列表以及项目产出段落权重列表；

根据所述项目段落权重列表，对项目段落向量列表求加权平均值，以作为项目段落加权向量；

根据所述项目产出段落权重列表，对所述项目产出段落向量列表加权求平均值，以作为项目产出段落加权向量；

计算所述项目段落加权向量与所述项目产出段落加权向量之间的相似度，以作为词向量第一相似度。

具体的，分别计算每个项目信息的所有段落的词频逆文档频率、词向量以及项目产出信息的所有段落的词频逆文档频率、词向量后，可生成项目信息和项目产出信息整体段落的经过tfdif加权后的项目word vector以及项目产出word vector，提取项目段落word vector以及项目产出段落word vector，以计算所述项目产出信息的段落与所述项目信息的段落之间的词向量分布相似度，以作为所述词向量第一相似度w2v_score1。

其中，该项目段落向量是基于词向量得到的，可通过词嵌入的方法，将神经网络隐藏层参数作为词向量，例如，A、B、C、D中的A，可以通过词嵌入的方法表示成向量（0.05，0.02， 0.3，0.4），B、C、D也表示成类似的向量，则四个向量一起求平均即为整个段落的向量列表。

进一步，由于每个单词的重要性不同，因此可以给予不同的权重，例如，A比较重要，则可给予比较大的权重，该权重可从预先计算出的词频逆文档频率tfdif中获取。

参见图7，在本申请一实施例中，所述计算所述项目产出信息中的每句话与所述项目信息的每句话之间的词向量第二相似度，包括：

将所述项目信息的所有段落，按照句子进行拆分，并计算每句话的词频逆文档频率和词向量，以生成词频加权后词向量组成的项目句子矩阵，并提取所述项目信息中每句话对应的句子向量；

将所述项目产出信息的所有段落，按照句子进行拆分，并计算每句话的词频逆文档频率和词向量，以生成词频加权后词向量组成的项目产出句子矩阵，并提取所述项目产出信息中每句话对应的句子向量；

根据所述平均值，取最大值，作为词向量第二相似度。

具体的，将项目信息中所有的段落均按照句子进行分割，然后可以计算每句话的词频逆文档频率与词向量，以形成词频加权后词向量组成的项目句子矩阵，项目句子矩阵中的一行向量则代表了该项目信息中的一句话，因此，可以通过该项目句子矩阵，提取出项目信息中每句话的对应的句子向量。同理，该项目产出信息，例如，论文，也可将该论文的所有段落按照句子进行分割，然后可以计算论文中每句话的词频逆文档频率和词向量，以形成词频加权后词向量组成的项目产出句子矩阵，该项目产出句子矩阵中的一行向量则代表了该论文中的一句话，因此，可以通过该项目产出句子矩阵，提取出该论文中每句话对应的句子向量。以该项目产出信息为论文为例进行说明，可提取项目信息的第一句话的句子向量，依次与论文中的每一句话的句子向量进行相似度计算，直到与论文中所有的句子均计算完成，即计算至论文信息的末句，然后提取项目信息的第二句话的句子向量依次与论文中的每一句话的句子向量进行相似度计算，直到与论文中所有的句子均计算完成，重复上述步骤，直到项目信息中所有句子均计算完成为止，即，计算至项目信息中的末句，此时，可取论文信息中所有句子的相似度，求平均值，以代表论文信息与项目信息每句话的相似度，然后，取最大值，作为词向量第二相似度，将其计作w2v_score2。

参见图8，在本申请一实施例中，所述计算所述项目产出信息中的每句话与所述项目信息的主旨句之间的词向量第三相似度，包括：

提取所述目标项目基于词频的段落向量，分别计算每个基于词频的句子向量与基于词频的段落向量之间的相似度，当所述相似度大于目标预设阈值时，将所述基于词频的句子向量对应的句子作为其所属段落的主旨句；

根据所述平均值，取最大值，作为词向量第三相似度。

具体的，将项目信息中所有的段落均按照句子进行分割，然后可以计算每句话的词频逆文档频率与词向量，以形成词频加权后词向量组成的项目句子矩阵，项目句子矩阵中的一行向量则代表了该项目信息中的一句话，因此，可以通过该项目句子矩阵，提取出项目信息中每句话的对应的句子向量。同理，该项目产出信息，例如，论文，也可将该论文的所有段落按照句子进行分割，然后可以计算论文中每句话的词频逆文档频率和词向量，以形成词频加权后词向量组成的项目产出句子矩阵，该项目产出句子矩阵中的一行向量则代表了该论文中的一句话，因此，可以通过该项目产出句子矩阵，提取出该论文中每句话对应的句子向量。同时，还可以根据所述项目产出信息所属的项目信息的所有段落基于词频的段落向量，然后可通过余弦相似度计算出该项目信息基于词频的段落向量与项目信息基于词频的句子向量之间的相似度，当该相似度大于设定的目标预设阈值时，则可认为该句话为其所属段落的主旨句。然后可进一步计算每一个主旨句与论文中的每一个段落中的每一句话的余弦相似度，并取每一个段落中的所有句子的相似度平均值，以代表论文中每一个段落与该主旨句之间的相似度。进一步，计算论文中每一个段落与所有主旨句之间的相似度，取最大值，作为词向量第三相似度，计作w2v_score3。

参见图9，在本申请一实施例中，所述对所述重点词个数、词频分布相似度以及词向量分布相似度进行加权平均，以获取每个项目产出与其所属项目的相似度，包括：

具体的，通过重点词个数subset_score、项目产出信息的段落与所述项目信息的段落之间的词频第一相似度tfidf_score1，项目信息的段落与项目产出信息的段落之间的词向量第一相似度w2v_score1中，归一化后取最大值作为sim_score；然后赋予最大值sim_score，词频第二相似度tfidf_score2，词频第三相似度tfidf_score3，词向量第二相似度w2v_score2，以及词向量第三相似度w2v_score3对应的权重，并求加权平均值，然后进行归一化处理后，作为最终的项目产出与其所属项目的匹配度得分。通过7种不同的相似度计算结果，使得结果更加多样，提高了准确性，可以很好的进行科研项目与项目产出的验收，节省人力，降低人工审核的所花费的时间。

本申请实施例中，通过以科研项目申请书的文本数据和科研项目产出文本数据为基础，结合不同算法对项目与论文内容进行匹配度打分，判定论文是否匹配项目要求、解决项目问题，提高了验收准确度，实现了科研项目产出的智能化验收。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于文本分析的科研项目产出评价验收装置，该基于文本分析的科研项目产出评价验收装置与上述实施例中基于文本分析的科研项目产出评价验收方法一一对应。如图10所示，该基于文本分析的科研项目产出评价验收装置包括采集单元10、预处理单元20、第一计算单元30和匹配度得分获取单元40。各功能模块详细说明如下：

采集单元10，用于采集多个科研项目的项目文本数据以及项目产出文本数据，并生成项目数据表以及项目产出数据表；

预处理单元20，用于对所述项目产出数据表与所述项目数据表进行预处理，以合并成新的数据表，所述新的数据表包括项目信息以及项目产出信息；

第一计算单元30，用于计算所述项目产出信息中属于其所属项目信息的重点词个数、所述项目产出信息与所述项目信息的词频分布相似度，以及词频加权后的项目产出信息与所述项目信息的词向量相似度；

匹配度得分获取单元40，用于对所述重点词个数、词频分布相似度以及词向量分布相似度进行加权平均，以获取每个项目产出与其所属项目的相似度，并进行归一化后，作为最终项目产出与其所属项目的匹配度得分。

在一实施例中，所述系统，还包括第二计算单元，用于：

在一实施例中，所述第一计算单元30，还用于：

在一实施例中，所述匹配度得分获取单元40，还用于：

关于基于文本分析的科研项目产出评价验收装置的具体限定可以参见上文中对于基于文本分析的科研项目产出评价验收方法的限定，在此不再赘述。上述基于文本分析的科研项目产出评价验收装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端设备，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质。该可读存储介质存储有计算机可读指令。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于文本分析的科研项目产出评价验收方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机可读指令，其特征在于，处理器执行计算机可读指令时实现如上述基于文本分析的科研项目产出评价验收方法的步骤。

一个或多个可读存储介质，可读存储介质存储有计算机可读指令，其特征在于，计算机可读指令被处理器执行时实现如上述基于文本分析的科研项目产出评价验收方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本分析的科研项目产出评价验收方法，其特征在于，所述方法包括：

计算所述项目产出信息中属于其所属项目信息的重点词个数，所述重点词为所述项目信息中tf-idf值最大的前N个词，计算所述项目产出信息与所述项目信息的段落之间的词频第一相似度、句子之间的词频第二相似度以及项目产出信息的句子与项目信息的主旨句之间的词频第三相似度，以及词频加权后的项目产出信息与所述项目信息的段落之间的词向量第一相似度、句子之间的词向量第二相似度以及所述项目产出信息的句子与所述项目信息的主旨句之间的词向量第三相似度；

对所述重点词个数、词频第一相似度以及词向量第一相似度归一化处理后求最大值，以作为最大相似度，将所述最大相似度、词频第二相似度、词频第三相似度、词向量第二相似度以及词向量第三相似度，进行加权平均后归一化处理，以获取每个项目产出与其所属项目的相似度。

2.如权利要求1所述的基于文本分析的科研项目产出评价验收方法，其特征在于，所述计算所述项目产出信息中属于其所属项目信息的重点词个数，之前，包括：

3.如权利要求1所述的基于文本分析的科研项目产出评价验收方法，其特征在于，所述计算所述项目产出信息中属于其所属项目信息的重点词个数，包括：

4.如权利要求1所述的基于文本分析的科研项目产出评价验收方法，其特征在于，所述计算所述项目产出信息与所述项目信息的段落之间的词频第一相似度、句子之间的词频第二相似度以及项目产出信息的句子与项目信息的主旨句之间的词频第三相似度，包括：

计算所述项目产出信息的段落词频逆文档频率与所述项目信息的段落词频逆文档频率之间的相似度，以作为所述词频第一相似度；

计算所述项目产出信息中的每句话词频逆文档频率与所述项目信息的每句话词频逆文档频率之间的相似度，以作为所述词频第二相似度；

计算所述项目产出信息中的每句话词频逆文档频率与所述项目信息的主旨句词频逆文档频率之间的相似度，以作为所述词频第三相似度。

5.如权利要求1所述的基于文本分析的科研项目产出评价验收方法，其特征在于，所述词频加权后的项目产出信息与所述项目信息的段落之间的词向量第一相似度、句子之间的词向量第二相似度以及所述项目产出信息的句子与所述项目信息的主旨句之间的词向量第三相似度，包括：

计算词频加权后的所述项目产出信息的段落词向量与所述项目信息的段落词向量之间的相似度，以作为所述词向量第一相似度；

计算词频加权后的所述项目产出信息中的每句话词向量与所述项目信息的每句话词向量之间的相似度，以作为所述词向量第二相似度；

计算词频加权后的所述项目产出信息中的每句话词向量与所述项目信息的主旨句词向量之间的相似度，以作为所述词向量第三相似度。

6.如权利要求1-5任意一项所述的基于文本分析的科研项目产出评价验收方法，其特征在于，所述项目产出信息包括论文，所述对所述项目产出数据表与所述项目数据表进行预处理，以合并成新的数据表，所述新的数据表包括项目信息以及项目产出信息，包括：

7.一种基于文本分析的科研项目产出评价验收系统，其特征在于，所述系统包括：

第一计算单元，用于计算所述项目产出信息中属于其所属项目信息的重点词个数，所述重点词为所述项目信息中tf-idf值最大的前N个词，计算所述项目产出信息与所述项目信息的段落之间的词频第一相似度、句子之间的词频第二相似度以及项目产出信息的句子与项目信息的主旨句之间的词频第三相似度，以及词频加权后的项目产出信息与所述项目信息的段落之间的词向量第一相似度、句子之间的词向量第二相似度以及所述项目产出信息的句子与所述项目信息的主旨句之间的词向量第三相似度；

匹配度得分获取单元，用于对所述重点词个数、词频第一相似度以及词向量第一相似度归一化处理后求最大值，以作为最大相似度，将所述最大相似度、词频第二相似度、词频第三相似度、词向量第二相似度以及词向量第三相似度，进行加权平均后归一化处理，以获取每个项目产出与其所属项目的相似度。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至6任意一项所述基于文本分析的科研项目产出评价验收方法的步骤。

9.一个或多个可读存储介质，所述可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至6任意一项所述基于文本分析的科研项目产出评价验收方法的步骤。