CN111309871A

CN111309871A - 一种基于文本语义分析需求与输出成果之间匹配度的方法

Info

Publication number: CN111309871A
Application number: CN202010220922.9A
Authority: CN
Inventors: 李洁茹; 刘同新; 徐剑; 张若兴
Original assignee: Pns Beijing Science & Technology Co ltd
Current assignee: Pns Beijing Science & Technology Co ltd; State Grid Jibei Electric Power Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-06-19
Anticipated expiration: 2040-03-26
Also published as: CN111309871B

Abstract

本发明公开了一种基于文本语义分析需求与输出成果之间匹配度的方法，包括以下步骤：步骤1.数据集标注；步骤2.技术文档预处理；步骤3.单参数模型训练及预测；步骤4.多参数模型预测结果集成；本发明的有益效果：首次将深度学习与NLP技术应用于企业项目管理的项目关联度计算领域，根据项目需求及成果描述计算两个项目之间的关联匹配度，有效降低了关联项目定位的难度，同时也可以帮助需求方快速、高效地定位适配自己需求的优质项目，大幅度缩减用于成果筛选匹配方面的时间及资源投入，凭借已有项目成果技术文档与项目申报指南的文本数据计算项目之间的关联匹配程度，进而辅助大型企业在项目招投标环节中筛选高匹配度的优质项目。

Description

一种基于文本语义分析需求与输出成果之间匹配度的方法

技术领域：

本发明属于不限定行业的项目需求与成果匹配度计算领域，特别涉及一种基于文本语义分析需求与输出成果之间匹配度的方法。

背景技术：

项目关联度计算是企业项目管理的重要环节之一，尤其像电网这种已有项目成果众多且每年项目申报数巨大的国有企业。如何在已有预研项目与科技项目申报指南中的待申报项目之间进行关联度计算，理清项目之间的匹配关系，依据申报指南中特定研究课题检索出众多预研项目中最符合需求的项目进行招投标，有效避免研究需求与预研项目的研究方向不一致、研究目的不统一问题，降低各子公司与总公司在项目申报环节中的各种出入，保证总公司的研究需求能够直接、有效地落实到各个研究单位并付诸研究，实现既定的科研要求并应用于企业发展。如果不能有效地计算申报指南与预研项目之间地匹配关系，则需要在申报前人工判定二者关系，确定是否满足申报要求，这在电网这种大型国有企业无疑是一种巨大的资源消耗；同时，人工判定受限于当事人从业经历、专业知识的限制，容易出现项目关系认定不清晰，研究目的不统一的问题。因此，站在企业项目管理的角度，研究预研项目与待申报项目之间的匹配关系是电网科研项目申报中面临的首要任务。

目前，有关项目间关联匹配度计算的研究还比较少，这主要是因为：第一、科研项目一般涉及高新技术、专业领域知识比较多，科研项目间关联度计算对研究者专业知识具有较高要求；第二、科研项目研究周期普遍较长且内容庞杂，如何从一个独特的研究视角进行切入一直是困扰相关研究者的重要问题；第三、对于科研项目关联度计算的研究必须要求某垂直领域的大量项目资料信息，这对于一般企业的项目资料拥有量是一个巨大考验。

发明内容：

本发明的目的就在于为了解决上述问题而提供一种基于文本语义分析需求与输出成果之间匹配度的方法，解决了目前现有的问题。

为了解决上述问题，本发明提供了一种技术方案：

一种基于文本语义分析需求与输出成果之间匹配度的方法，包括以下步骤：

步骤1.数据集标注：使用基于项目需求描述、成果描述及项目标题的文本信息，对比总结两个项目的关联匹配程度并进行四分类标注，构造用于项目匹配度计算建模的标注数据集；

步骤2.技术文档预处理：构造Bert模型输入文本，鉴于Bert模型输入序列长度及计算资源的限制，此处基于项目名称使用Rough-L算法以句为单位对项目的需求及成果描述文本进行核心信息提取，每一个项目的输入文本由A|B两部分构成，A为项目名称，B为项目核心信息部分；

步骤3.单参数模型训练及预测：基于知识蒸馏、交叉验证及集成学习的思想对Bert模型进行部分改进，并基于标注好的数据进行模型建模、调优及分类标签预测，完成从原始数据到单模型关联度预测结果输出的任务；

步骤4.多参数模型预测结果集成：根据改进模型中涉及到的“温度”调节参数T及交叉验证折数K的不同取值组合训练多个模型，并根据表现效果筛选质量较好的5个模型进行多模型概率集成获取最终预测结果。

作为优选，所述步骤1首先使用电网领域已有项目成果的技术文档及每年新发布的科技项目申报指南作为初始数据来源，根据项目所属子领域及涉及到的关键技术类型，通过对两部分文本数据的标题及核心内容进行人工筛选总结，判定成果与需求的匹配关系并进行无相关、弱相关、较强相关和强相关四分类标注，构造双向匹配度标注数据集。

作为优选，所述步骤2针对原始文档数据，基于其文档标题或项目名称使用Rough-L算法以句为单位对文档内容进行核心信息提取，扩充训练集的语义含义及信息覆盖度，并以此为辅助确定包含“成果标题”、“成果核心信息”、“需求标题”、“需求核心信息”四部分内容的双输入Sentence-1和Sentence-2数据集格式，每一个Sentence由A|B两部分构成，A为项目名称，B为项目成果描述或需求描述的核心信息部分。

作为优选，所述步骤3基于知识蒸馏、交叉验证及集成学习的思想对Bert模型进行部分改进，同时在Bert模型末端加入GRU网络层，以交叉验证输出的K个cls向量为输入捕获Sentence-1与Sentence-2之间的关联信息。首先依据知识蒸馏中用到的保存不同类别之间相似性大小的做法在Softmax层中增加温度参数T，进一步改进传统Softmax函数中包含类别间信息量较小的问题，使预测数据属于某一类别的概率根据项目匹配度而呈现逐步变化的效果；然后依据交叉验证及集成学习的思想将训练单一模型的任务变为训练5个交叉验证子模型任务，以此来降低模型对于单一测试数据的过拟合情况；预测阶段根据上述改进后的Softmax函数对每一类别的输出概率进行5个子模型的集成预测，输出最终的预测结果。

作为优选，所述步骤4根据上述介绍的不同的“温度”调节参数T及交叉验证折数K分别训练多个模型，从不同粒度上对项目匹配度进行类别预测，然后针对这些模型进行筛选，选用其中预测效果最佳的5个模型进行概率集成，即对每个模型输出的类别预测概率进行等权平均，再根据平均后的概率值判定预测数据最终属于无相关、弱相关、较强相关和强相关中的四分类其中一类。

本发明的有益效果：

1、开创了一个新的研究视角，即仅基于项目成果技术文档与项目申报指南的文本数据计算项目之间的关联匹配程度；

2、首次将深度学习与NLP技术应用于企业项目管理的项目关联度计算领域；

3、在模型结构改造、输入数据结构构造方面都做了比较有意义的探索及尝试；

首次将深度学习与NLP技术应用于企业项目管理的项目关联度计算领域，根据项目需求及成果描述计算两个项目之间的关联匹配度，有效降低了关联项目定位的难度，同时也可以帮助需求方快速、高效地定位适配自己需求的优质项目，大幅度缩减用于成果筛选匹配方面的时间及资源投入，在无法深入项目研究及招投标环节的窘境下，仅凭借已有项目成果技术文档与项目申报指南的文本数据计算项目之间的关联匹配程度，进而辅助大型企业在项目招投标环节中筛选高匹配度的优质项目。

附图说明：

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1是本发明的系统执行流程图；

图2是本发明的Bert模型输入数据结构图；

图3是本发明的Bert改进模型框架结构图；

图4是本发明的交叉验证改进方案图。

具体实施方式：

如图1-4所示，本具体实施方式采用以下技术方案：一种基于文本语义分析需求与输出成果之间匹配度的方法，包括以下步骤：

其中，具体参考附图1所示，所述步骤1使用基于项目需求描述、成果描述及项目标题的文本信息，对比总结两个项目的关联匹配程度并进行四分类标注，构造用于项目匹配度计算建模的标注数据集；

使用电网领域已有项目成果的技术文档及每年发布的科技项目申报指南作为初始数据来源，根据项目所属子领域及涉及到的关键技术类型，通过对两部分文本数据的标题及核心内容进行人工筛选总结，判定成果与需求的匹配关系并进行四分类标注(无相关、弱相关、较强相关和强相关)，构造双向匹配度标注数据集。

其中，具体参考附图2所示，所述所述步骤2中构造Bert模型输入文本，基于项目名称使用Rough-L算法以句为单位对项目的需求及成果描述文本进行核心信息提取，每一个项目的输入文本由A|B两部分构成，A为项目名称，B为项目核心信息部分(Rough-L算法得出)；

针对原始文档数据，基于其文档标题或项目名称使用Rough-L算法以句为单位对文档内容进行核心信息提取，扩充训练集的语义含义及信息覆盖度，并以此为辅助确定包含“成果标题”、“成果核心信息”、“需求标题”、“需求核心信息”四部分内容的双输入(Sentence-1和Sentence-2)数据集格式，每一个Sentence由A|B两部分构成，A为项目名称，B为项目成果描述或需求描述的核心信息部分(Rough-L算法得出)；

Rough-L算法：

Rough算法是一种用于自动摘要评价的方法，其基于摘要中n元组(N-gram)的共现信息来进行摘要质量评估。Rough-L是Rough算法的一种，其基于最长公共子序列共现性的精确度和召回率进行计算，它不需要连续匹配，且能够反映词序匹配信息。

其中：

X和Y分别代表参考摘要和候选摘要，本发明中代表文档标题及候选语句；

m和n分别代表标准摘要和自动摘要的长度；

LCS(X,Y)代表X和Y的最长公共子序列的长度；

R_lcs和P_lcs分别代表召回率和准确率；

F_lcs即是我们所说的Rough-L指标。

其中，具体参考附图3和附图4所示，所述步骤中基于知识蒸馏、交叉验证及集成学习的思想对Bert模型进行部分改进，并基于标注好的数据进行模型建模、调优及分类标签预测，完成从原始数据到单模型关联度预测结果输出的任务。

基于知识蒸馏、交叉验证及集成学习的思想对Bert模型进行部分改进，同时在Bert模型末端加入GRU网络层，以交叉验证输出的K个cls向量为输入捕获Sentence-1与Sentence-2之间的关联信息。首先依据知识蒸馏中用到的保存不同类别之间相似性大小的做法在Softmax层中增加温度参数T，进一步改进传统Softmax函数中包含类别间信息量较小的问题，使预测数据属于某一类别的概率根据项目匹配度而呈现逐步变化的效果；然后依据交叉验证及集成学习的思想将训练单一模型的任务变为训练5个交叉验证子模型任务，以此来降低模型对于单一测试数据的过拟合情况；预测阶段根据上述改进后的Softmax函数对每一类别的输出概率进行5个子模型的集成预测，输出最终的预测结果；

Softmax层改进方案：

其中：

z_i代表原始Softmax函数输入的每个类别的预测值；

q_i代表改进后Softmax函数输出的每个类别的预测概率；

T代表针对类别输出概率引入的“温度”调节参数。

其中，所述步骤4中根据改进模型中涉及到的“温度”调节参数T及交叉验证折数K的不同取值组合训练多个模型，并根据表现效果筛选质量较好的5个模型进行多模型概率集成获取最终预测结果。

根据上述介绍的不同的“温度”调节参数T及交叉验证折数K分别训练多个模型，从不同粒度上对项目匹配度进行类别预测，然后针对这些模型进行筛选，选用其中预测效果最佳的5个模型进行概率集成，即对每个模型输出的类别预测概率进行等权平均，再根据平均后的概率值判定预测数据最终属于四分类(无相关、弱相关、较强相关和强相关)中的哪一类，完成仅基于技术文档的项目需求与成果匹配度计算。

本发明的有益效果：

在无法深入项目研究及招投标环节的窘境下，仅凭借已有项目成果技术文档与项目申报指南的文本数据计算项目之间的关联匹配程度，进而辅助大型企业在项目招投标环节中筛选高匹配度的优质项目。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于文本语义分析需求与输出成果之间匹配度的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于文本语义分析需求与输出成果之间匹配度的方法，其特征在于：所述步骤1首先使用电网领域已有项目成果的技术文档及每年新发布的科技项目申报指南作为初始数据来源，根据项目所属子领域及涉及到的关键技术类型，通过对两部分文本数据的标题及核心内容进行人工筛选总结，判定成果与需求的匹配关系并进行无相关、弱相关、较强相关和强相关四分类标注，构造双向匹配度标注数据集。

3.根据权利要求1所述的一种基于文本语义分析需求与输出成果之间匹配度的方法，其特征在于：所述步骤2针对原始文档数据，基于其文档标题或项目名称使用Rough-L算法以句为单位对文档内容进行核心信息提取，扩充训练集的语义含义及信息覆盖度，并以此为辅助确定包含“成果标题”、“成果核心信息”、“需求标题”、“需求核心信息”四部分内容的双输入Sentence-1和Sentence-2数据集格式，每一个Sentence由A|B两部分构成，A为项目名称，B为项目成果描述或需求描述的核心信息部分。

4.根据权利要求1所述的一种基于文本语义分析需求与输出成果之间匹配度的方法，其特征在于：所述步骤3基于知识蒸馏、交叉验证及集成学习的思想对Bert模型进行部分改进，同时在Bert模型末端加入GRU网络层，以交叉验证输出的K个cls向量为输入捕获Sentence-1与Sentence-2之间的关联信息。首先依据知识蒸馏中用到的保存不同类别之间相似性大小的做法在Softmax层中增加温度参数T，进一步改进传统Softmax函数中包含类别间信息量较小的问题，使预测数据属于某一类别的概率根据项目匹配度而呈现逐步变化的效果；然后依据交叉验证及集成学习的思想将训练单一模型的任务变为训练5个交叉验证子模型任务，以此来降低模型对于单一测试数据的过拟合情况；预测阶段根据上述改进后的Softmax函数对每一类别的输出概率进行5个子模型的集成预测，输出最终的预测结果。

5.根据权利要求1所述的一种基于文本语义分析需求与输出成果之间匹配度的方法，其特征在于：所述步骤4根据上述介绍的不同的“温度”调节参数T及交叉验证折数K分别训练多个模型，从不同粒度上对项目匹配度进行类别预测，然后针对这些模型进行筛选，选用其中预测效果最佳的5个模型进行概率集成，即对每个模型输出的类别预测概率进行等权平均，再根据平均后的概率值判定预测数据最终属于无相关、弱相关、较强相关和强相关中的四分类其中一类。