CN114265935A

CN114265935A - 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统

Info

Publication number: CN114265935A
Application number: CN202111587067.6A
Authority: CN
Inventors: 李重杭; 何维; 汪伟; 艾致衡
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-01

Abstract

本发明公开一种基于文本挖掘的科技项目立项管理辅助决策方法及系统，其中，方法包括：步骤S1，使用信息抽取技术对待评审科技项目数据库、历史科技项目数据库分别进行特征数据抽取，构建科技项目信息数据库；步骤S2，对所述特征数据进行分层文本相似度性挖掘，构建多层次多维度的科技项目相似度比对模型；步骤S3，获得待评审项目与其他项目在所述特征数据的相似度分数，在历史样本训练集上采用网格搜索方法对所述特征数据的权重进行更新迭代，得到一组最优权重；步骤S4，根据所述最优权重计算待评审项目与其他项目之间的相似度的综合得分。本发明减少人工筛选甄别主观因素，解决以往依靠专业人员人工比对项目相似度分析的效率、准确度不高的问题。

Description

一种基于文本挖掘的科技项目立项管理辅助决策方法及系统

技术领域

本发明属于电力系统技术领域，具体涉及一种基于文本挖掘的科技项目立项管理辅助决策方法及系统。

背景技术

经过文献调研发现，国外没有项目相似度评估或查重的概念，但在大数据挖掘分析方面的研究起步早，进行了大量的研究探索，积累了丰富的经验和成熟的技术；科技项目相似度评估或查重本质上就是文本相似度计算方法，涉及关键信息抽取技术、分词技术、文本相似度计算技术等，科技项目相似度评估或查重受到这些技术发展的影响。

国外很多学者在文本相似度计算方面进行大量的研究并取得了很多成果。大致可分为两个阶段：第一个阶段主要是以向量计算以及语义计算的方法；第二个阶段则是近年来随着深度学习技术的成熟，越来越多的学者开始研究基于自学习的方式方法计算文本相似度。

国内在文本挖掘方法研究方面起步晚，但有针对性地开展文本挖掘方法在科技项目管理中的应用研究。姜韶华提出一种基于文本挖掘的科研项目管理原型系统，重点研究和解决科研项目文本的切分和特征建模等问题；左川提出一种基于非分词技术解决科技项目查重问题的方法，该方法不需要对文本进行分词处理，利用频繁闭项集构造向量空间模型对项目申请书进行建模并计算相似度；方延风提出将一种改进的TF—IDF方法用于科技项目查重，考虑了特征词的位置和长度两种因素；吴燕提出一种基于层次聚类的科技项目分类和查重方法，在计算科技项目相似性时综合考虑了应用领域、研究内容和技术来源等因素；林明才等提出一种改进的模糊聚类算法RM—FCM，在计算项目相似度时考虑了不同属性的特征项对科研项目的重要性；刘荫明等从科技查新实践、地区和部门多头管理、科研论文所依托的项目数量等方面研究我国科研的重复立项现象，通过对科研项目的申报与审批流程进行分析，提出避免重复立项的具体措施。

随着电力改革不断深入、科学技术不断持续发展，各专业类别的科学技术研究项目、科技成果的评审越来越多，随之而来的重复立项问题已日趋严重，从科技项目立项管理角度看，主要存在以下问题：首先，大量的科技项目非结构化数据难以甄别，待立项目相似性辨别耗费大量人力、物力；其次，科技项目申报主体综合竞争力难以评估，缺乏科学的申报主体竞争力评估体系；第三，精准推荐科技项目评审专家困难，依靠人工从评审专家库选择专家无法保证评审专家选择的合理性；因此，如何运用大数据、人工智能等前沿技术解决当前科技项目立项中多头立项、重复立项的问题，已然成为提升供电局科技项目立项管理水平的关键问题。

发明内容

本发明所要解决的技术问题在于，提供一种基于文本挖掘的科技项目立项管理辅助决策方法及系统，以减少人工筛选甄别主观因素，提高项目相似度分析的效率和准确度。

为解决上述技术问题，本发明提供一种基于文本挖掘的科技项目立项管理辅助决策方法，包括：

步骤S1，使用信息抽取技术对待评审科技项目数据库、历史科技项目数据库分别进行特征数据抽取，构建科技项目信息数据库；

步骤S2，对所述特征数据进行分层文本相似度性挖掘，构建多层次多维度的科技项目相似度比对模型；

步骤S3，获得待评审项目与其他项目在所述特征数据的相似度分数，在历史样本训练集上采用网格搜索方法对所述特征数据的权重进行更新迭代，得到一组最优权重；

步骤S4，根据所述最优权重计算待评审项目与其他项目之间的相似度的综合得分。

进一步地，所述特征数据包括标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标。

进一步地，所述步骤S1具体包括：

从待评审科技项目数据库、历史科技项目数据库中分别抽取出标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标这7种特征数据；

对抽取出的特征数据进行清洗，去除无用字符，并进行统一格式处理；

采用jieba分词+电力行业词典+停用词过滤的组合进行分词操作；

抽取关键词，所述关键词包括研究对象关键词、标题关键词、主题关键词和综合关键词。

进一步地，所述抽取关键词进一步包括：

采用文本主题网络图聚类来提取关键词，选取前n个关键词，如果该关键词存在于历史的研究对象关键词中，则将其作为待评审项目的研究对象关键词，否则选择综合特征值最大的前两个词语作为待评审项目研究对象关键词；

采用textrank方法对待评审项目中的关键词进行提取，所述关键词的词性是普通名词、专业名词、机构团体、组织名、作品名的其中一个；

采用人工标注的方式对历史科技项目进行分类，并使用svm模型进行多标签分类训练，进而获得待评审项目主题关键词的分类；

将使用textrank和主题网络图聚类提取的关键词进行1:1的合并，获得综合关键词，用于后续的关键词相似度比对。

进一步地，所述步骤S2包括采用改进的基于编辑距离的相似度计算方法来计算项目名称的相似度，其具体包括：

步骤S21，假设有字符串s₁和s₂，设输入的字符串为s_1i和s_2j，利用算法求出输入的两个字符串最长公共子串，结果为l_s；

步骤S22，假如l_s的长度大于2，那么对s_1i和s_2j做如下处理：去掉l_s，并且当l_s在字符串首或者尾部时，把字符串分割成两部分独立的字符串，分别为s_1i1、s_1i2和s_2j1、s_2j2；否则的话把s_1i按顺序并入到初始为空的结果字符串s_a中，把s_2j按顺序并入到结果字符串s_b中；

步骤S23，遍历s_1i和s_2j分割后的字符串，继续递归进入步骤S21，直达完成所有子字符串的计算；此时所有的最长公共子串已从s₁和s₂中移除，结果存放在s_a和s_b中；

步骤S24，对s_a和s_b计算编辑距离，利用编辑距离相似度计算公式进行相似度计算：

其中，sim(s₁,s₂)表示s₁和s₂的相似度，ED表示编辑距离，len(s₁)表示字符串s₁的长度。

进一步地，所述步骤S2包括采用深度学习中的Doc2vec模型得到长文本向量，并用以计算长文本相似度；所述计算长文本相似度包括计算长文本关键词级别、句子级别和段落级别的相似度。

进一步地，计算长文本关键词级别具体包括：

通过文本主题网络图聚类方法提取长文本关键词w₁，w₂，......w_n，利用训练的word2vec模型进行词嵌入映射，得到每个词对应的词嵌入向量w_n＝(x₁,x₂,......x_m)，n为第n个词语，m表示第m个特征，进而使用余弦相似度计算w₁＝(x₁,x₂,......x_m)，w₂＝(y₁,y₂,......y_m)之间的相关性：

对于两段长文本的关键词D₁＝(w₁₁,w₁₂,...w_1a),D₂＝(w₂₁,w₂₂,...w_2b)，D₁和D₂之间的词级别相似度用以下公式进行计算：

其中，w_1k,w_2l表示长文本1和长文本2的关键词，sim(w_1k,w_2l)表示通过余弦相似度计算得到的w_1k,w_2l之间的相似度。

进一步地，计算句子级别相似度具体包括：

采用公共词语统计的方法进行相似性计算，将长文本1和长文本2按照textrank句子粒度，切分成句子的集合D₁＝(s₁₁,s₁₂,...s_1n)，D₂＝(s₂₁,s₂₂,...s_2m)，并得到对应的每个句子在长文本中所占的重要性如下：

D₁＝{s₁₁:w₁₁,s₁₂:w₁₂,...s_1n:w_1n)，D₂＝{s₂₁:w₂₁,s₂₂:w₂₂,...s_2m:w_2m)

其中，w₁₁+w₁₂+...w_1n＝1，w₂₁+w₂₂+...w_2m＝1，使用分词将每一句句子进行分词操作获得句子的分词集合s＝(w₁,w₂,...w_a)，使用如下公式计算两句句子之间的相似度：

即使用两句句子之间公共的词语个数与两句句子之间所有词语个数的比值作为句子的相似度，从而句子级别对应的段落相似度计算公式如下：

其中，w_1k表示第k个句子的权重，max(sim(s_1k,s_2l))表示长文本1中句子k在长文本2中相似度最高的句子分数。

进一步地，计算段落级别相似度具体包括：利用doc2vec模型，将长文本内容映射成高维度向量，进而通过余弦公式来计算段落级别的长文本相似度。

进一步地，所述步骤S3具体包括：

确定标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标7种特征数据的初始权重和权重的波动范围，然后通过网格搜索的方式进行权重的更新，具体过程如下：

对7种特征数据的权重，按照最低0，最高1各切分成50份或者更多份；

循环组合所述7种权重，计算每个项目组在每一权重组合下的相似度准确率，选取准确率最高的一组权重作为更新权重，其中，待评审项目与历史项目为一个项目组；

进一步地，所述步骤S4具体包括：根据所确定的权重计算出待评审项目对应的所有历史项目的总相似度分数，对所有数据的总相似度分数进行降序排列，分别选取每个待评审项目前三位置的相似度分数值并取平均作为高中阈值分界线s_high，取总相似度分数第5％位置的值作为中低阈值分界线s_low；相似度分数高于s_high即为高相似，在s_low与s_high之间的即为中相似，低于s_low即为低相似。

本发明还提供一种基于文本挖掘的科技项目立项管理辅助决策系统，包括：

信息抽取模块，用于使用信息抽取技术对待评审科技项目数据库、历史科技项目数据库分别进行特征数据抽取，构建科技项目信息数据库；

相似度挖掘模块，用于对所述特征数据进行分层文本相似度挖掘，构建多层次多维度的科技项目相似度比对模型；

权重确定模块，用于获得待评审项目与其他项目在所述特征数据的相似度分数，在历史样本训练集上采用网格搜索方法对所述特征数据的权重进行更新迭代，得到一组最优权重；

计算模块，用于根据所述最优权重计算待评审项目与其他项目之间的相似度的综合得分。

实施本发明具有如下有益效果：本发明基于科技项目申报资料等相关文本数据，运用Word2Vec、ELMO和Doc2Vec等人工智能技术，结合中文分词、熵值和层次分析等方法，开展科技项目相似度分析、科技项目经费与内容量化对比分析、申报主体竞争力评价、评审专家精准推荐、报奖项目研究成果使用分析研究工作，基于研究成果，研发实现科技项目管理辅助决策应用，辅助科技管理部门项目立项、奖励评审阶段的管理工作，支撑公司科技项目立项、奖励评审管理模式创新，保障科技项目立项、奖励评审管理工作提质增效；

本发明基于立项相关文本资料，研究科技项目相似度分析模型，实现多个维度综合分析待评审项目与在建、其他待评估以及历史项目之间的相似度，减少人工筛选甄别主观因素，解决以往依靠专业人员人工比对项目相似度分析的效率、准确度不高的问题；从科技项目各内容模块进行综合的文本相似度计算，规避单一使用关键词匹配搜索带来的相似度分析不准问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一一种基于文本挖掘的科技项目立项管理辅助决策方法的流程示意图。

图2为本发明实施例中科技项目相似度比对的流程示意图。

图3a-3e为本发明实施例中特征数据抽取示意图，其中，图3a为标题和项目摘要抽取示意图，图3b为目的与意义抽取示意图，图3c为研究目的抽取示意图，图3d为主要研究内容+小标题抽取示意图，图3e为预期目标抽取示意图。

图4为本发明实施例中文本主题网络示意图。

图5为本发明实施例中word2vec框架示意图。

图6为本发明实施例中PV-DM框架示意图。

图7为本发明实施例中PV-DBOW框架示意图。

图8为本发明相似与不相似二分类AUC曲线图。

具体实施方式

以下各实施例的说明是参考附图，用以示例本发明可以用以实施的特定实施例。

本发明将结合前人研究成果，综合理论研究和实际应用需求，基于科技项目历史资料，利用大数据、自然语言处理技术，构建科技项目立项管理辅助决策系统，辅助科技管理部门项目立项阶段的管理工作，支撑公司科技项目立项评审管理模式创新，保障科技项目立项管理各环节工作提质增效。由此，请参照图1所示，本发明实施例一提供一种基于文本挖掘的科技项目立项管理辅助决策方法，包括：

具体地，请结合图2所示，本实施例中，特征数据包括标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标这7种数据；步骤S2对关键词和主要研究内容进行分层文本相似度性挖掘，构建多层次多维度的科技项目相似度比对模型，具体涉及的算法包括长文本相似性计算与短文本相似性计算，长文本相似性计算包括长文本关键词级别、句子级别和段落级别的相似性比对，短文本相似性计算是使用连续公共子串+编辑距离进行相似性计算；步骤S3获得待评审项目与其他项目在标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标这7种特征数据的相似度分数，在历史样本训练集上采用网格搜索方法对这7种特征数据的权重进行更新迭代，得到一组最优权重；步骤S4利用该组最优权重计算待评审项目与其他项目之间相似度的综合得分。

步骤S1执行文本信息抽取，由于输入科技项目数据很多都为doc格式，而doc格式文件不能很好的读取信息，所以需要首先将doc文件转换为docx文件。不同时期的科技项目有着不同的项目结构和内容，因此需要统一比对内容，对两篇科技项目进行相似度比对需要从各个方面、维度、内容进行对比。

1.1.1内容抽取

本发明抽取出标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容(包含技术路线)和预期目标这7种特征数据进行具体的相似度比对。根据不同时期的项目结构构造对应的不同抽取规则，对每个项目的重要部分进行抽取，放入信息库。其中因为所给数据的所属年份不一样，很多项目之间存在不同的内容结构，这导致不能使用同一个抽取模板进行信息抽取，因此设计了对应各个内容结构的信息抽取模板加以组合，自动对不同类型的项目进行信息抽取，具体项目抽取部分如图3a-3e所示(框里的即为需要抽取的对象)。对于未来新的项目文本输入要如何提取，在代码中有说明。

1.1.2数据清洗

由于科技项目文本数据中会存在无用的字符(包括空格，回车等)和某些杂乱的格式书写，对后面关键词提取和后续相似度计算等会存在干扰作用。为此，对读取的原始文档数据进行统一格式处理，如繁体转简体，全角转半角，去除空格、去冗余的无用词等，清洗文本，为下面任务提供高质量数据。

1.1.3分词

考虑到分词效率以及专有名词效果，采用jieba分词+电力行业词典+停用词过滤的组合来对科技项目总内容进行分词操作。同时对所分的词进行词性筛选，留下需要的词性包括：普通名词(n)、专业名词(nz)、机构团体(nt)、组织名(ORG)、作品名(nw)。这些词性对于关键词抽取模块会有较大的帮助。

1.1.4关键词抽取

科技项目的关键词在一定程度能够很好地反映科技项目的主旨，对于关键词的抽取进行多维度的模型构建，将关键词分为以下4部分：研究对象关键词、标题关键词、主题关键词和综合关键词(利用全文内容提取的关键词)，举例来说，对所给的1036篇科技项目进行人工筛选，筛选数据表1所示，其中project_name为所筛选数据的科技项目名称，项目分类列为该科技项目通过信息抽取得到的该项目所属分类，后三列标签内容、研究对象和标签主题为人工筛选得到模型训练样本集。

表1人工筛选关键词示例表

具体包括以下过程：

1.1.4.1Textrank获取关键词：

TextRank由Mihalcea与Tarau于EMNLP'04提出来，其思想非常简单：通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。TextRank用于关键词提取的算法如下：

把给定的文本T按照完整句子进行分割，即：

T＝[S₁，S₂，…，S_m]

对于每个句子Si属于T，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即：

S_i＝[t_i，1；t_i，2，…；t_i，n]

其中t_i,j是保留后的候选关键词。

构建候选关键词图G＝(V,E)，其中V为节点集，由生成的候选关键词组成，然后采用共现关系(co-occurrence)构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。

根据上面公式，迭代传播各节点的权重，直至收敛。

对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。

由得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。将文本中的每个句子分别看做一个节点，如果两个句子有相似性，那么认为这两个句子对应的节点之间存在一条无向有权边。考察句子相似度的方法是下面这个公式：

其中s_i，s_j分别表示两个句子词的个数总数，表示句子中的词，那么分子部分的意思是同时出现在两个句子中的同一个词的个数，分母是对句子中词的个数求对数之和。分母这样设计可以遏制较长的句子在相似度计算上的优势。

通过对抽取的科技项目几部分长文本数据的清洗，获得较为干净的长文本数据，将其进行分词处理并使用textrank构建整体的词语图，通过计算其中每个词语对应其他词语的关联度计算该词的重要程度，然后对所有的词语按照重要度分数进行排名，选取topN个词语作为textrank获得在该篇项目的重要词语。

1.1.4.2基于文本主题网络的关键词抽取

相比于textrank，基于文本主题网络的关键词抽取方法则在构建词语图之后使用了图聚类的相关方法进行关键词抽取。具体为，使用文本主题网络G来表示一个文本D，也就是说文本主题网络G可以表示文本D的主题，通过这样的语言网络表示整个文本的主题网络，整个文本D就由一系列的主题连通子图来表示。连通子图中的中心高频词和连接两个子图的相对低频词，就是对G具有关键作用的词语，可以用来表征文本的特性，如图4所示为文本主题网络图表示，中心词b、d、g和连接词f则是G的特征词。

对于文本主题网络做如下定义：文本主题网络G＝(V,E)，其中V＝{V_i|i＝1,2,...n}表示顶点结合(例如数据分词后的每个词语)，E＝{(v_i,v_j)|v_i,v_j∈V}为文本主题网络的边集合。在抽取关键词过程中，结合聚类性质，寻找符合要求的重要词语。定义文本主题网络节点v_i的度D_i＝|{(v_i,v_j):(v_i,v_j)∈E,v_i,v_j∈V}|，节点v_i的聚集度

K_i＝|{(v_j,v_k):(v_i,v_j)∈E,(v_j,v_k)∈E,v_i,v_j,v_k∈V}|

由此节点v_i的聚集系数可以按照如下公式来计算：

根据图论知识，图中节点的度表示与该节点的关联状况，用与该节点的边数来度量，节点聚集度的大小体现的是该节点的周边节点的密集程度。结合聚类理论，聚类系数体现了某一节点在任意两节点的最短路径上所占的比例，这里定义v_i的聚类系数

其中g(i)_jk表示文本主题网络中，经过节点v_i连接节点v_j和v_k的最短路径的条数，g_jk则表示连接节点节点v_j和v_k的最短路径的总共条数。根据上面的理论，这里根据如下公式计算文本网络图中每一个节点的综合特征值：

计算出每个节点(即词语)对应的综合特征权值，将特征权值CF按照降序排列，CF值越大，说明其与文本语义关联度就越大，取topN个节点作为文本的重要词语，进行下游任务。

1.1.4.3关键词抽取实现

为了更加全面的描述科技项目内容所表达的主旨，将从研究对象、标题、主题和全文4个方面来提取相应的关键词，而每个维度的关键词文本来源存在差异性，所以采用不同的方法来实现关键词的抽取。

1.1.4.3.1研究对象关键词

利用textrank和使用文本主题图聚类提取重要词语的效果部分对比(如表2所示)，研究对象一列为人工筛选的科技项目研究对象关键词，从中可以看出，使用文本主题图聚类的方法能更好的提取出科技项目的研究对象关键词词语。

表2关键词提取算法效果对比表

采用文本主题网络图聚类来提取对应的项目关键词，选取前n个关键词，如果该关键词存在于历史的研究对象关键词中，则将其作为本项目的研究对象关键词，否则选择综合特征值最大的前两个词语作为本项目研究对象关键词。

1.1.4.3.2标题关键词

标题关键词是科技项目最直观的主旨信息，通常一篇项目的大致研究内容会存在于其标题上，所以采用textrank方法对科技项目中的关键词进行提取，该关键词必须满足一定的词性要求，即词性需要是普通名词(n)、专业名词(nz)、机构团体(nt)、组织名(ORG)、作品名(nw)的其中一个。

1.1.4.3.3主题关键词

主题关键词即是表1中的研究主题一列，我们采用人工标注的方式对历史科技项目进行分类，其类别为：防雷风火灾害、风险评估、信息安全防护、节能、窃电、辅助决策、监测报警、状态诊断、测试技术、研发、数据管理、状态评价这12个类别，并使用svm模型进行多标签分类训练，进而获得待评审项目主题关键词的分类。

1.1.4.3.4综合关键词

经过试验对比分析发现，使用textrank和主题网络图聚类提取关键词具有更好的效果，所以本实施例将两种方法提取的关键词进行1:1的合并，获得综合关键词，用于后续的关键词相似度比对。

经过模型训练的方式得到研究对象、标题、主题、综合关键词4个级别的一组最优权重(目前样本数据得到的权重依次为0.12，0.04，0.02，0.82)。

1.2相似度比对

1.2.1短文本相似度比对

短文本是指类似科技项目标题、主要研究内容小标题等字数较少的文本数据，相比于研究内容等长文本所包含的信息较少且集中，并且加上电力科技项目词语大都较为专业，如果单纯使用关键词来进行比对不太合适，所以采用一种改进的基于编辑距离的相似度计算方法(连续公共子串+编辑距离(ed))来计算项目名称的相似度。

1.2.1.1编辑距离

编辑距离是衡量两个字符串相似性程度的一种度量，表示的是两个字符串之间，其中一个转换为另一个字符串所需要的最少的操作步骤。由俄科学家VladimirLevenshtein于1965年提出这个概念。编辑距离在字符串的快速模糊匹配中应用非常广泛，是一种效果较好的句子相似度计算方法。

编辑距离(Edit distance)：是指两个子串之间，由一个转换为另一个所需的最少的编辑次数。编辑操作包括：删除、插入、替换等。编辑距离可以表示为：

其中D(str1,str2,i,j)表示字符串str1的前i个字符和字符串str2的前j个字符之间的编辑距离，str1_i表示字符串str1的第i个子串。初始的值D(str1,str2,0,0)为0。

上面的式子是一个递归的定义形式，假如有字符串s1和s2，长度分别为m和n，一般采用(m+1)*(n+1)阶的一个匹配关系矩阵来计算编辑距离。矩阵中的元素值为：

其中d_i,j表示的是矩阵中第i行j列的值，下面给出了一个匹配关系矩阵的示例，求‘大数据应用’和‘应用大数据’的编辑距离，所得编辑距离为4，如表3所示：

表3编辑距离计算矩阵

	大	数	据	应	用
						应	1	2	3	3	4
用	2	2	3	4	3
						大	2	3	3	4	4
数	3	2	3	4	5
						据	4	3	2	3	4

1.2.1.2改进的话题相似度计算

研究观察科技项目申请书中的名称可以发现以下几个特点：

标题中的专业词较多而且都是以组合起来的长词出现，并不是单纯的可以切分的专业词汇，如‘基于大数据加速分析与三维数字化的设备可视化监测模型的研究与应用’，这其中‘大数据加速分析’，‘设备可视化检测模型’简单的切分成‘大数据’，‘加速’，‘分析’，‘设备’，‘可视化’，‘检测’，‘模型’后，含义已经改变。

对专业名称来说语义理解难度较大，如：‘源端基地综合能源系统关键技术及发展模式研究’和‘综合能源系统多能转换模拟与综合能效评估技术研究’两者在语义理解上较为相似，但是单纯使用编辑距离会得到非常低的分数。

科技项目的名称相对较短，长的30个字左右，短的只有10个字。

由于科技项目名称中含有大量的专业名称，它们常常组合到一起成为更长的词语，对于两个项目名称来说，如果两个名称中有较多重复的这种专业名词，那这两个项目相似的可能性就非常大，但是如果直接采用编辑距离来计算可能导致相似度非常低。基于此，提出先去除字符串中所有的最长连续公共子串(如‘源端基地综合能源系统关键技术及发展模式研究’和‘综合能源系统多能转换模拟与综合能效评估技术研究’的最长公共子串为‘综合能源系统’)后再来计算编辑距离。假设有字符串s₁和s₂，改进的算法的计算过程如下：

步骤S21，设输入的字符串为s_1i和s_2j，利用算法求出输入的两个字符串最长公共子串，结果为l_s。

步骤S22，假如l_s的长度大于2，那么对s_1i和s_2j做如下处理：去掉l_s，并且把字符串分割成两部分(当l_s在字符串首或者尾部的时候)独立的字符串，分别为s_1i1、s_1i2和s_2j1、s_2j2。否则的话把s_1i按顺序并入到结果字符串s_a(初始为空)中，把s_2j按顺序并入到结果字符串s_b中。

步骤S23，遍历s_1i和s_2j分割后的字符串，继续递归进入步骤S21，直达完成所有子字符串的计算。

这时候所有的最长公共子串已从s₁和s₂中移除，结果存放在s_a和s_b中。

步骤S24，对s_a和s_b计算编辑距离(ED)，然后利用编辑距离相似度计算公式进行相似度计算，具体公式如下：

其中sim(s₁,s₂)表示s₁和s₂的相似度，ED表示编辑距离，len(s₁)表示字符串s₁的长度。

随机选择了一些科技项目进行原算法(单一的编辑距离计算)和改进算法(最长公共子串+编辑距离)的项目名称相似度计算，其比对结果如表4所示。从中可以看出：改进算法的编辑距离相对较小，且相似度值更高，较原算法而言，改进算法更加符合真实的相似度值。

表4不同算法下的名称相似度比对结果

注：ED表示编辑距离，sim表示相似度

短文本计算主要是项目标题之间、主要研究内容小标题之间的计算比对，通过对主要研究内容拆分为全内容长文本和小标题短文本可以更加全面、具体的对两个项目主要研究内容进行对比，尤其是在小标题对比上，可以取得较为理想的效果。例如A项目在主要内容小标题上与B项目的项目标题或者主要内容小标题相似，那么A和B就可能存在或多或少的相似关系，以此作为相似项目的判断依据，能从更细节的方面筛选相似项目

1.2.2长文本相似度比对

1.2.2.1长文本相似度计算

对于无监督长文本的相似度计算，基本方向均是将文本进行向量化，再通过计算两个项目向量之间的距离确定相似度数值，常用的方法如下：

bag of words(词袋模型)

LDA(潜在狄利特雷分配)

Average word vectors(词向量平均)

Tfidf-weighting word vectors(带tfidf权重的词向量平均)

其中，词袋模型没有考虑到单词的顺序，并且忽略了单词的语义信息；LDA主要是计算一篇文档或者一句句子的主题分布；词向量平均模型首先训练word2vec/bert词向量，单纯的对句子段落中所有词语取平均，这是最有效简单的一种方式，但是缺点很明显就是没有考虑到词语的顺序；带tfidf权重的词向量平均是对句子中所有的词向量根据tfidf权重加权求和，它是常用的一种计算长文本向量的方法，相比于简单的求所有长文本向量的平均，考虑了使用tfidf权重，因此，句子中更重要的词占比就更大，但没用考虑到词语的顺序问题。相比较上述几种方法，Doc2vec模型不仅考虑了词语的顺序还包含了语义信息，采用深度学习中的Doc2vec模型得到长文本向量，并用以计算长文本相似度。

1.2.2.2 Doc2vec

Doc2vec(paragraph2vec)是一种无监督算法，可以获得句子/段落/长文档的向量表达，是对于word2vec的拓展，其中word2vec的框架如图5所示。

Word2vec训练有两种模式：CBOW和Skip-gram，图6中的INPUT、PROJECTION、OUTPUT分别表示输入层、隐藏层、输出层。以CBOW为例，每个单词都被映射入向量空间中，在一个特定长度的窗口中将上下文的词向量级联或者求和作为特征，预测句子中的下一个单词。例如，单词序列为‘开展’、‘大数据’、‘加速’、‘分析’预测‘基于’，目标函数是：

其中J(θ)表示我们需要训练的目标函数，w_t表示第t个单词，k表示一个窗口的大小，k＝2即为上下文长度为2，T表示一句话所进行预测的所有单词个数。

预测的任务是一个分类问题，分类器最后一层使用softmax，计算公式如下：

其中i即词库中词的个数，y_i即为第i个单词的预测值，ywt即为要预测的t时刻的核心词的预测值。每个单词看成一个类别，y_i的计算公式如下：

y＝b+Uh(w_t-k,...,w_t+k；W)

其中U,b是softmax计算参数，h是将w_t-k,...,w_t+k每个单词向量级联或者求平均。由于算法过程中把每个单词看成是一类，导致类别数非常大，训练效率很低，所以在Word2vec归一化的时候，采用hierarical softmax和Negative Sampling(负采样)加快计算速度。这里我们介绍Negative Sampling，具体如下：

Negative Sampling核心思想是把语料中的一个词串的中心词替换为别的词，构造语料D中不存在的词串作为负样本。在这种策略下，优化目标变成了：最大化正样本的概率，同时最小化负样本的概率。一个词串(w,c)(对于skip-gram，c表示w的中心词，对于CBOW，c表示w的上下文)，用二项逻辑回归模型对其正样本的概率建模：

所以全部正样本的似然函数为：

同理，全部负样本的似然函数为：

需要最大化前者同时最小化后者，也就是最大化下式：

取对数似然：

由于使用SGD,所以只需要知道对一个正样本(ω,c)的目标函数。式中NEG(ω)是(ω,c)的负样本的中心词集合：

由此大大优化Word2vec归一化效率。

训练词向量的核心思想是可以根据每个单词的上下文预测，也就是说上下文的单词对是有影响的。那么同理，可以使用相同的方法训练Doc2vec，其中Doc2vec有Adistributed memory model和Paragraph Vector without word ordering:Distributedbag of words两种模式。

A distributed memory model(分布式内存模型)

如图5所示为Doc2vec PV-DM的框架图，由图可以看出在加入单词级别的向量之外还有每个段落/句子的向量表示。例如对一句句子‘the cat sat on’，如果要预测句子中的单词on，那么不仅可以根据其他单词生成对应的特征，也可以根据其他单词和句子生成特征来进行预测。每一个段落/句子都被映射到向量空间中，可以用矩阵的一列来表示。每个单词同样被映射到向量空间，可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求平均得到特征，预测句子中的下一个单词。段落向量/句子向量也可以认为是一个单词，它的作用相当于是上下文的记忆单元或者是这个段落的主题，所以我们一般叫这种训练方式为Distribute Memory Model of Paragraph Vectors(PV-DM)。其中在训练时候，固定上下文长度，同样用滑动窗口的方法产生训练集。并且段落/句向量在该上下文中共享。具体的Doc2vec的过程，主要有两步：

训练模型，在已知的训练数据中得到词向量，softmax参数以及段落向量/句向量。

推断过程(inference stage)，对于新的段落，得到其向量表达。具体的，在矩阵中添加更多的列，在固定长度的情况下，利用上述方法进行训练，使用梯度下降的方法得到新的D(段落向量矩阵)，从而得到新段落的向量表达。

Paragraph Vector without word ordering:Distributed bag of words(分布式词袋模型)

如图7所示为Doc2vec PV-DBOW框架图。相对于分布式词袋模型方法进行模型训练得到段落向量，还有一种方法就是忽略输入的上下文，让模型去预测段落中的随机的一个单词。这里输入的只有段落向量，但是进行预测是对段落/句子中的所有单词的预测，此方法类似于Word2vec中的skip-gram，称为Distributed Bag of Words version ofParagraph Vector(PV-DBOW)，比较两种训练方法，我们使用PV-DM方法进行训练。

1.2.2.3词语级别相似度

针对长文本设置了词语的相似度计算，通过文本主题网络图聚类方法提取长文本关键词w₁，w₂，......w_n，利用训练的word2vec模型进行词嵌入映射，得到每个词对应的词嵌入向量w_n＝(x₁,x₂,......x_m)，这里n为第n个词语，m表示第m个特征(m为300)，进而使用余弦相似度计算w₁＝(x₁,x₂,......x_m)，w₂＝(y₁,y₂,......y_m)之间的相关性，余弦相似度计算公式如下：

对于两段长文本的关键词D₁＝(w₁₁,w₁₂,...w_1a),D₂＝(w₂₁,w₂₂,...w_2b)，D₁和D₂之间的词级别相似度可以用以下公式进行计算：

1.2.2.4句子级别相似度

对于句子级别的相似性比较，考虑到实际的效率问题，采用公共词语统计的方法进行相似性计算，将长文本1和长文本2按照textrank句子粒度，切分成句子的集合D₁＝(s₁₁,s₁₂,...s_1n)，D₂＝(s₂₁,s₂₂,...s_2m)，并得到对应的每个句子在长文本中所占的重要性，如下：

其中w₁₁+w₁₂+...w_1n＝1，w₂₁+w₂₂+...w_2m＝1，使用分词将每一句句子进行分词操作获得句子的分词集合s＝(w₁,w₂,...w_a)，使用如下公式计算两句句子之间的相似度：

1.2.2.5段落级别相似度

利用doc2vec模型，将长文本内容映射成高维度向量，进而通过余弦公式来计算段落级别的长文本相似度。

经过模型训练的方式得到词语、句子、段落三个级别的一组最优权重(目前样本数据得到的权重依次为0.4、0.12、0.48)，将其加权求和获得最终的长文本1和长文本2的相似度。此外，考虑到‘主要研究内容‘的重要性和其结构的特殊性，对‘主要研究内容‘的相似度计算进行了单独处理，具体如下：

科技项目技术路线内容体现了其技术实现手段的创新性，但缺失值较多，所以将非缺失的技术路线内容合并到主要研究内容部分。

在多次实验比对中发现，全文的综合关键词作为主要研究内容关键词更为全面和准确，效果最好。

采用句子级别的相似度方法来计算主要研究内容小标题的相似度，并通过对长文本词语、句子、段落、小标题权重进行反复调整，得到一组最优的结果依次为0.38、0.1、0.45、0.07。

1.3权重确定

由于抽取的7部分内容具有不同的重要性，因此，根据不同的模型算法确定每个部分的权重值和高中低三个相似度等级的阈值。

首先，根据经验确定科技项目标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标7部分内容的初始权重和这部分内容权重的波动范围，如主要研究内容权重在(0.25,0.4)之间，项目摘要的权重在(0.1,0.25)之间等，然后通过网格搜索的方式进行权重的更新，具体方法如下：

1、对7部分权重(依次为标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标7部分)，按照最低0，最高1各切分成的50份(或者更多)。

2、循环组合这7部分权重，计算每个项目组(待比较项目与历史项目即为一个项目组)在这个权重组合下的相似度topN准确率，选取准确率最高的一组权重作为更新权重。

根据所确定的权重计算出待评审项目对应的所有历史项目的总相似度分数，对所有数据的总相似度分数进行降序排列，分别选取每个待评审项目前三位置的相似度分数值并取平均作为高中阈值分界线s_high，并设定s_high的值不能低于0.5；取总相似度分数第5％位置的值作为中低阈值分界线s_low。相似度分数高于s_high即为高相似，在s_low与s_high之间的即为中相似，低于s_low即为低相似。根据训练数据测得s_high为0.377，s_low为0.321。

1.4结果评估

1.4.1 TopN测试评估

本发明选择top5,top10,top15,top20为研究范围，选取每个待评审项目的topN个最相似的项目，与待评审标签进行比较，若待评审项目的topN相似文档中存在该待评审项目的真实相似项目(待评审标签)，则比对正确，并根据如下公式计算出待评审项目相似度topN的准确率，假设有m个待评审项目：

具体的topN测试步骤如下：

1)将128份训练数据按照17:3的比例分为训练集(109份)和测试集(19份)；

2)使用网格搜索确定109份训练集数据7部分的权重；

3)根据确定的权重计算19份测试集与其他1036份科技项目的相似度分数，并根据上述公式依次对top5,top10,top15,top20的比对结果进行topN准确率计算；

4)循环重复上述1、2、3步骤5次，分别将5次得到的top5,top10,top15,top20准确率分数取平均作为最终评测准确率。

按照上述步骤采用不同组合策略对各个科技项目进行相似度计算，得到的结果如表5所示。

表5项目topN相似度准确率统计表

注：短文本均采用改进的编辑距离计算相似度；

表5中第一列是科技项目进行相似度计算的不同策略，其中‘全文关键词’是指利用科技项目全文档数据提取的关键词；‘分层关键词’是指对全文档不同层级分层后分别提取的关键词；‘关键词作为单独维度’是指将项目关键词维度比较单独拿出来，建立标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标7部分进行相似度计算的策略，而‘关键词不作为单独维度’是指将项目关键词维度比较放入主要研究内容比较中，只组成标题、项目摘要、目的与意义、研究背景、主要研究内容、预期目标6部分进行相似度计算的策略。从表5中可以看出：第一，将项目关键词对比作为单独维度的策略效果普遍高于不作为的；第二，分层关键词对于效果提升非常明显，说明分层关键词能很好的捕捉项目的主旨内容；第三，从表中最后几列可以看出，绝大部分的相似项目都在top20以内，较少的项目会在top20之后。

1.4.2相似与不相似测试评估

AUC指标是建立在TP、FP、FN、TN的基础上的，具体如下表6所示，ROC(receiveroperating characteristic curve)为接受者操作特征曲线，是用来会话一组样本预测效果的，他的横坐标是FP，纵坐标是TP。AUC(Area Under Curve)为ROC曲线的下半部分面积，面积越大说明分类效果越好。

表6数据正例-负例解释表

随机抽样128份相似和128份不相似的项目组，标记对应标签为0(不相似),1(相似)，对128份科技项目训练集进行网格搜索获得对应7部分权重，并计算出128份科技项目与其他科技项目的相似分数和对应的AUC值进行准确率比较。

具体结果如图8所示：

图8为相似与不相似二分类AUC曲线图，ks曲线对应的是真正率与假正率的差值；AUC曲线为128个科技项目的AUC值；红点对应的4个坐标值依次表示为该点的真正率值，假正率值，真正率和假正率的最大差值(0.814)和二分类阈值0.385，此时模型的准确率为0.955。

总之，本发明基于多层次多维度的科技项目相似度比对模型能对绝大部分科技项目进行准确有效的相似项目查找，为项目审查提供有效的帮助。

相应于前述本发明实施例一提供一种基于文本挖掘的科技项目立项管理辅助决策方法，本发明实施例二还提供一种基于文本挖掘的科技项目立项管理辅助决策系统，包括：

有关本实施例的工作原理及过程，请参照本发明实施例一的说明，此处不再赘述。

通过上述说明可知，本发明带来的有益效果在于：本发明基于科技项目申报资料等相关文本数据，运用Word2Vec、ELMO和Doc2Vec等人工智能技术，结合中文分词、熵值和层次分析等方法，开展科技项目相似度分析、科技项目经费与内容量化对比分析、申报主体竞争力评价、评审专家精准推荐、报奖项目研究成果使用分析研究工作，基于研究成果，研发实现科技项目管理辅助决策应用，辅助科技管理部门项目立项、奖励评审阶段的管理工作，支撑公司科技项目立项、奖励评审管理模式创新，保障科技项目立项、奖励评审管理工作提质增效；

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于文本挖掘的科技项目立项管理辅助决策方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述特征数据包括标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标。

3.根据权利要求2所述的方法，其特征在于，所述步骤S1具体包括：

4.根据权利要求3所述的方法，其特征在于，所述抽取关键词进一步包括：

5.根据权利要求1所述的方法，其特征在于，所述步骤S2包括采用改进的基于编辑距离的相似度计算方法来计算项目名称的相似度，其具体包括：

6.根据权利要求1所述的方法，其特征在于，所述步骤S2包括采用深度学习中的Doc2vec模型得到长文本向量，并用以计算长文本相似度；所述计算长文本相似度包括计算长文本关键词级别、句子级别和段落级别的相似度。

7.根据权利要求6所述的方法，其特征在于，计算长文本关键词级别具体包括：

8.根据权利要求7所述的方法，其特征在于，计算句子级别相似度具体包括：

9.根据权利要求8所述的方法，其特征在于，计算段落级别相似度具体包括：利用doc2vec模型，将长文本内容映射成高维度向量，进而通过余弦公式来计算段落级别的长文本相似度。

10.根据权利要求9所述的方法，其特征在于，所述步骤S3具体包括：

循环组合所述7种权重，计算每个项目组在每一权重组合下的相似度准确率，选取准确率最高的一组权重作为更新权重，其中，待评审项目与历史项目为一个项目组。

11.根据权利要求9所述的方法，其特征在于，所述步骤S4具体包括：根据所确定的权重计算出待评审项目对应的所有历史项目的总相似度分数，对所有数据的总相似度分数进行降序排列，分别选取每个待评审项目前三位置的相似度分数值并取平均作为高中阈值分界线s_high，取总相似度分数第5％位置的值作为中低阈值分界线s_low；相似度分数高于s_high即为高相似，在s_low与s_high之间的即为中相似，低于s_low即为低相似。

12.一种基于文本挖掘的科技项目立项管理辅助决策系统，其特征在于，包括：