CN112800243A

CN112800243A - 一种基于知识图谱的项目预算分析方法及系统

Info

Publication number: CN112800243A
Application number: CN202110153971.XA
Authority: CN
Inventors: 衣秀; 张�成; 苏卫卫; 黄瑞; 程龙
Original assignee: Tianjin Delta Technology Co ltd
Current assignee: Tianjin Delta Technology Co ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-05-14

Abstract

发明提供一种基于知识图谱的项目预算分析方法及系统，所述项目预算分析方法包括以下步骤：知识获取：使用内部开发的爬虫工具爬取相关的文档，并存入在文件系统中；知识抽取：对所有包含program和project项目实体的文档进行知识抽取；知识存储：将抽取的知识信息存入图数据库；数据分析：包括针对文本的热词、新词、分类和聚类分析，也包括基于知识图谱的项目关系分析。本发明引入知识图谱，输入或者选择待分析的实体信息，可以获得实体语义网络，能产出比人工分析更全面的关联关系，且通过使用图数据库进行存储，检索速度更快。

Description

一种基于知识图谱的项目预算分析方法及系统

技术领域

本发明属于项目预算分析技术领域，尤其涉及一种基于知识图谱的项目预算分析方法及系统。

背景技术

随着大数据和自然语言处理技术的发展，人们对于国防预算的分析，已经不仅限于对结构化数据的统计分析，还有强烈的非结构化文本分析的需求以及分析目标的关联关系的需求。

结构化数据的统计分析，从横向、纵向、同比、环比等多个角度进行分析，并通过可视化展现，能够直观的看到预算的变化及重点领域分布。如通过计算每年的预算变化，可以产出增长率趋势；通过统计每个领域的预算值，可以获得当年重点发展方向，如2020年美国重点发展太空和网络空间等新兴作战域、陆海空作战能力的现代化、人工智能和高超声速等技术创新以及维持战备等四大领域。

文本分析，将数据从无结构或者半结构化的文本转化成结构化的计算机可以识别处理的信息，通常使用自然语言处理技术实现分析。自然语言处理是人工智能的重要分支之一，涉及语言学、计算机科学等多门学科知识，主要包括词汇分析、句法分析、分类、聚类、信息抽取、关联分析和预测分析等。信息抽取是从自由文本中抽取知识，是知识图谱构建的基石。

知识图谱，是一种基于图的数据结构，由节点(Point)和边(Edge)组成，每个节点表示一个实体，每条边为实体与实体之间的关系，把所有不同种类的信息连接在一起而得到一个关系网络，因此知识图谱提供了从“关系”的角度去分析问题的能力。

当前，计算机解决的主要是采用结构化数据驱动的方式，从样本数据中建立统计模型，挖掘统计规律，但单纯的数据驱动方式面临效果的天花板，需要知识的引导突破。如果没有分析这些海量的非结构化数据，则数据的巨大价值无法发挥。

因此，急需一种基于知识图谱的项目预算分析方法及系统，主要分析文本类的非结构化数据，通过分析揭示出潜藏在文本信息当中的趋势和关联，为商业决策、行业趋势研究和热点内容追踪提供有力支持。

发明内容

为了解决上述技术问题，本发明提供一种基于知识图谱的项目预算分析方法及系统，所述项目预算分析方法包括以下步骤：

步骤1：知识获取：使用内部开发的爬虫工具爬取相关的文档，并存入在文件系统中；

步骤2：知识抽取：对所有包含program和project项目实体的文档进行知识抽取；

步骤3：知识存储：将抽取的知识信息存入图数据库；

步骤4：数据分析：包括针对文本的热词、新词、分类和聚类分析，也包括基于知识图谱的项目关系分析。

优选的，所述步骤2包括以下步骤：

步骤21：属性抽取：抽取program的ID、名称、计划年份、数据类型、所属阶段、该项目的任务、总结、备注以及前两年执行预算、前一年批复预算、当前年预算和后四年计划预算信息；

步骤22：关系抽取：抽取项目转移、项目资金支持、项目技术支持、项目联合关联关系。

优选的，所述步骤4包括以下步骤：

步骤41：热词分析：通过词频统计产出关注度高的一组词，并以词云展现；

步骤42：新词识别：产出新的一年会出现的新术语；

步骤43：聚类分析：自动对要分析的数据进行技术领域、技术方向维度的聚合分析；

步骤44：分类分析：对要分析数据进行自动化打标签，主要有基于规则的分类和基于机器学习方法的分类；

步骤45：关联分析：根据已经构建的知识图谱，产出待分析项目的关系信息。

优选的，所述项目预算分析系统包括：数据源层、数据管理及存储层、数据分析层、应用服务层四部分，其中数据源层主要包括预算不同类别的文件，通过数据解析和抽取形成结构化数据，存储到数据库中；数据管理存储层包括各类预算数据的存储和训练模型配置、训练语料配置、收藏夹配置、项目编号配置、数据表头配置、分类配置、权限菜单系统配置管理功能；数据分析层主要包括数据分析引擎和全文检索引擎；所述应用服务层包括预算数据检索、数据分析可视化、预算数据分析、原始文件浏览、成果报告浏览。

优选的，所述数据分析引擎包括数据分类、关联分析、文本对比、新词识别、词频统计、聚类分析、数据抽取及自助可视化统计分析；所述全文检索引擎包括基础检索、高级检索及检索库的维护。

与现有技术相比，本发明的有益效果为：本发明引入知识图谱，输入或者选择待分析的实体信息，可以获得实体语义网络，能产出比人工分析更全面的关联关系，且通过使用图数据库进行存储，检索速度更快。

附图说明

图1为本发明的总体流程图；

图2为本发明的实体及对应的部分正则示意图；

图3为本发明的关系及对应的部分正则示意图；

图4为本发明的项目关联分析示意图。

具体实施方式

以下结合附图对本发明做进一步描述：

实施例：

如附图1所示，一种基于知识图谱的项目预算分析方法及系统，所述项目预算分析系统包括：数据源层、数据管理及存储层、数据分析层、应用服务层四部分，其中数据源层主要包括预算不同类别的文件，通过数据解析和抽取形成结构化数据，存储到数据库中；数据管理存储层包括各类预算数据的存储和训练模型配置、训练语料配置、收藏夹配置、项目编号配置、数据表头配置、分类配置、权限菜单系统配置管理功能；数据分析层主要包括数据分析引擎和全文检索引擎；所述数据分析引擎包括数据分类、关联分析、文本对比、新词识别、词频统计、聚类分析、数据抽取及自助可视化统计分析；所述全文检索引擎包括基础检索、高级检索及检索库的维护；所述应用服务层包括预算数据检索、数据分析可视化、预算数据分析、原始文件浏览、成果报告浏览。

具体的，所述项目预算分析方法包括以下步骤：

步骤1：知识获取：使用内部开发的爬虫工具爬取相关的文档，本文主要爬取美国1998-2021年的预算数据，包括研发预算、采购预算等类别，采用枚举的方法，根据预算网站URL的格式枚举出所有目标网页的URL，爬取的预算文档为pdf文档，存储在文件系统中；

步骤2：知识抽取。

对国防预算中的项目信息进行分析，因此关注所有包含program和project项目实体的文档，抽取过程以program和project项目实体为单位，根据文档样式及标签结构找出实体的起始位置，然后依次解析其余的信息；其中知识抽取包括两部分：属性抽取和关系抽取；

步骤21：属性抽取

以研发预算文档为例，抽取program的ID、名称、计划年份、数据类型、所属阶段、该项目的任务、总结、备注以及前4两年执行预算、前一年批复预算、当前年预算和后四年计划预算信息；

其中所属阶段包括基础研究、应用研究、高级技术研发、高级组件开发和原型、系统开发和演示、研发管理支持和操作系统开发7个阶段。

数据类型，包括海军、空军、陆军、SOD、MDA、DARPA共6个字段。通过分析所属阶段和数据类型，可以辅助统计各军兵种、各部门、各研发阶段的项目数及预算分布，通过例年的预算数据可以辅助分析例年的预算变化率。

抽取完成的数据，存储在关系数据库中，方便基于结构化数据的统计分析。

步骤22：关系抽取

关系抽取是从非结构化文本中抽取出实体间的关系实例，进而构建成知识图谱的边。关系抽取的结果是<源实体,关系,目标实体>这样的三元组，其中实体是指program ID或project ID；实体属性，是指program ID对应的program实体中抽取的详细信息，projectID对应的project实体中抽取的详细信息；关系，是指项目转移、项目资金支持、项目技术支持、项目联合关联关系。

具体基于模式的抽取方法进行抽取，主要有两个步骤：模式获取和模式匹配；

(1)模式获取：

当前主要分析项目转移、项目资金支持、项目技术支持、项目联合四大类，其中项目转移包含转移自和转移到2类。

对于待抽取的关系，根据在文本的表达方式构造对应的模式。我们使用基于字符的模式抽取，将输入的文本作为字符序列，构造字符模式，表达一类关系的字符模式表示为一组正则表达式。如附图2、3所示，当前实体和关系的一部分正则示例。

对于PE 0601101E,Project ES-01这种字串，需要配置ProgamNumber和ProjectNumber共同的抽取正则，然后拆分出两部分内容。

(2)模式匹配：

模式获取，使用已经构建的字符模式，对输入的文件进行匹配，匹配中，先通过关系的正则找到带有关系的文本，然后分析关系前后是否能匹配上实体正则，如果能匹配上，则产出<源实体,关系,目标实体>的三元组。

这类基于字符模式的抽取方法对文本与模式的相似行有较高的要求，因为我们分析的预算文件文本的描述具有很强的共性，所以这种模式提取的准确率和覆盖率能够满足需求。

步骤3：知识存储

知识图谱中主要有两种存储方式：一种是基于RDF的存储，一种是基于图数据库的存储，图数据库主要把重点放在了高效的图查询和搜索上，一般以属性图为基本的表示形式，所以实体和关系可以包含属性，根据相关统计，图数据库仍然是增长最快的存储系统，我们这里存入图数据库中，选用Neo4j将三元组存入图数据库；

我们利用图数据库的天然优势，直接将预算分析涉及的Program和Project实体设计成图谱结点，将其包含的所有有用属性字段：如ID、名称、年份、类别、描述和预算字段设计成图谱的结点属性后，使用抽取出来的三元组，定义两两结点之间的关系。

步骤4：数据分析

数据分析，包括针对文本的热词、新词、分类和聚类分析，也包括基于知识图谱的项目关系分析。

步骤41：热词分析

热词，即当前文本中大家关注度高的一组词，通过词频统计计算，词的重要性随着出现次数正比增加，随着在语料中出现的频率反比下降，所以，通常使用TF-IDF加权计算。

首先对文本进行分词，进行词性标注，选取目标词性；然后计算词的词频，计算词的普遍重要性逆文档频率，最后二者相乘，TF公式如下所示。

其中，分子表示输入文本中某一个词出现的次数，分母表示输入语料中所以词的数量。

IDF公式如下所示：

其中，分子表示输入语料中文档总数，分母表示包含词的文档数量，如果词语不在语料库中，就会导致分母为零，所以我们给分母加1。

计算TF与IDF的乘积的公式如下所示：

tfidfi，j＝tfi，j×idfi

TF-IDF模型的主要思想是，如果词w在一篇文档中出现的频率高，并且在其他文档中很少出现，则认为词w具有很好的区分能力。我们使用这种方法对选择的目标词性的词计算计算，产出topN的热词，基于热词列表，使用词云展现出来。

步骤42：新词识别

研发预算的描述类文本中，新的一年会出现新的术语，提供自发现的新词识别功能，可以帮助用户获取当年新出现的词，跟踪例年的新词。

新词抽取，是从文本中抽取新词的过程，测度术语的指标unithood关注一个序列单词是否组合为一个稳定的词元，C-value方法是形成一个词组的术语度测量准则，一般值越大，是术语的可能性越大。因此，使用unithood和C-value相结合的方法，从文本中选择候选词，然后计算词的unithood指标和C-value值，产出最终的新词。

新词识别主要包含以下三个步骤：

(1)对输入的文本进行分词和词性标注；

(2)选择名词、动词和形容词作为目标词性，选择是目标词性的词，同时去停用词，停用的词为词频较高但不具备区分性的词；

(3)计算unithood指标和C-value指标，unithood指标用来衡量一个多字术语词法结构的稳定性，C-value指标用来测量一个候选词是领域词术语的程度。选择合适的unithood阈值和C-value阈值作为过滤条件，将满足条件的候选词作为抽取出的新词，通常情况，如果一个词出现次数越多，那么它越可能是新词术语；一个词在更多的长词中出现，则它是新词术语的可能性越大；同样词频下，一个长词比一个短词更可能是新词术语。

步骤43：聚类分析

预算文件经过解析之后，产出的文本类的结构化数据总量达10万量级以上，聚类可以自动对要分析数据进行技术领域、技术方向等维度的聚合分析，解决人工分类带来的工作量大、维护难度高的问题。

文本聚类大体包括两个步骤，首先，文本进行预处理，将文本表示为计算机可以处理的形式；其次，在对文本对象进行聚类分析；

文本的预处理是将文本表示成计算机所能够处理的形式时，需要保证这种形式能够充分体现出文本对象自己的特点，突出文本对象间的差异，以便于区分文本，计算产出输入文本的特征集合，构建每条数据的向量模型；

其中，聚类分析提供kmeans和话题聚类两种方法；

Kmeans是设定聚类簇数K，把输入数据聚合到K个簇中。根据密度初始化K个类簇中心，把每个数据分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。

话题聚类对输入数据进行分词、提取特征词、生成特征向量，进行相似度聚类。依次输入一个文本，向量化之后判断当前文本与已有簇的匹配程度，如果当前文本与已有的某个簇相匹配，则把当前文本归入到该簇，反之则创建新的簇。通过聚类，大量输入数据可以得到几类话题，不同类话题的文章差异大，相同类话题的文章相似度大。

步骤44：分类分析

预算类数据，建模之后可以自动对要分析数据进行技术领域、技术方向维度的进行分类打标签，解决人工分类带来的工作量大、维护难度高的问题；

引入两种分类方法：基于规则的分类方法和基于机器学习的分类方法；

(1)基于规则的分类方法

规则分类，是根据构建的规则进行分类，首先需要构建规则文件，然后根据规则文件对输入数据进行计算并产出分类结果。

规则文件包括分类类别及该类别下对应的词列表和权重，针对当前专有名词可能是几个单词组合的词组的需求，我们增加了支持配置词组的功能，同时配置的词组会追加到分词的词典中，输入的数据进行分词处理及去停用词之后，依次与规则文件的每一类下的词列表进行位置关联并累积加权计算权重，最终给出整段输入数据所属的类别及概率。用户可以指定返回topN类概率最高的类别及概率。

(2)基于机器学习的分类方法

基于机器学习的分类方法，主要提供贝叶斯网络、朴素贝叶斯和支撑向量机三种文本分类算法。

贝叶斯分类基于贝叶斯定理，在已知某条件下的概率，计算两条件交换后的概率；朴素贝叶斯分类是采用属性条件独立性假设的条件下的生成模型分类；支持向量机是通过核函数将低位空间线性不可分的样本映射到高维线性可分空间的方法；

机器学习方法是有监督的学习，需要对待分类数据标注标签，然后对带有标签的数据进行训练，训练结果评估符合需求后，可以对同类数据进行批量自动打标签；

分类模型的效果评估使用准确率、召回率和F_1-score,如下所示。

其中，tp：预测是正确的正样本；fp：预测是错误的正样本；fn：预测是错误的负样本；

分类建模之后可以对文本进行自动打标签，支持标签分布统计；

步骤45：关联分析

如附图4所示，根据已经构建的知识图谱，对待分析的项目产出关系图，用户直接输入待分析的Program或者Project相关信息，可以产出与该信息的结点与其关联的结点，输入ProgramID之后，可以查看不同的关联关系，为了便于分析，我们提供关联关系选择的功能，用户可以选择自己关注的关联关系，查看对应的图谱，如输入ProgramID＝PE0602785A，选择转移来自关系之后，可以产出关联图谱。

利用本发明所述的技术方案，或本领域的技术人员在本发明技术方案的启发下，设计出类似的技术方案，而达到上述技术效果的，均是落入本发明的保护范围。

Claims

1.一种基于知识图谱的项目预算分析方法及系统，其特征在于，所述项目预算分析方法包括以下步骤：

步骤3：知识存储：将抽取的知识信息存入图数据库；

2.如权利要求1所述的一种基于知识图谱的项目预算分析方法及系统，其特征在于，所述步骤2包括以下步骤：

3.如权利要求1所述的一种基于知识图谱的项目预算分析方法及系统，其特征在于，所述步骤4包括以下步骤：

步骤42：新词识别：产出新得一年会出现的新术语；

4.如权利要求1所述的一种基于知识图谱的项目预算分析方法及系统，其特征在于，所述项目预算分析系统包括：数据源层、数据管理及存储层、数据分析层、应用服务层四部分，其中数据源层主要包括预算不同类别的文件，通过数据解析和抽取形成结构化数据，存储到数据库中；数据管理存储层包括各类预算数据的存储和训练模型配置、训练语料配置、收藏夹配置、项目编号配置、数据表头配置、分类配置、权限菜单系统配置管理功能；数据分析层主要包括数据分析引擎和全文检索引擎；所述应用服务层包括预算数据检索、数据分析可视化、预算数据分析、原始文件浏览、成果报告浏览。

5.如权利要求4所述的一种基于知识图谱的项目预算分析方法及系统，其特征在于，所述数据分析引擎包括数据分类、关联分析、文本对比、新词识别、词频统计、聚类分析、数据抽取及自助可视化统计分析；所述全文检索引擎包括基础检索、高级检索及检索库的维护。