CN114428861A

CN114428861A - 一种企业政策智能解读方法、系统、设备及存储介质

Info

Publication number: CN114428861A
Application number: CN202210103057.9A
Authority: CN
Inventors: 郝亚锋; 陈永光; 万近况; 吴莉; 张涛
Original assignee: Shaanxi Zhiyin Technology Co ltd; Shaanxi Coal Industry Co ltd
Current assignee: Shaanxi Zhiyin Technology Co ltd; Shaanxi Coal Industry Co ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-03

Abstract

本发明公开了一种企业政策智能解读方法、系统、设备及存储介质，实时获取项目信息和政策发布网站发布的政策信息；对语料库进行词向量训练得到词向量模型；从政策信息和项目信息中提取候选关键词，使用词向量模型将提取到的候选关键词向量化，输入至聚类模型中，提取出最终关键词；提取政策信息和项目信息的摘要；将政策信息和项目信息的最终关键词、摘要和标题分别进行信息融合，计算信息融合后两者的相似度匹配值；将与项目相关的政策信息按相似度匹配值的高低排序进行展示。目的是提高政策解读的及时性、准确性和方便性，以期降低企业成本。

Description

一种企业政策智能解读方法、系统、设备及存储介质

技术领域

本发明属于语言处理领域，涉及一种企业政策智能解读方法、系统、设备及存储介质。

背景技术

企业项目的开展离不开地方政府和相关行业协会政策的指导，目前普遍应用的政策解读方法和系统，主要还是依赖人工来获取政策信息，并将解读出来的信息进行人工分类、存储、推送。使用人工来进行政策解读会存在较多的问题，比如：需要耗费大量人力成本；无法保证政策获取的及时性；主观性较强，推送准确率不高；等等。这导致当前政策解读系统下无法做到政策获取、分析、解读、匹配的及时性和自动化，企业无法及时获取开展项目所需要的相关政策信息。

同时，市面上也存在为企业提供政策解读服务的科技公司，这些公司利用大数据分析和自然语言处理技术，从政府网站抓取政策信息，对政策原文内容进行自然语言解读和匹配，开放系统给企业，让企业自行进行检索。虽然这种方式能够解决人工政策解读的不足，但仍然存在一些不足：投入成本较高，一些企业无力向科技公司支付服务费用；算法的研制、数据的维护以及训练都需要投入大量的人力物力以及原始数据才能保证结果的准确性。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种企业政策智能解读方法、系统、设备及存储介质，提高政策解读的及时性、准确性和方便性，同时降低企业成本。

为达到上述目的，本发明采用以下技术方案予以实现：

一种企业政策智能解读方法，包括以下步骤；

S1，实时获取项目信息和政策发布网站发布的政策信息，获取内容包括政策标题和项目标题；

S2，对语料库进行词向量训练得到词向量模型；

S3，从政策信息和项目信息中提取候选关键词，使用词向量模型将提取到的候选关键词向量化，输入至聚类模型中，提取出最终关键词；

S4，从政策信息和项目信息中提取政策信息和项目信息的摘要；

S5，将政策信息和项目信息的最终关键词、摘要和标题分别进行信息融合，计算信息融合后两者的相似度匹配值；

S6，将与项目相关的政策信息按相似度匹配值的高低排序进行展示。

优选的，S1中，使用网络爬虫实时获取政策发布网站发布的政策信息，政策信息包括政策标题、政策内容、发布时间、发布单位和文章链接。

优选的，S2包括以下步骤：

S2.1，中文分词，采用Jieba工具包对语料库进行中文分词，得到语料库分词后的文件；

S2.2，采用word2vec模型对料库分词后的文件向量化，得到词向量模型。

优选的，S3包括以下步骤：

S3.1，政策信息和项目信息，经过预处理后采用IF-IDF模型提取候选关键词，预先设置候选关键词个数为20。

S3.2，使用词向量模型将提取到的候选关键词向量化，得到候选关键词词向量矩阵。

S3.3，将候选关键词词向量矩阵送入KMeans模型，模型聚类中心设置为1个，聚类后选择最优的10个关键词作为文本信息的最终关键词。

优选的，S4中，采用Hanlp的自动摘要方法提取政策信息和项目信息的摘要。

优选的，S5中，采用拼接的方法将政策信息和项目信息的最终关键词、摘要和标题进行信息融合，将融合后的信息向量化，然后采用余弦相似度算法计算相似度匹配值，每一个政策信息和项目信息在计算相似度后得到一条对应的记录。

一种企业政策智能解读的系统，包括：

信息获取模块，用于实时获取项目信息和政策发布网站发布的政策信息，获取内容包括政策标题和项目标题；

词向量训练模块，用于对语料库进行词向量训练得到词向量模型；

最终关键词提取模块，用于从政策信息和项目信息中提取候选关键词，使用词向量模型将提取到的候选关键词向量化，输入至聚类模型中，提取出最终关键词；

摘要提取模块，用于从政策信息和项目信息中提取政策信息和项目信息的摘要；

相似度计算模块，用于将政策信息和项目信息的最终关键词、摘要和标题分别进行信息融合，计算信息融合后两者的相似度匹配值；

政策展示模块，用于将与项目相关的政策信息按相似度匹配值的高低排序进行展示。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述企业政策智能解读方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述企业政策智能解读方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明提出了将最终关键词、摘要和标题联合分析的方法，对整个文本信息的概括更加准确，间接修正了某一部分的误差，解决了人工政策解读方法的成本高、准确率低等不足，提高政策解读的及时性、准确性和方便性。提出了仅使用少量原始数据就可以保证政策解读准确性的新方法。

进一步，采用Hanlp的自动摘要方法和KMeans聚类相结合的算法，提高了政策解读的准确性。

附图说明

图1为本发明的解读方法流程图；

图2为本发明的信息获取流程图；

图3为本发明的词向量训练流程图；

图4为本发明的最终关键词提取流程图；

图5为本发明的摘要提取流程图；

图6为本发明的相似度计算流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和／或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，为本发明所述的企业政策智能解读方法，包括以下步骤。

1，政策信息获取：使用网络爬虫实时获取政策发布网站发布的政策信息，包括政策标题、政策内容、发布时间、发布单位、文章链接等，将获取到的信息经过预处理后存入数据库中。

如图2所示，处理流程如下：

1.1，发送请求，通过Scrapy引擎向目标网站发送request请求。

1.2，获取页面原始数据，通过Scrapy引擎接收目标网站的response响应数据。

1.3，数据预处理，使用xpath、正则等方式处理网页响应数据。

1.4，数据保存，将数据保存到数据库。

2.词向量训练：词向量训练模型采用word2vec模型，系统默认采用wiki公开中文语料库进行训练使用得到词向量，用于将候选关键词向量化。可以采用企业领域相关的语料库进行训练，语料库格式为txt格式。

如图3所示，处理流程如下：

2.1，中文分词，采用Jieba工具包对语料库进行中文分词，得到语料库分词后的文件。

2.2，词向量训练，采用word2vec模型对料库分词后的文件向量化，得到词向量文件。

3.关键词提取，如图4所示，处理流程如下：

3.1，分别从数据库中获取政策信息和项目信息，经过预处理后采用IF-IDF模型提取候选关键词，预先设置候选关键词个数为20。

3.2，使用词向量模型将提取到的候选关键词向量化，得到候选关键词词向量矩阵。

3.3将候选关键词词向量矩阵送入KMeans模型，模型聚类中心设置为1个，聚类后选择最优的10个关键词作为文本信息的关键词，得到最终关键词后存入数据库中。

4.摘要提取：分别从数据库中获取政策信息和项目信息，采用Hanlp工具包下的extractSummary自动摘要方法提取政策信息和项目信息的摘要，并将其存入数据库中。

如图5所示，处理流程如下：

4.1获取信息，分别从数据库中获取政策信息和项目信息。。

4.2采用Hanlp工具包下extractSummary算法，自动提取摘要信息.

4.3将要信息存入数据库。

5.相似度计算：从数据库中获取政策信息和项目信息的关键词、摘要、标题，经过预处理后采用拼接的方法将三部分信息进行融合，之后采用余弦相似度算法计算相似度匹配值。每一个项目和政策在计算相似度后得到一条对应的记录，将其存入数据库中。

相似度计算采用余弦相似度算法进行分析，余弦相似度最常见的应用就是计算文本相似度。将两个文本根据他们的关键词，建立两个向量，计算这两个向量的余弦值，就可以知道两个文本在统计学方法中他们的相似度情况。

如图6所示，处理流程如下：

5.1从数据库中获取政策信息和项目信息的关键词、摘要、标题；

5.2经过预处理后采用拼接的方法将三部分信息进行融合；

5.3将融合后的信息关键词向量化；

5.4采用余弦相似度算法计算相似度匹配值；

5.5每一个项目和政策在计算相似度后得到一条对应的记录，将其存入数据库中。

6.数据展示：在项目信息系统中，按相似度匹配值的高低排序进行展示，用户可以查看到与项目相关的政策信息，点击对应查看按钮跳转到政策源网站。

上述方法的详细流程为：

1.政策爬取

网络爬虫将指定单位的政策信息进行爬取，经过预处理后将政策信息存入数据库中。采用Scrapy框架建立爬虫。spiders/spider.py：放置爬虫代码的文件；items.py：保存爬取到的数据的容器，其使用方法和python字典类似；middlewares.py：中间件；pipelines.py：配置数据库，用于执行保存数据的操作；settings.py：配置文件。

2.词向量训练

采用维基百科官方语料库进行词向量训练，语料库原始文件为xml格式，通过格式转换、简繁字体转换等预处理，生成语料库语料库文件。用户可以采用自己的语料库进行词向量的训练，格式为txt格式。项目采用Jieba工具包进行分词，以维基百科语料库为例，语料库文件为“wiki.zh.simp.txt”，分词后的文件保存为“wiki.zh.simp.seg.txt”。采用gensim工具包下的Word2Vec工具训练词向量。以维基百科语料库为例，语料库分词后的文件为“wiki.zh.simp.seg.txt”，训练后的词向量模型文件保存为“wiki.zh.text.model”，词向量文件保存为“wiki.zh.text.vector”。词向量文件生成后，请在项目根目录下的setting.py内配置WORD_VECTOR属性，此属性指向保存在JiebaKeyword/WordVector/data目录下的词向量文件。

3.关键词提取

采用Jieba工具包下的tfidf提取20个候选关键词，将候选关键词通过词向量模型向量化后送入KMeans模型聚类，得到最终的关键词。get_words_vec.py文件用来通过词向量文件将候选关键词向量化，KMeans.py文件使用sklearn工具包内的KMeans来聚类，提取最终的关键词。

最终提取的关键词个数，需要配置在根目录下的settings.py文件内的属性topK；通过allowPOS属性可以指定提取关键词的词性，默认为10，即最终提取的关键词个数为10个；通过ANALYSIS_YEARS属性可以指定需要进行分析的信息的年份，默认为3，即分析近三年的信息。analysis_keywords.py文件用于提取项目和政策信息的关键词，process_data.py文件用于从数据库中读取相应字段的数据。

4.摘要提取

采用Hanlp工具包下的extractSummary提取摘要。get_class.py文件用于调用Hanlp工具包下的extractSummary方法，process_data.py文件用于从数据库中读取相应字段的数据，analysis_class.py文件用于提取项目和政策信息的摘要。

5.相似度计算

采用余弦相似度算法进行分析。similarity.py文件用于构建余弦相似度算法；analysis_similarity.py文件用于对项目信息和政策信息进行相似度分析，包括按关键词分析、按摘要分析、按标题分析和联合分析，默认采用联合分析方法；process_data.py文件用于从数据库中读取相应字段的数据。

构建了四种相似度计算方法，分别为：按关键词分析、按摘要分析、按标题分析和联合分析方法。联合分析方法是指将关键词、摘要、标题进行拼接，利用三方面的信息计算最终的相似度。

使用某一方面的数据进行分析，有时会导致原本关联度较高的项目和政策的相似度较低，通过分析认为某一部分数据的提取可能存在误差。采用联合分析的方法，对整个文本信息的概括更加准确，间接修正了某一部分的误差，更能体现出两者的关系。

6.数据展示

在项目信息系统中，按相似度匹配值的高低排序进行展示，用户可以查看到与项目相关的政策信息，点击对应查看按钮跳转到政策源网站。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明再一个实施例中，提供了一种企业政策智能解读系统，该企业政策智能解读系统可以用于实现上述企业政策智能解读方法，具体的，该企业政策智能解读包括信息获取模块、词向量训练模块、最终关键词提取模块、摘要提取模块、相似度计算模块以及政策展示模块。

其中，信息获取模块用于实时获取项目信息和政策发布网站发布的政策信息，获取内容包括政策标题和项目标题；词向量训练模块用于对语料库进行词向量训练得到词向量模型；最终关键词提取模块用于从政策信息和项目信息中提取候选关键词，使用词向量模型将提取到的候选关键词向量化，输入至聚类模型中，提取出最终关键词；摘要提取模块用于从政策信息和项目信息中提取政策信息和项目信息的摘要；相似度计算模块用于将政策信息和项目信息的最终关键词、摘要和标题分别进行信息融合，计算信息融合后两者的相似度匹配值；政策展示模块用于将与项目相关的政策信息按相似度匹配值的高低排序进行展示。

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于企业政策智能解读方法的操作，包括S1，实时获取项目信息和政策发布网站发布的政策信息，获取内容包括政策标题和项目标题；S2，对语料库进行词向量训练得到词向量模型；S3，从政策信息和项目信息中提取候选关键词，使用词向量模型将提取到的候选关键词向量化，输入至聚类模型中，提取出最终关键词；S4，从政策信息和项目信息中提取政策信息和项目信息的摘要；S5，将政策信息和项目信息的最终关键词、摘要和标题分别进行信息融合，计算信息融合后两者的相似度匹配值；S6，将与项目相关的政策信息按相似度匹配值的高低排序进行展示。

再一个实施例中，本发明还提供了一种计算机可读存储介质（Memory），所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关企业政策智能解读方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：S1，实时获取项目信息和政策发布网站发布的政策信息，获取内容包括政策标题和项目标题；S2，对语料库进行词向量训练得到词向量模型；S3，从政策信息和项目信息中提取候选关键词，使用词向量模型将提取到的候选关键词向量化，输入至聚类模型中，提取出最终关键词；S4，从政策信息和项目信息中提取政策信息和项目信息的摘要；S5，将政策信息和项目信息的最终关键词、摘要和标题分别进行信息融合，计算信息融合后两者的相似度匹配值；S6，将与项目相关的政策信息按相似度匹配值的高低排序进行展示。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

应该理解，以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述，在所提供的示例之外的许多实施例和许多应用对本领域技术人员来说都将是显而易见的。因此，本教导的范围不应该参照上述描述来确定，而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。出于全面之目的，所有文章和参考包括专利申请和公告的公开都通过参考结合在本文中。在前述权利要求中省略这里公开的主题的任何方面并不是为了放弃该主体内容，也不应该认为申请人没有将该主题考虑为所公开的发明主题的一部分。

Claims

1.一种企业政策智能解读方法，其特征在于，包括以下步骤；

S2，对语料库进行词向量训练得到词向量模型；

2.根据权利要求1所述的企业政策智能解读方法，其特征在于，S1中，使用网络爬虫实时获取政策发布网站发布的政策信息，政策信息包括政策标题、政策内容、发布时间、发布单位和文章链接。

3.根据权利要求1所述的企业政策智能解读方法，其特征在于，S2包括以下步骤：

4.根据权利要求1所述的企业政策智能解读方法，其特征在于，S3包括以下步骤：

5.根据权利要求1所述的企业政策智能解读方法，其特征在于，S4中，采用Hanlp的自动摘要方法提取政策信息和项目信息的摘要。

6.根据权利要求1所述的企业政策智能解读方法，其特征在于，S5中，采用拼接的方法将政策信息和项目信息的最终关键词、摘要和标题进行信息融合，将融合后的信息向量化，然后采用余弦相似度算法计算相似度匹配值，每一个政策信息和项目信息在计算相似度后得到一条对应的记录。

7.一种企业政策智能解读的系统，其特征在于，包括：

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述企业政策智能解读方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任意一项所述企业政策智能解读方法的步骤。