CN111813890B

CN111813890B - 一种基于大数据的政策画像ai建模系统及方法

Info

Publication number: CN111813890B
Application number: CN202010710723.6A
Authority: CN
Inventors: 毛善奇; 吕骅; 王佳
Original assignee: Jiangsu Hongchuang Information Technology Co ltd
Current assignee: Jiangsu Hongchuang Information Technology Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2021-12-07
Anticipated expiration: 2040-07-22
Also published as: CN111813890A; WO2022016561A1

Abstract

本发明提供一种基于大数据的政策画像AI建模系统及方法，包括：大数据模块，用于结构化存储所有的政策样本数据；检索模块，用于政策画像的快速检索；政策抓取模块，用于政策信息的自动化抓取；画像模块，用于政策原文处理、政策画像样本训练、画像建模、画像纠错和画像算法管理；系统管理模块，用于用户和功能的权限管理、交互展示及大屏视觉展示；消息中间件，用于上述各个模块的消息信息互通。本发明快速获取国家各级政府颁布的政策原文，并能够解读政策的关键信息，提高工作效率，准确贯彻执行国家政策精神。

Description

一种基于大数据的政策画像AI建模系统及方法

技术领域

本发明属于数据分析技术领域，具体涉及一种基于大数据的政策画像AI建模系统及方法。

背景技术

目前，各级地方政府对于国家政策的获取与解读均使用人工方式来进行，往往需要耗费大量的人力物力来搜集、整理并解读政策文件，如今各级政府的政策文件层出不穷，面对浩如烟海的大量政策信息，急需利用自动化的方式来自动获取政策原文，并进行政策关键信息的智能化快速解读，以便政府相关部门、企业和人民群众及时、准确了解国家最新政策信息，正确领会政策精神，以保证政策文件有效地贯彻执行。

发明内容

本发明的目的是提供一种基于大数据的政策画像AI建模系统及方法，快速获取国家各级政府颁布的政策原文，并能够解读政策的关键信息，提高工作效率，准确贯彻执行国家政策精神。

本发明提供了如下的技术方案：

一种基于大数据的政策画像AI建模系统，包括：

大数据模块，用于结构化存储所有的政策样本数据；

检索模块，用于政策画像的快速检索；

政策抓取模块，用于政策信息的自动化抓取；

画像模块，用于政策原文处理、政策画像样本训练、画像建模、画像纠错和画像算法管理；

系统管理模块，用于用户和功能的权限管理、交互展示及大屏视觉展示；

消息中间件，用于上述各个模块的消息信息互通；

所述政策抓取模块用于配置政策发布地址、抓取范围、周期和时间点，并开启政策原文获取；

所述画像模块包括原文处理引擎、政策画像样本训练引擎、画像建模引擎、画像纠错模块和画像算法管理模块；所述原文处理引擎用于对政策原文进行语义分析并通过分词拆解原文，经过过滤库过滤掉非元数据关键词，提取所有可能是针对企业或人的元数据关键词，存入所述大数据模块样本库；政策画像样本训练引擎，用于计算元数据关键词的相关性，优化政策关键词库；画像建模引擎，用于提取出类别元数据关键词，建立政策的分类项，并提取出匹配元数据关键词，语义获取关键词属性，建立政策的匹配项，完成政策画像建立；画像纠错模块用于整健康度低的匹配条款、类别元数据，更新政策画像；画像算法管理模块用于管理运行上述画像模块。

一种基于大数据的政策画像AI建模方法，包括以下步骤：

配置政策任务，进行政策原文自动获取；

对政策原文进行语义分析，并通过分词拆解原文，经过过滤库过滤掉非元数据关键词，提取所有可能是针对企业或人的元数据关键词，存入大数据模块样本库；

通过样本训练计算元数据关键词的相关性，优化政策关键词库；

画像建模，提取出类别元数据关键词，建立政策的分类项，并提取出匹配元数据关键词，语义获取关键词属性，建立政策的匹配项，完成政策画像建立；

同时，将政策画像存入画像检索和索引建立队列中进行展示；

调整健康度低的匹配条款、类别元数据进行画像纠错，更新政策画像。

优选的，政策原文自动获取包括以下步骤：

S1.1：配置抓取任务，任务的内容包含网页URL、任务执行周期、任务执行时间点，任务告警通知；

S1.2：引擎根据任务执行时间按时启动；

S1.3：首先根据任务属性中的URL获取网页信息，根据URL判断是否捕获过，未捕获则把该政策原文放入政策原文队列中；

S1.4：基于启发式算法，以空间模型提取关键词，根据反比文档频率计算出关键词的权重，预测下一步处理链接；

S1.5：使用下一步处理链接执行S1.3-S.14，直到所有链接都浏览完毕，完成自动获取。

优选的，对政策原文进行雨衣分析为基于语义和大数据的解读方法，包括以下步骤：

S2.1：从政策原文队列中获取待处理原文；

S2.2：基于隐含马尔可夫模型和维特比算法拆解原文词汇，获取该原文词汇；

S2.3：对提取的词汇，基于大数据样本库中的无效词汇库采取余弦相似度算法进行过滤；

S2.4：基于已有的政策原文模型，判断是否为有效政策原文，无效则终止；

S2.5：有效词汇基于大数据样本库中的关键词库存进行筛选，把非关键词词汇录入大数据样本库；

S2.6：政策原文与有效词汇存入画像处理队列中。

优选的，样本训练即关键词机器自学习，包括以下步骤:

S3.1：从样本库中取出新抓取政策的非关键词；

S3.2：采用flink框架，基于自组法模型和TF-IDF打分算法，计算出这批非关键词最新得分，更新样本库；

S3.3：根据内置模型：分值提高维度、关联政策数量、关联的政策之间的相关度来确定该非关键词转变为关键词；

S3.4：获取新的关键词涉及到的政策，把政策画像存入画像检索建立队列中。

优选的，画像建模即政策原文的属性分析，包括以下步骤:

S4.1：从画像原文队列中获取原文与词汇信息；

S4.2：基于关键词库，建立该政策原文的关键词；

S4.3：从关键词列表中获取匹配关键词，以及匹配的样本；

S4.4：从原文匹配关键词前后摘取一定文字，基于匹配样本通过KMP算法，提取匹配值；

S4.5：如提取不到匹配值，则该画像提取暂停告警，由人为介入，添加匹配样本，再次启动提取；

S4.5：政策画像建立完成，存入画像检索建立队列中。

优选的，政策画像检索建立，包括以下步骤：

S5.1：从画像检索建立队列中获取画像信息；

S5.2：判断是政策新增还是政策修订，新增则插入数据，修订则修改数据；

S5.3：通过画像分类元数据建立政策原文的分类检索条件；

S5.4：通过画像匹配元数据建立政策原文的匹配检索条件。

优选的，画像纠错包括通过管理页面修正政策画像和基于机器自学习自动化纠错；其步骤为：

通过管理页面修正政策画像包括以下步骤：

S6.1：新增、删除分类元数据；

S6.2：新增、删除匹配元数据与匹配样本；

S6.3：获取涉及到修改的元数据的政策画像信息，更新画像信息，并存入画像索引建立队列中；

基于机器自学习自动化纠错包括以下步骤：

S7.1：根据元数据健康模型：建立时间、涉及政策的相关度、关键词出错率、后台审核通过等，筛选出需要演算的元数据；

S7.2：对元数据以准确率、精确率、召回率和F1-Measure为模型，计算该元数据在所有相关政策画像的打分；

S7.3：低于阈值分值的元数据提交到后台人工审核是否需要修正；

S7.4：获取涉及到修改的元数据的政策画像信息，更新画像信息，并存入画像索引建立队列中。

本发明的有益效果是：本发明提供了基于大数据技术的国家政策原文检索、语义分析功能，能够快速准确的从国家权威机构获取最新国家政策，并能够通过语义分析拆解政策原文，优化政策关键信息，自动进行政策信息的标签化管理，建立政策文件的分类检索机制，提高政策获取与解读的效率及准确性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明结构原理图。

具体实施方式

如图1所示，一种基于大数据的政策画像AI建模系统，包括：

大数据模块，用于结构化存储所有的政策样本数据；

检索模块，用于政策画像的快速检索；

政策抓取模块，用于政策信息的自动化抓取；

消息中间件，用于上述各个模块的消息信息互通。

具体的，政策抓取模块配置政策发布地址，抓取范围、周期、时间点，开启政策原文获取；画像模块的原文处理引擎，对政策原文进行语义分析，通过分词拆解原文，通过过滤库过滤掉非元数据关键词，提取所有可能是针对企业/人的元数据关键词，存入大数据模块样本库；通过样本训练引擎计算这些关键词的相关性，优化政策关键词库；通过建模引擎提取出类别元数据关键词，建立政策的分类；通过建模引擎提取出匹配元数据关键词，语义获取关键词属性，建立政策的匹配；通过搜索模块把政策画像存入；通过政策画像纠错模块调整健康度低的匹配条款、类别元数据，更新政策画像。

如图1所示，一种基于大数据的政策画像AI建模方法，包括以下步骤：

配置政策任务，进行政策原文自动获取；

具体的，1)政策抓取为大数据采集方法，其步骤：

S1.1配置抓取任务，任务的内容包含网页URL、任务执行周期、任务执行时间点，任务告警通知等；

S1.2引擎根据任务执行时间按时启动；

S1.3首先根据任务属性中的URL获取网页信息,根据url判断是否捕获过，未捕获则把该政策原文放入政策原文队列中；

S1.4基于启发式算法，以空间模型提取关键词，根据反比文档频率计算出关键词的权重，预测下一步处理链接；

S1.5使用下一步处理链接执行S1.3-S.14，直到所有链接都浏览完毕。

2)原文分析为基于语义和大数据的政策解读方法，其步骤：

S2.1从政策原文队列中获取待处理原文；

S2.2基于隐含马尔可夫模型(Hidden Markov Model)和维特比算法(Viterbi)算法拆解原文词汇，获取该原文词汇；

S2.3对提取的词汇，基于大数据样本库中的无效词汇库采取余弦相似度算法进行过滤；

S2.4基于已有的政策原文模型，判断是否有效政策原文，无效则终止；

S2.5有效词汇基于大数据样本库中的关键词库存进行筛选，把非关键词词汇录入大数据样本库；

S2.6政策原文与有效词汇存入画像处理队列中。

3)样本训练即关键词机器自学习，其步骤:

S3.1从样本库中取出新抓取政策的这批非关键词；

S3.2采用flink框架，基于自组法模型和TF-IDF打分算法，计算出这批非关键词最新得分，更新样本库；

S3.3根据内置模型：分值提高维度、关联政策数量、关联的政策之间的相关度等来确定该非关键词转变为关键词；

S3.4获取新的关键词涉及到的政策，把政策画像存入画像检索建立队列中，用于用户和功能的权限管理、交互展示及大屏视觉展示；

4)画像建模即政策原文的属性分析，其步骤:

S4.1从画像队列中获取原文与词汇信息；

S4.2基于关键词库，建立该政策原文的关键词；

S4.3从关键词列表中获取匹配关键词，以及匹配的样本；

S4.4从原文匹配关键词前后摘取一定文字，基于匹配样本通过KMP算法，提取匹配值；

S4.5如4.5提取不到匹配值，则该画像提取暂停告警，由人为介入，添加匹配样本，再次启动提取；

S4.5政策画像建立完成，存入画像检索建立队列中。

5)政策画像检索建立是以Elasticsearch引擎为基础，其步骤为：

S5.1从画像检索建立队列中获取画像信息；

S5.2判断是政策新增还是政策修订，新增则插入数据，修订则修改数据；

S5.3通过画像分类元数据建立政策原文的分类检索条件，例如：政策分类农业、加工业等；

S5.4通过画像匹配元数据建立政策原文的匹配检索条件，例如：企业补贴：高新、小型企业补贴10万；高新、大型企业补贴30万。

6)画像纠错之分手工纠错即通过管理页面修正政策画像，其步骤为：

S6.1新增、删除分类元数据；

S6.2新增、删除匹配元数据与匹配样本；

S6.3获取涉及到修改的元数据的政策画像信息，更新画像信息，并存入画像索引建立队列中，用于用户和功能的权限管理、交互展示及大屏视觉展示。

7)画像纠错之机器自学习纠错为自动化纠错方式，其步骤为：

S7.1根据元数据健康模型：建立时间、涉及政策的相关度、关键词出错率、后台审核通过等，筛选出需要演算的元数据；

S7.2对元数据以准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure为模型，计算该元数据在所有相关政策画像的打分；

S7.3低于阈值分值的元数据提交到后台人工审核是否需要修正；

S7.4获取涉及到修改的元数据的政策画像信息，更新画像信息，并存入画像索引建立队列中，用于用户和功能的权限管理、交互展示及大屏视觉展示。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的政策画像AI建模方法，其特征在于，包括：建模系统，所述建模系统包括：

大数据模块，用于结构化存储所有的政策样本数据；

检索模块，用于政策画像的快速检索；

政策抓取模块，用于政策信息的自动化抓取；

消息中间件，用于上述各个模块的消息信息互通；

所述画像模块包括原文处理引擎、政策画像样本训练引擎、画像建模引擎、画像纠错模块和画像算法管理模块；所述原文处理引擎用于对政策原文进行语义分析并通过分词拆解原文，经过过滤库过滤掉非元数据关键词，提取所有可能是针对企业或人的元数据关键词，存入所述大数据模块样本库；政策画像样本训练引擎，用于计算元数据关键词的相关性，优化政策关键词库；画像建模引擎，用于提取出类别元数据关键词，建立政策的分类项，并提取出匹配元数据关键词，语义获取关键词属性，建立政策的匹配项，完成政策画像建立；画像纠错模块用于调整健康度低的匹配条款、类别元数据，更新政策画像；画像算法管理模块用于管理运行上述画像模块；

建模方法，包括以下步骤：

配置政策任务，进行政策原文自动获取；

政策画像检索建立，包括以下步骤：

S5.1：从画像检索建立队列中获取画像信息；

S5.3：通过画像分类元数据建立政策原文的分类检索条件；

S5.4：通过画像匹配元数据建立政策原文的匹配检索条件；

画像建模即政策原文的属性分析，包括以下步骤:

S4.1：从画像原文队列中获取原文与词汇信息；

S4.2：基于关键词库，建立该政策原文的关键词；

S4.3：从关键词列表中获取匹配关键词，以及匹配的样本；

S4.5：政策画像建立完成，存入画像检索建立队列中；

调整健康度低的匹配条款、类别元数据进行画像纠错，更新政策画像；

画像纠错包括通过管理页面修正政策画像和基于机器自学习自动化纠错；其步骤为：

通过管理页面修正政策画像包括以下步骤：

S6.1：新增、删除分类元数据；

S6.2：新增、删除匹配元数据与匹配样本；

基于机器自学习自动化纠错包括以下步骤：

S7.1：根据元数据健康模型：建立时间、涉及政策的相关度、关键词出错率、后台审核通过，筛选出需要演算的元数据；

2.根据权利要求1所述的一种基于大数据的政策画像AI建模方法，其特征在于，政策原文自动获取包括以下步骤：

S1.2：引擎根据任务执行时间按时启动；

3.根据权利要求2所述的一种基于大数据的政策画像AI建模方法，其特征在于，对政策原文进行语义分析为基于语义和大数据的解读方法，包括以下步骤：

S2.1：从政策原文队列中获取待处理原文；

S2.6：政策原文与有效词汇存入画像处理队列中。

4.根据权利要求1所述的一种基于大数据的政策画像AI建模方法，其特征在于，样本训练即关键词机器自学习，包括以下步骤:

S3.1：从样本库中取出新抓取政策的非关键词；