CN116737968A

CN116737968A - 基于大数据的政策信息智慧管理平台

Info

Publication number: CN116737968A
Application number: CN202311022785.8A
Authority: CN
Inventors: 刘岩; 徐国金; 殷维香
Original assignee: Beijing Zhengkai Technology Co ltd
Current assignee: Beijing Zhengkai Technology Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-09-12
Anticipated expiration: 2043-08-15
Also published as: CN116737968B

Abstract

本发明涉及基于大数据的政策信息智慧管理平台，涉及数据处理技术领域，包括：政策收集模块，用于从多个目标网站获取多份样本政策文本文件；政策整理模块，用于对多份样本政策文本文件进行聚类，生成多个政策文本文件聚类簇；用户整理模块，用于获取多个样本用户的用户信息，对多个样本用户信息进行聚类，生成多个用户聚类簇，还用于建立表征多个政策文本文件聚类簇与多个用户聚类簇的关联关系的关系图谱；政策推送模块，用于基于关系图谱将新增政策文本文件推送给目标用户，基于关系图谱推送第一目标政策文件至新增用户，具有可以提供智能而精确的政策匹配服务的优点。

Description

基于大数据的政策信息智慧管理平台

技术领域

本发明涉及数据处理技术领域，尤其涉及基于大数据的政策信息智慧管理平台。

背景技术

企业发展是我国经济和社会发展的中流砥柱，为了支持企业的技术研发创新，政府会在公共服务平台和相关网站上发布各种各样的扶持政策。这些政策能够帮助企业快速发展，然而政策发布后企业通常无法清晰地判断自己是否满足申报要求，需要咨询相关工作人员；另外，政府也需要安排人力来处理大量咨询和政策申报的审核工作，面对这种情况，智能而精确的政策匹配能够有效地减少人力工作量，提升申报效率。

因此，需要提供基于大数据的政策信息智慧管理平台，用于提供智能而精确的政策匹配服务，减少大量咨询和政策申报的审核工作所需的人力工作量。

发明内容

本说明书实施例之一提供本发明提供了一种基于大数据的政策信息智慧管理平台，包括：政策收集模块，用于从多个目标网站获取多份样本政策文本文件，还用于从所述多个目标网站获取至少一份新增政策文本文件；政策整理模块，用于对所述多份样本政策文本文件进行聚类，生成多个政策文本文件聚类簇，还用于将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个；用户整理模块，用于获取多个样本用户的用户信息，对所述多个样本用户信息进行聚类，生成多个用户聚类，还用于获取至少一个新增用户的用户信息，并基于所述新增用户的用户信息将所述新增用户分类至所述多个用户聚类簇中的至少一个，还用于建立表征所述多个政策文本文件聚类簇与所述多个用户聚类簇的关联关系的关系图谱；政策推送模块，用于在所述政策收集模块将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个后，基于所述关系图谱将所述新增政策文本文件推送给目标用户，还用于在所述用户整理模块将所述新增用户分类至所述多个用户聚类簇中的至少一个后，基于所述关系图谱推送第一目标政策文件至所述新增用户。

更进一步地，所述政策收集模块从多个目标网站获取多份样本政策文本文件，包括：按照预设规则基于爬虫从所述至少一个目标网站获取至少一个初始第一URL；对所述至少一个初始第一URL进行筛选，获取至少一个待去重第一URL；去所述至少一个待去重第一URL进行去重，获取至少一个待下载第一URL；从所述至少一个待下载第一URL获取至少一个初始第二URL；对所述至少一个初始第二URL进行筛选，获取至少一个待下载第二URL；对所述至少一个待下载第一URL和所述至少一个待下载第二URL进行去重，获取至少一个目标URL；基于所述至少一个目标URL，获取所述多份样本政策文本文件。

更进一步地，所述政策整理模块对所述多份样本政策文本文件进行聚类，生成多个政策文本文件聚类簇，包括：对于每份所述样本政策文本文件，基于所述样本政策文本文件的标题，生成至少一个标题关键词；基于每份所述样本政策文本文件对应的至少一个标题关键词，对所述多份样本政策文本文件进行筛选，确定所述多份样本政策文本文件中的多份目标政策文本文件；对于每份所述目标政策文本文件，基于所述目标政策文本文件的正文，基于所述目标政策文本文件的至少一个正文关键词；基于每份所述样本政策文本文件对应的至少一个正文关键词，对所述多份目标政策文本文件进行聚类，生成所述多个政策文本文件聚类簇。

更进一步地，所述基于所述至少一个候选词对所述多份样本政策文本文件进行筛选，包括：基于独热编码将所述样本政策文本文件对应的标题关键词转换为数值型数据；基于Word2Vec模型将基于每个所述标题关键词对应的数值型数据生成所述样本政策文本文件对应的标题二维词矩阵，所述标题二维词矩阵由多个词向量构成；通过目标确定模型基于所述标题二维词矩阵及至少一个预设目标二维词矩阵，判断所述样本政策文本文件是否为所述目标政策文本文件。

更进一步地，所述至少一个正文关键词至少包括区域限定类关键词、适用对象限定类关键词及条件限定类关键词；所述政策整理模块基于每份所述样本政策文本文件对应的至少一个正文关键词，对所述多份目标政策文本文件进行聚类，生成所述多个政策文本文件聚类簇，包括：对于任意两份所述目标政策文本文件，基于每份所述目标政策文本文件的区域限定类关键词、适用对象限定类关键词及条件限定类关键词，计算两份所述目标政策文本文件的关键词相似度及关键词关联度；通过k-means聚类算法基于任意两份所述目标政策文本文件的关键词相似度及关键词关联度，对所述多份目标政策文本文件进行聚类，生成所述多个政策文本文件聚类簇。

更进一步地，所述政策整理模块将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个，包括：基于所述新增政策文本文件的标题，生成至少一个标题关键词；基于所述新增政策文本文件对应的至少一个标题关键词，判断是否对所述新增政策文本文件进行分类；当判断对所述新增政策文本文件进行分类时，基于所述新增政策文本文件的正文，基于所述新增政策文本文件的至少一个正文关键词；基于每个所述政策文本文件聚类簇的聚类中心对应的至少一个正文关键词及所述新增政策文本文件的至少一个正文关键词，将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个。

更进一步地，所述用户信息至少包括经营信息及资质信息，其中，所述经营信息至少包括位置信息、经营范围、注册金额、注册年限和年均收益，所述资质信息至少包括企业资质信息和人才信息；所述用户整理模块对所述多个样本用户信息进行聚类，生成多个用户聚类，包括：对于任意两个所述样本用户信息，基于每个所述样本用户的经营信息及资质信息，计算任意两个所述样本用户之间的用户相似度；通过k-means聚类算法基于两个所述样本用户之间的用户相似度，对所述多个样本用户信息进行聚类，生成所述多个用户聚类。

更进一步地，所述用户整理模块基于所述新增用户的用户信息将所述新增用户分类至所述多个用户聚类簇中的至少一个，包括：基于所述新增用户的经营信息及资质信息及每个所述用户聚类簇的聚类中心对应的经营信息及资质信息，计算所述新增用户与每个所述用户聚类簇的聚类中心的用户相似度；基于所述新增用户与每个所述用户聚类簇的聚类中心的用户相似度，将所述新增用户分类至所述多个用户聚类簇中的至少一个。

更进一步地，所述用户整理模块建立表征所述多个政策文本文件聚类簇与所述多个用户聚类簇的关联关系的关系图谱，包括：建立预设关联规则；基于所述预设关联规则、每个所述个政策文本文件聚类簇的聚类中心画像及每个所述用户聚类簇的聚类中心画像，建立所述关系图谱。

更进一步地，所述系统还包括政策查询模块，用于接收查询用户发起的政策查询请求，基于所述政策查询请求，推送第二目标政策文件至所述查询用户。

相比于现有技术，本说明书提供的基于大数据的政策信息智慧管理平台，至少具备以下有益效果：

1、通过获取多份政策文本文件和多个用户的信息，建立多个政策文本文件聚类簇和多个用户聚类簇，并进一步对多个政策文本文件聚类簇和多个用户聚类簇的关联关系进行分析，建立表征多个政策文本文件聚类簇与多个用户聚类簇的关联关系的关系图谱，实现政策文本文件的自动匹配和推送，从而实现智能而精确的政策匹配服务，减少大量咨询和政策申报的审核工作所需的人力工作量；

2、基于标题关键词对多份样本政策文本文件进行筛选，避免了对无效政策文本文件的聚类，在此基础之上，基于每份样本政策文本文件对应的至少一个正文关键词，对多份目标政策文本文件进行聚类，从而使得确定的多个政策文本文件聚类簇更加准确。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是本申请一实施例中示出的基于大数据的政策信息智慧管理平台的模块图；

图2是本申请一实施例中示出的获取多份样本政策文本文件的流程图；

图3是本申请一实施例中示出的生成多个政策文本文件聚类簇的流程图；

图4是本申请一实施例中示出的将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个的流程图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。

图1是本申请一实施例中示出的基于大数据的政策信息智慧管理平台的模块图，如图1所示，基于大数据的政策信息智慧管理平台可以包括政策收集模块、政策整理模块、用户整理模块、政策推送模块及政策查询模块。

政策收集模块可以用于从多个目标网站获取多份样本政策文本文件，

图2是本申请一实施例中示出的获取多份样本政策文本文件的流程图，如图2所示，在一些实施例中，政策收集模块从多个目标网站获取多份样本政策文本文件，包括：

按照预设规则基于爬虫从至少一个目标网站获取至少一个初始第一URL；

对至少一个初始第一URL进行筛选，获取至少一个待去重第一URL；

去至少一个待去重第一URL进行去重，获取至少一个待下载第一URL；

从至少一个待下载第一URL获取至少一个初始第二URL；

对至少一个初始第二URL进行筛选，获取至少一个待下载第二URL；

对至少一个待下载第一URL和至少一个待下载第二URL进行去重，获取至少一个目标URL；

基于至少一个目标URL，获取多份样本政策文本文件。

其中，目标网站可以是具备权威性的网线，例如，地方政府官网等。预设规则可以为政策收集模块从至少一个目标网站获取多份样本政策文本文件相关的规则。例如，预设规则可以为只从至少一个目标网站获取发布时间距离当前时间五年以内的多份样本政策文本文件。

政策收集模块还可以用于从多个目标网站获取至少一份新增政策文本文件。

可以理解的，政策收集模块还可以对多个目标网站新发布的政策文本文件进行监控，新增政策文本文件即为多个目标网站在获取多份样本政策文本文件后发布的政策文本文件。

政策整理模块可以用于对多份样本政策文本文件进行聚类，生成多个政策文本文件聚类簇。

图3是本申请一实施例中示出的生成多个政策文本文件聚类簇的流程图，如图3所示，在一些实施例中，政策整理模块对多份样本政策文本文件进行聚类，生成多个政策文本文件聚类簇，包括：

对于每份样本政策文本文件，

基于样本政策文本文件的标题，生成至少一个标题关键词；

基于每份样本政策文本文件对应的至少一个标题关键词，对多份样本政策文本文件进行筛选，确定多份样本政策文本文件中的多份目标政策文本文件；

对于每份目标政策文本文件，

基于目标政策文本文件的正文，基于目标政策文本文件的至少一个正文关键词；

基于每份样本政策文本文件对应的至少一个正文关键词，对多份目标政策文本文件进行聚类，生成多个政策文本文件聚类簇。

在一些实施例中，政策整理模块基于至少一个候选词对多份样本政策文本文件进行筛选，包括：

基于独热编码将样本政策文本文件对应的标题关键词转换为数值型数据，其中，独热（one-hot）编码利用一个向量来表示一句话，这个向量的维数就是由原始句子切分后所得到的词语组成的语料库中字词的个数，这个向量只包含0或1这两个元素。例如，一个句子为“我喜欢香蕉”，在对句子进行切分之后，可以得到“我”、“喜欢”、“香蕉”这3组单词，那么利用独热（one-hot）编码转化成的向量维数度是3，可以观察到“属于”一词的编码向量为[0,1,0]，这句话经独热（one-hot）编码后的向量为：；

基于Word2Vec模型将基于每个标题关键词对应的数值型数据生成样本政策文本文件对应的标题二维词矩阵，标题二维词矩阵由多个词向量构成，二维词矩阵的每一行都表示不同的词向量，假设样本政策文本文件对应的标题关键词的个数为m，每个词是n维的词向量，那么，该二维矩阵的维度为m*n；

通过目标确定模型基于标题二维词矩阵及至少一个预设目标二维词矩阵，判断样本政策文本文件是否为目标政策文本文件。

预设目标二维词矩阵可以为由多个感兴趣关键词（例如，“优惠”、“扶持”、“奖励”等）对应的数值型数据生成的二维词矩阵。

目标确定模型可以为包括但不限于神经网络（Neural Networks，NN）、决策树（Decision Tree, DT）、线性回归（Linear Regression, LR）等一种或多种的组合等。

可以理解的，当目标确定模型判断标题二维词矩阵与至少一个预设目标二维词矩阵的相似度大于预设词矩阵相似度阈值时，判断样本政策文本文件为目标政策文本文件。

在一些实施例中，至少一个正文关键词至少包括区域限定类关键词（例如，上海市、四川省、北京市等）、适用对象限定类关键词（例如，小微企业、高新技术企业等）及条件限定类关键词（例如，“符合享受优惠政策的财务状况”、“符合享受优惠政策的纳税记录和申报情况”、“符合环保、安全、劳动用工等方面的要求等”等）。

在一些实施例中，政策整理模块基于每份样本政策文本文件对应的至少一个正文关键词，对多份目标政策文本文件进行聚类，生成多个政策文本文件聚类簇，包括：

对于任意两份目标政策文本文件，基于每份目标政策文本文件的区域限定类关键词、适用对象限定类关键词及条件限定类关键词，计算两份目标政策文本文件的关键词相似度及关键词关联度；

通过k-means聚类算法基于任意两份目标政策文本文件的关键词相似度及关键词关联度，对多份目标政策文本文件进行聚类，生成多个政策文本文件聚类簇。

具体的，政策整理模块可以先基于目标政策文本文件的标题关键词，确定目标政策文本文件的适用地理区域，根据目标政策文本文件的适用地理区域先将目标政策文本文件分为多组，可以理解的，当A区域属于B区域时，A区域对应的目标政策文本文件也被分到B区域对应的分组内。

对于每个分组，再进行聚类，确定每个分组包括的多个政策文本文件聚类簇。

在确定每个分组包括的多个政策文本文件聚类簇时，可以基于每份目标政策文本文件的区域限定类关键词、适用对象限定类关键词及条件限定类关键词，计算两份目标政策文本文件的关键词相似度及关键词关联度。具体的，可以基于以下公式计算两份目标政策文本文件的关键词相似度：

；

其中，为第m份政策文本文件和第n份政策文本文件之间的关键词相似度，/>为第m份政策文本文件的第i个正文关键词和第n份政策文本文件的第j个正文关键词之间的相似度，/>为第m份政策文本文件中的正文关键词的总个数，/>为第n份政策文本文件中的正文关键词的总个数，/>为预设权重。

；

其中，为第m份政策文本文件和第n份政策文本文件之间的关键词关联度，/>为第m份政策文本文件的第i个正文关键词和第n份政策文本文件的第j个正文关键词之间的关联度，/>为预设权重。

可以理解的，政策整理模块可以预先建立有知识图谱，该知识图谱可以用于记载任意两个正文关键词之间关联度，进行聚类时，可以直接从知识图谱中读取第m份政策文本文件的第i个正文关键词和第n份政策文本文件的第j个正文关键词之间的关联度。

政策整理模块还可以用于将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个。

图4是本申请一实施例中示出的将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个的流程图，如图4所示，在一些实施例中，政策整理模块将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个，包括：

基于新增政策文本文件的标题，生成至少一个标题关键词；

基于新增政策文本文件对应的至少一个标题关键词，判断是否对新增政策文本文件进行分类；

当判断对新增政策文本文件进行分类时，基于新增政策文本文件的正文，基于新增政策文本文件的至少一个正文关键词；

基于每个政策文本文件聚类簇的聚类中心对应的至少一个正文关键词及新增政策文本文件的至少一个正文关键词，将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个。

具体的，基于独热编码将新增政策文本文件对应的标题关键词转换为数值型数据，基于Word2Vec模型将基于每个标题关键词对应的数值型数据生成新增政策文本文件对应的标题二维词矩阵，标题二维词矩阵由多个词向量构成；

通过目标确定模型基于新增政策文本文件及至少一个预设目标二维词矩阵，判断新增政策文本文件是否为目标政策文本文件，当判断新增政策文本文件为目标政策文本文件时，需要对新增政策文本文件进行分类。

具体的，基于每个政策文本文件聚类簇的聚类中心对应的至少一个正文关键词及新增政策文本文件的至少一个正文关键词，计算新增政策文本文件的每一个正文关键词与聚类中心对应的每个正文关键词之间的相似度及关联度，进而计算新增政策文本文件与聚类中心的关键词相似度及关键词关联度，将新增政策文本文件分类至关键词相似度和关键词关联度的加权求和值最大的聚类中心对应的政策文本文件聚类簇中。

用户整理模块可以用于获取多个样本用户的用户信息，对多个样本用户信息进行聚类，生成多个用户聚类，

在一些实施例中，用户信息至少包括经营信息及资质信息，其中，经营信息至少包括位置信息、经营范围、注册金额、注册年限和年均收益，资质信息至少包括企业资质信息和人才信息。

在一些实施例中，用户整理模块对多个样本用户信息进行聚类，生成多个用户聚类，包括：

对于任意两个样本用户信息，基于每个样本用户的经营信息及资质信息，计算任意两个样本用户之间的用户相似度；

通过k-means聚类算法基于两个样本用户之间的用户相似度，对多个样本用户信息进行聚类，生成多个用户聚类。

在一些实施例中，可以基于以下公式计算任意两个样本用户之间的用户相似度：

；

其中，为第m个样本用户和第n个样本用户之间的用户相似度，为第m个样本用户和第n个样本用户在经营信息上的相似度，为第m个样本用户和第n个样本用户在企业资质信息上的相似度，为第m个样本用户和第n个样本用户在人才信息上的相似度，/>、、/>均为预设权重。

用户还可以用于获取至少一个新增用户的用户信息，并基于新增用户的用户信息将新增用户分类至多个用户聚类簇中的至少一个。

在一些实施例中，用户整理模块基于新增用户的用户信息将新增用户分类至多个用户聚类簇中的至少一个，包括：

基于新增用户的经营信息及资质信息及每个用户聚类簇的聚类中心对应的经营信息及资质信息，计算新增用户与每个用户聚类簇的聚类中心的用户相似度；

基于新增用户与每个用户聚类簇的聚类中心的用户相似度，将新增用户分类至多个用户聚类簇中的至少一个。

具体的，用户整理模块可以基于新增用户的经营信息及资质信息与每个用户聚类簇的聚类中心对应的经营信息及资质信息，计算新增用户与每个用户聚类簇的聚类中心的用户相似度，并将新增用户分类至用户相似度最大的聚类中心对应的用户聚类簇。

用户还可以用于建立表征多个政策文本文件聚类簇与多个用户聚类簇的关联关系的关系图谱。

在一些实施例中，用户整理模块建立表征多个政策文本文件聚类簇与多个用户聚类簇的关联关系的关系图谱，包括：

建立预设关联规则，例如，预设关联规则可以为当政策文本文件聚类簇的聚类中心画像中适用的区域和对象与用户聚类簇的聚类中心画像符合时，该政策文本文件聚类簇与该用户聚类簇存在关联关系；

基于预设关联规则、每个政策文本文件聚类簇的聚类中心画像及每个用户聚类簇的聚类中心画像，建立关系图谱。

政策推送模块可以用于在政策收集模块将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个后，基于关系图谱将新增政策文本文件推送给目标用户。

例如，基于关系图谱，将该新增政策文本文件推送与该新增政策文本文件所在的政策文本文件聚类簇存在关联关系的用户聚类簇中的用户（即目标用户）。

政策推送模块还可以用于在用户整理模块将新增用户分类至多个用户聚类簇中的至少一个后，基于关系图谱推送第一目标政策文件至新增用户。

例如，基于关系图谱，将与该新增用户所在的用户聚类簇存在关联关系的政策文本文件聚类簇中的政策文本文件推送该新增用户。

政策查询模块可以用于接收查询用户发起的政策查询请求，基于政策查询请求，推送第二目标政策文件至查询用户。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.基于大数据的政策信息智慧管理平台，其特征在于，包括：

政策收集模块，用于从多个目标网站获取多份样本政策文本文件，还用于从所述多个目标网站获取至少一份新增政策文本文件；

政策整理模块，用于对所述多份样本政策文本文件进行聚类，生成多个政策文本文件聚类簇，还用于将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个；

用户整理模块，用于获取多个样本用户的用户信息，对所述多个样本用户信息进行聚类，生成多个用户聚类，还用于获取至少一个新增用户的用户信息，并基于所述新增用户的用户信息将所述新增用户分类至所述多个用户聚类簇中的至少一个，还用于建立表征所述多个政策文本文件聚类簇与所述多个用户聚类簇的关联关系的关系图谱；

政策推送模块，用于在所述政策收集模块将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个后，基于所述关系图谱将所述新增政策文本文件推送给目标用户，还用于在所述用户整理模块将所述新增用户分类至所述多个用户聚类簇中的至少一个后，基于所述关系图谱推送第一目标政策文件至所述新增用户。

2.根据权利要求1所述的基于大数据的政策信息智慧管理平台，其特征在于，所述政策收集模块从多个目标网站获取多份样本政策文本文件，包括：

按照预设规则基于爬虫从所述至少一个目标网站获取至少一个初始第一URL；

对所述至少一个初始第一URL进行筛选，获取至少一个待去重第一URL；

去所述至少一个待去重第一URL进行去重，获取至少一个待下载第一URL；

从所述至少一个待下载第一URL获取至少一个初始第二URL；

对所述至少一个初始第二URL进行筛选，获取至少一个待下载第二URL；

对所述至少一个待下载第一URL和所述至少一个待下载第二URL进行去重，获取至少一个目标URL；

基于所述至少一个目标URL，获取所述多份样本政策文本文件。

3.根据权利要求2所述的基于大数据的政策信息智慧管理平台，其特征在于，所述政策整理模块对所述多份样本政策文本文件进行聚类，生成多个政策文本文件聚类簇，包括：

对于每份所述样本政策文本文件，基于所述样本政策文本文件的标题，生成至少一个标题关键词；

基于每份所述样本政策文本文件对应的至少一个标题关键词，对所述多份样本政策文本文件进行筛选，确定所述多份样本政策文本文件中的多份目标政策文本文件；

对于每份所述目标政策文本文件，基于所述目标政策文本文件的正文，基于所述目标政策文本文件的至少一个正文关键词；

基于每份所述样本政策文本文件对应的至少一个正文关键词，对所述多份目标政策文本文件进行聚类，生成所述多个政策文本文件聚类簇。

4.根据权利要求3所述的基于大数据的政策信息智慧管理平台，其特征在于，所述基于所述至少一个候选词对所述多份样本政策文本文件进行筛选，包括：

基于独热编码将所述样本政策文本文件对应的标题关键词转换为数值型数据；

基于Word2Vec模型将基于每个所述标题关键词对应的数值型数据生成所述样本政策文本文件对应的标题二维词矩阵，所述标题二维词矩阵由多个词向量构成；

通过目标确定模型基于所述标题二维词矩阵及至少一个预设目标二维词矩阵，判断所述样本政策文本文件是否为所述目标政策文本文件。

5.根据权利要求3所述的基于大数据的政策信息智慧管理平台，其特征在于，所述至少一个正文关键词至少包括区域限定类关键词、适用对象限定类关键词及条件限定类关键词；

所述政策整理模块基于每份所述样本政策文本文件对应的至少一个正文关键词，对所述多份目标政策文本文件进行聚类，生成所述多个政策文本文件聚类簇，包括：

对于任意两份所述目标政策文本文件，基于每份所述目标政策文本文件的区域限定类关键词、适用对象限定类关键词及条件限定类关键词，计算两份所述目标政策文本文件的关键词相似度及关键词关联度；

通过k-means聚类算法基于任意两份所述目标政策文本文件的关键词相似度及关键词关联度，对所述多份目标政策文本文件进行聚类，生成所述多个政策文本文件聚类簇。

6.根据权利要求5所述的基于大数据的政策信息智慧管理平台，其特征在于，所述政策整理模块将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个，包括：

基于所述新增政策文本文件的标题，生成至少一个标题关键词；

基于所述新增政策文本文件对应的至少一个标题关键词，判断是否对所述新增政策文本文件进行分类；

当判断对所述新增政策文本文件进行分类时，基于所述新增政策文本文件的正文，基于所述新增政策文本文件的至少一个正文关键词；

基于每个所述政策文本文件聚类簇的聚类中心对应的至少一个正文关键词及所述新增政策文本文件的至少一个正文关键词，将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个。

7.根据权利要求1-6中任意一项所述的基于大数据的政策信息智慧管理平台，其特征在于，所述用户信息至少包括经营信息及资质信息，其中，所述经营信息至少包括位置信息、经营范围、注册金额、注册年限和年均收益，所述资质信息至少包括企业资质信息和人才信息；

所述用户整理模块对所述多个样本用户信息进行聚类，生成多个用户聚类，包括：

对于任意两个所述样本用户信息，基于每个所述样本用户的经营信息及资质信息，计算任意两个所述样本用户之间的用户相似度；

通过k-means聚类算法基于两个所述样本用户之间的用户相似度，对所述多个样本用户信息进行聚类，生成所述多个用户聚类。

8.根据权利要求7所述的基于大数据的政策信息智慧管理平台，其特征在于，所述用户整理模块基于所述新增用户的用户信息将所述新增用户分类至所述多个用户聚类簇中的至少一个，包括：

基于所述新增用户的经营信息及资质信息及每个所述用户聚类簇的聚类中心对应的经营信息及资质信息，计算所述新增用户与每个所述用户聚类簇的聚类中心的用户相似度；

基于所述新增用户与每个所述用户聚类簇的聚类中心的用户相似度，将所述新增用户分类至所述多个用户聚类簇中的至少一个。

9.根据权利要求1-6中任意一项所述的基于大数据的政策信息智慧管理平台，其特征在于，所述用户整理模块建立表征所述多个政策文本文件聚类簇与所述多个用户聚类簇的关联关系的关系图谱，包括：

建立预设关联规则；

基于所述预设关联规则、每个所述个政策文本文件聚类簇的聚类中心画像及每个所述用户聚类簇的聚类中心画像，建立所述关系图谱。

10.根据权利要求1-6中任意一项所述的基于大数据的政策信息智慧管理平台，其特征在于，还包括政策查询模块，用于接收查询用户发起的政策查询请求，基于所述政策查询请求，推送第二目标政策文件至所述查询用户。