CN110728453A

CN110728453A - 一种基于大数据的政策自动匹配分析系统及方法

Info

Publication number: CN110728453A
Application number: CN201910974753.5A
Authority: CN
Inventors: 李现法; 李佳佳; 郑永华
Original assignee: Shandong Jiaxi Information Technology Co Ltd
Current assignee: Shandong Jiaxi Information Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-01-24
Anticipated expiration: 2039-10-14
Also published as: CN110728453B

Abstract

本发明一种基于大数据的政策自动匹配分析系统及方法包括政策输入模块、政策数据库、第一企业等级构建模块、第二企业等级构建模块、判断模块，其用于根据所述用户的企业信息判断其是否符合第二企业等级，若是，则将所述政策名称以第一优先级输出，若否，则将政策名称以第三优先级输出并标记并非弱于或等于的企业支信息。本发明通过上述方式可通过已经通过上述政策审核的企业信息的众数和最差值来分析政策并作为用户的企业选择政策去申报的参考标准，从而通过大数据的分析将适合企业申报的政策来作为优先推荐，以降低企业申报政策的风险以及提高企业申报政策的效率，并辅助用户的企业匹配相关政策，从而实现了企业和政府时间的共赢。

Description

一种基于大数据的政策自动匹配分析系统及方法

技术领域

本发明涉及一种大数据技术，特别是涉及一种用于基于大数据的政策自动匹配分析系统。

背景技术

申报政策例如：科技型中小企业在成长与发展的过程当中，会有相关的政府部门，比如科委、发改委、商务委等部门对科技型中小企业进行一定的政策扶持，符合相关部门条件的企业则可以根据自己企业的情况，申报相关的政策扶持，以壮大自己企业，更快发展自己企业。

但是在政策扶持方面，经常有些企业无法得知自己的企业如何申报政策，而且政策过多也无法正确选择适应其的政策来申报，造成了政府与企业之间产生了巨大的鸿沟。而为了促进企业能够积极申报项目，目前亟需一种通过大数据来分析匹配政策的系统，实现企业和政府的共赢。

发明内容

本发明要解决的技术问题是提供一种通过大数据来分析匹配政策的系统。

本发明一种基于大数据的政策自动匹配分析系统及方法，包括

政策输入模块，其用于获取政策名称、政策信息和符合所述政策名称的企业信息、用户的企业信息，其中，所述政策信息包括多个政策支信息，所述企业信息包括多个企业支信息；

政策数据库，其用于存储获取政策名称、政策信息和符合所述政策名称的企业信息；

第一企业等级构建模块，其用于根据符合所述政策名称的企业信息的企业支信息的最差值构建第一企业等级；

第二企业等级构建模块，其用于根据符合所述政策名称的企业信息的企业支信息的众数构建第二企业等级；

判断模块，其用于根据所述用户的企业信息判断其是否符合第二企业等级，若是，则将所述政策名称以第一优先级输出，若否，则判断其是否符合第一企业等级，若是，则搜索除用户的企业信息以外的所述企业信息中是否有一个企业信息的每个企业支信息均弱于或等于用户的企业信息的企业支信息，若是，则将政策名称以第二优先级输出，若否，则将政策名称以第三优先级输出并标记并非弱于或等于的企业支信息；

输出模块，其用于按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端。

本发明一种基于大数据的政策自动匹配分析系统，其中所述输出模块在所述第一优先等级、第二优先等级、第三优先等级中，按照如下方式排列相同优先等级的政策名称：

根据政策数据库的企业信息，搜索与所述用户的企业信息的相似度低于预设阈值的政策数据库中存储的除用户的企业信息以外的企业信息作为第一企业信息；

将第一企业信息中符合的政策名称按由多至少作为排序列表；

在相同优先等级的政策名称按所述排序列表排列。

将第一企业信息中的政策名称，根据近N年内的每年的补贴变化幅度X，按如下公式计算总体方差P²：

P²为总体方差，X为后一年是前一千的变量的百分比，

为X的平均值；

根据每个政策名称的总体方差P2的大小，按由小到大作为排序列表；

在相同优先等级的政策名称按所述排序列表排列。

本发明一种基于大数据的政策自动匹配分析系统，其中所述政策输入模块以爬虫软件搜索政府网站并截取政策文件图片，通过图像识别软件将红色标题的文件识别为预输入文件，将所述与输入文件中搜索企业支信息的名称，若搜索到的企业支信息的名称的数量超过第一预设阈值，则将所述与输入文件转化为终输入文件，再通过管理员将所述终输入文件中的作为政策判定条件；

若用户的企业支信息均满足所述政策判定条件，将所述政策判定条件所属的政策名称的优先级调整为第一优先级。

本发明一种基于大数据的政策自动匹配分析系统的方法，包括如下步骤：

获取政策名称、政策信息和符合所述政策名称的企业信息、用户的企业信息，其中，所述政策信息包括多个政策支信息，所述企业信息包括多个企业支信息；

存储获取政策名称、政策信息和符合所述政策名称的企业信息；

根据符合所述政策名称的企业信息的企业支信息的最差值构建第一企业等级；

根据符合所述政策名称的企业信息的企业支信息的众数构建第二企业等级；

根据所述用户的企业信息判断其是否符合第二企业等级，若是，则将所述政策名称以第一优先级输出，若否，则判断其是否符合第一企业等级，若是，则搜索除用户的企业信息以外的所述企业信息中是否有一个企业信息的每个企业支信息均弱于或等于用户的企业信息的企业支信息，若是，则将政策名称以第二优先级输出，若否，则将政策名称以第三优先级输出并标记并非弱于或等于的企业支信息；

按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端。

按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端的步骤中，还包括：在所述第一优先等级、第二优先等级、第三优先等级中，按照如下方式排列相同优先等级的政策名称：

在相同优先等级的政策名称按所述排序列表排列。

P²为总体方差，X为后一年是前一千的变量的百分比，

为X的平均值；

在相同优先等级的政策名称按所述排序列表排列。

按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端的步骤中，还包括：

以爬虫软件搜索政府网站并截取政策文件图片，通过图像识别软件将红色标题的文件识别为预输入文件，将所述与输入文件中搜索企业支信息的名称，若搜索到的企业支信息的名称的数量超过第一预设阈值，则将所述与输入文件转化为终输入文件，再通过管理员将所述终输入文件中的作为政策判定条件；

本发明一种基于大数据的政策自动匹配分析系统及方法与现有技术不同之处在于本发明一种基于大数据的政策自动匹配分析系统本发明通过已经通过上述政策审核的企业信息的众数和最差值来分析政策并作为用户的企业选择政策去申报的参考标准，从而通过大数据的分析将适合企业申报的政策来作为优先推荐，以降低企业申报政策的风险以及提高企业申报政策的效率，并辅助用户的企业匹配相关政策。并且，某些政策是用户的企业信息还未能达到，但是有希望能达到的，还可通过标记并非弱于或等于的企业支信息而推荐至用户终端，以指导企业更好地完成更多的政策申报，从而实现了企业和政府时间的共赢。

下面结合附图对本发明的一种基于大数据的政策自动匹配分析系统及方法作进一步说明。

附图说明

图1是一种基于大数据的政策自动匹配分析系统的方法的流程图。

具体实施方式

如图1所示，本发明一种基于大数据的政策自动匹配分析系统包括

本发明通过上述方式可通过已经通过上述政策审核的企业信息的众数和最差值来分析政策并作为用户的企业选择政策去申报的参考标准，从而通过大数据的分析将适合企业申报的政策来作为优先推荐，以降低企业申报政策的风险以及提高企业申报政策的效率，并辅助用户的企业匹配相关政策。并且，某些政策是用户的企业信息还未能达到，但是有希望能达到的，还可通过标记并非弱于或等于的企业支信息而推荐至用户终端，以指导企业更好地完成更多的政策申报，从而实现了企业和政府时间的共赢。

其中，根据所述用户的企业信息判断其是否符合第二企业等级可为：将构建第二企业等级的企业支信息的众数来构建为一个虚拟的企业信息，若强于或等于这个虚拟的企业信息，则代表符合，若不强于，则代表不符合。其中，有些数据例如：纳税额越多越强，犯罪记录、异常信息越少越强。

其中，若否，则将政策名称以第三优先级输出并标记并非弱于或等于的企业支信息，的步骤中，还可包括：将并非弱于或等于的企业支信息与用户的企业支信息之间的差值。

其中，搜索除用户的企业信息以外的所述企业信息中是否有一个企业信息的每个企业支信息均弱于或等于用户的企业信息的企业支信息，可理解为，在数据库中，多个企业信息中，是否有一个最为擦边通过上述政策信息的企业信息，而这个企业信息每一项的企业支信息均比用户的企业支信息更加不符合政策要求或与用户的企业支信息相同，从而在数据库中找到了一个比用户的企业信息还弱或相同的企业信息，此时可认为用户的企业信息完全满足政策信息，而提高其优先级。

其中，判断用户的企业信息是否符合第一企业等级或第二企业等级，则应将用户的企业信息的每一项企业支信息与第一企业等级、第二企业等级的企业支信息进行对比，若均大于或均强于，则判定符合。

其中，企业支信息的最差值包括企业名称，企业支信息的最差值可忽略企业名称。

其中，政策信息所指的是政策的内容或者说政策的要求，其由管理员根据政策内容而生成。

例如，政策名称：湖南省高新技术企业，政策信息包括6个政策支信息，分别为：要求研发经费大于20万、研发人员均为本科以上、知识产权数量大于一个发明或六个新型、每年研发投资递增、每年研发费用递增、每年净利润增长幅度超过30％。

企业信息包括6个企业支信息，分别为：湖南省信必可科技有限公司、研发经费50万、研发人员均为本科以上、知识产权数量大于三个发明、每年研发投资递增、每年净利润增长幅度超过50％。

其中，上述政策信息、企业信息还可包括但不限于：年纳税总额、年毛利润、年净利润、员工数量、是否为一般纳税人、是否具备独立办公场所、年营业额、知识产权、专利、商标、学历、人数、时间、户口、残疾人个数、企业所在省、企业所在市、企业所在区等。

进一步的说，所述输出模块在所述第一优先等级、第二优先等级、第三优先等级中，按照如下方式排列相同优先等级的政策名称：

在相同优先等级的政策名称按所述排序列表排列。

本发明基于蚂蚁算法的从众思想而将与用户的企业信息差不多的第一企业信息作为参考，而将其申报过的、已经符合的政策名称优先在同一优先等级上推荐给用户，从而更加符合用户的要求，也更加能够让用户认识政策，并提高政策申报成功率。

例如，上述排序列表可为：在第一企业信息中，具有5个省高新，3个国家高新，2个贯标。那么在第一优先等级中，排列省高新、国家高新、贯标的顺序就应为：先省高新，再国家高新，再贯标。

其中，搜索与所述用户的企业信息的相似度低于预设阈值的企业信息，可为每一个企业支信息的相似度均为预设阈值10％左右，例如，用户的企业信息为：年纳税额100万，净利润1000万，年研发费用100万。政策数据库中存储的除用户的企业信息以外的企业信息就应为：年纳税额90～110万，净利润990～1100万，年研发费用90～110万。政策数据库中存储的除用户的企业信息以外的企业支信息在均满足上述要求的情况下，可以继续进行判定。

其中，第一优先等级、第二优先等级、第三优先等级代表三个优先等级，每个优先等级内的排序按照上述方式排序，从而使排序更加直观。

P²为总体方差，X为后一年是前一千的变量的百分比，

为X的平均值；

在相同优先等级的政策名称按所述排序列表排列。

本发明引入了概率论中的总体平方差概念，即，总体平方差越大，代表越不稳定，而代表了政策拨动较大，从而越应该作为不推荐的政策名称推送至用户终端，从而在概率上增加了用户申报政策成功的概率。

例如，N为5，即5年内的省高新的补贴为5万、5万、3万、3万、1万。那么，每年的补贴变化幅度X就为：0％、-40％、0％、-66％。X为-26.5％。而由于5年内的变化次数是4次，因此分母N-1是4。总体方差P²为7.8675％。并将其与其他政策名称的总体方差P²作比较，并按由小到大排序相同优先级的政策名称。

进一步的说，所述政策输入模块以爬虫软件搜索政府网站并截取政策文件图片，通过图像识别软件将红色标题的文件识别为预输入文件，将所述与输入文件中搜索企业支信息的名称，若搜索到的企业支信息的名称的数量超过第一预设阈值，则将所述与输入文件转化为终输入文件，再通过管理员将所述终输入文件中的作为政策判定条件；

本发明通过爬虫软件抓取政策信息并识别其是否为红头文件，并为了判定其是用于考察企业情况的，因此搜索其内容是否出现了超过第一预设阈值的企业支信息的名称的关键词，从而判断其是否是较为有用的信息。最后，让管理员将其转化为政策判定条件，若符合，则将这个政策名称调整为第一优先级，从而实时地适应政策的调整和政策的变更，而为用户推送最新的、最符合用户需求的政策信息。

其中，所述企业支信息的名称可为：年纳税总额、年毛利润、年净利润、员工数量、是否为一般纳税人、是否具备独立办公场所、年营业额、知识产权、专利、商标、学历、人数、时间、户口、残疾人个数、企业所在省、企业所在市、企业所在区等。

本发明可出现的变形是：政策输入模块由管理员直接输入政策判定条件和符合判定条件的企业的企业支信息。

政策判定条件可为：政策支信息。

进一步的说，按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端的步骤中，还包括：在所述第一优先等级、第二优先等级、第三优先等级中，按照如下方式排列相同优先等级的政策名称：

在相同优先等级的政策名称按所述排序列表排列。

当然，本发明的一种变形还可为，按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端的步骤中，还包括：在所述第一优先等级、第二优先等级、第三优先等级中，按照如下方式排列相同优先等级的政策名称：

P²为总体方差，X为后一年是前一千的变量的百分比，

为X的平均值；

在相同优先等级的政策名称按所述排序列表排列。

进一步的说，按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端的步骤中，还包括：

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于大数据的政策自动匹配分析系统，其特征在于：包括

2.根据权利要求1所述的一种基于大数据的政策自动匹配分析系统，其特征在于：所述输出模块在所述第一优先等级、第二优先等级、第三优先等级中，按照如下方式排列相同优先等级的政策名称：

在相同优先等级的政策名称按所述排序列表排列。

3.根据权利要求1所述的一种基于大数据的政策自动匹配分析系统，其特征在于：所述输出模块在所述第一优先等级、第二优先等级、第三优先等级中，按照如下方式排列相同优先等级的政策名称：

P²为总体方差，X为后一年是前一千的变量的百分比，

为X的平均值；

在相同优先等级的政策名称按所述排序列表排列。

4.根据权利要求3所述的一种基于大数据的政策自动匹配分析系统，其特征在于：所述政策输入模块以爬虫软件搜索政府网站并截取政策文件图片，通过图像识别软件将红色标题的文件识别为预输入文件，将所述与输入文件中搜索企业支信息的名称，若搜索到的企业支信息的名称的数量超过第一预设阈值，则将所述与输入文件转化为终输入文件，再通过管理员将所述终输入文件中的作为政策判定条件；

5.用于权利要求1所述的一种基于大数据的政策自动匹配分析系统的方法，其特征在于包括如下步骤：

6.根据权利要求5所述的一种基于大数据的政策自动匹配分析系统的方法，其特征在于：按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端的步骤中，还包括：在所述第一优先等级、第二优先等级、第三优先等级中，按照如下方式排列相同优先等级的政策名称：

在相同优先等级的政策名称按所述排序列表排列。

7.根据权利要求6所述的一种基于大数据的政策自动匹配分析系统的方法，其特征在于：按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端的步骤中，还包括：在所述第一优先等级、第二优先等级、第三优先等级中，按照如下方式排列相同优先等级的政策名称：

P²为总体方差，X为后一年是前一千的变量的百分比，

为X的平均值；

在相同优先等级的政策名称按所述排序列表排列。

8.根据权利要求7所述的一种基于大数据的政策自动匹配分析系统，其特征在于：按照第一优先级、第二优先级、第三优先级的顺序将政策名称构建数据列表发送至用户终端的步骤中，还包括：