CN112307006A - 一种政策数据采集、清洗及自动发布的方法及装置 - Google Patents
一种政策数据采集、清洗及自动发布的方法及装置 Download PDFInfo
- Publication number
- CN112307006A CN112307006A CN202011320063.7A CN202011320063A CN112307006A CN 112307006 A CN112307006 A CN 112307006A CN 202011320063 A CN202011320063 A CN 202011320063A CN 112307006 A CN112307006 A CN 112307006A
- Authority
- CN
- China
- Prior art keywords
- data
- policy
- cleaning
- program
- seeds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004140 cleaning Methods 0.000 title claims abstract description 34
- 230000008676 import Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 15
- 230000009193 crawling Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000013480 data collection Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000012552 review Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000011161 development Methods 0.000 claims description 5
- 230000018109 developmental process Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013500 data storage Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Educational Administration (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种政策数据采集、清洗及自动发布的方法及装置,属于政策数据提取技术领域,包括以下步骤:采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中;利用分布式爬虫抓取程序从redis数据库获取种子进行抓取,并将抓取的页面源码存储到MongoDB数据库中;数据清洗程序根据抓取的页面源码对该页面进行清洗;爬虫采集程序将清洗的数据通过政策自动发布模型验证,判断是否发布,如果验证为可以发布,则直接发布,若不能发布,则隐藏该数据。本发明可以有效抓取政策,抓取效率高、政策处理质量高,且能够自动发布,无需人工审核发布。
Description
技术领域
本发明涉及一种政策数据采集、清洗及自动发布的方法及装置,属于政策数据提取技术领域。
背景技术
随着国家综合国力的日益增强、经济的快速发展,为了提升企业自主研发水平、科技创新能力,各级职能部门每年都会出台大量支持企业科研创新、技术成果转化、创新创业的政策,最新政策通知的快速收集、解读、汇编以及申报书的制作已为企业的发展提供了强大的助力。但是目前发布政策没有统一的渠道,相关政策数量巨大,且制定部门不同,需要花费大量的人力资源来对政策数据进行收集、筛选、分析,大大加大了企业的人力成本,也加大了政策落地的难度。目前政策抓取系统普遍存在抓取规则配置不灵活,采集数据质量不高,不能有效对政策进行分类、打标签等操作,采集的政策还需要人工进一步审核、发布,不能自动发布,政策的时效性严重滞后。
发明内容
针对现有技术的不足,本发明提供了一种政策数据采集、清洗及自动发布的方法及装置,可以有效抓取政策,抓取效率高、政策处理质量高,且能够自动发布,无需人工审核发布。
本发明采用以下技术方案:
一种政策数据采集、清洗及自动发布的方法,包括以下步骤:
(1)采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中;
(2)利用分布式爬虫抓取程序从redis数据库获取种子进行抓取,并将抓取的页面源码存储到MongoDB数据库中;
(3)数据清洗程序根据抓取的页面源码对该页面进行清洗;
(4)爬虫采集程序将清洗的数据通过政策自动发布模型验证,判断是否发布,如果验证为可以发布,则直接发布,若不能发布,则隐藏该数据。
优选的,步骤(1)进一步为:
(1.1)收集全国各地方政府网站网址,如国务院、工信部、科技部、各省份科技厅网站等;
(1.2)人工将网站网址录入到渠道配置系统中,渠道配置系统用来配置各个网站抓取规则;
优选的,抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则、附件规则等,这些抓取规则一般是Xpath格式,表示某一个抓取内容在网页中的位置,形式如//*[@id="detaiText"]/div[1]/h3,通过该规则可从源码中提取出该内容;
抓取规则需要人工一个一个录入,为了方便管理,本发明优选还开发了渠道配置系统,运营人员可以方便的进行规则配置录入,并且可以检测规则是否正确。
(1.3)种子导入过程采用种子导入程序实现,种子导入程序从渠道配置系统中获取全部的地址链接,将链接作为种子导入到redis数据库中;
此处的种子是网站地址链接的一种别称,优选的,种子导入程序是一个实时监测redis数据库种子是否清空的程序,每一种类型的数据在redis中都是通过一个key来存储,若检测到key对应的数据为空,那么说明种子消耗完了,则迅速从配置系统中获取导入到redis数据库中,本发明所使用的redis数据库是较为常见的数据库,单线程、读取写入速度快,并且可以方便的做判重处理,防止资源被重复抓取。
优选的,分布式爬虫抓取程序是一套抓取程序,分布式体现在可以运行到多台服务器上,能够实现分布式是因为各个爬虫程序都是从redis数据库中读取种子,彼此之间没有关联,且种子不会重复,分布式爬虫抓取程序根据种子来下载源码;MongoDB数据库是通用的非关系型数据库,是一种常用的大数据存储数据库,读写速度快,由于是非关系型数据库,对于数据存储格式没有要求,存储过程中不会存在数据格式问题导致数据存储失败的情况。
优选的,步骤(3)中,数据清洗程序根据已获取的页面源码,基于种子从配置系统中获取抓取规则,通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号等信息。
本发明中,基于政策标题、正文信息,采用采用文本分析模型自动提取政策中所包含的标签、关键,此模型的实现方式是,人工设定好标签、关键词,然后人工分析出每个标签、关键词可以覆盖的关键词,然后该模型搜索政策原文、标题是否包含某个关键词,如果包含就给该政策设置之前约定好的标签或关键词。
优选的,自动发布模型是通过政策标题判断政策是否发布的模型,自动发布模型为一个二分分类模型,结果只有0和1,自动发布模型的实现具体为:
(4.1)认定政策是否发布的依据是该政策的重要性是否有意义,如某部门发布关于组织申报自然科学基金重点项目的通知,则认为该政策通知是重要的,是可以发布的;如某部门发布推进中心公开招聘进入考察范围人员公示的通知,则认为这样的政策通知是不重要的,不可以发布,判断依据是此政策是否有助于企业发展、对企业是否有帮助;
(4.2)关于数据来源,本发明预先已经采集了大量的政策数据,通过人工审核发布的政策标记为1,人工审核不需要发布的政策标记为0,将已经人工审核处理后的数据提取出来进行预处理,通过jieba分词并编码后得到文本数据集,将该数据集分为训练集和测试集;
(4.3)在嵌入层读入训练集中的一批政策数据,通过embedding方式将每个词映射成一个n维的词向量,构建完词向量后,将所有的词向量拼接起来构成一个m*n的二维矩阵,作为最初的输入;
(4.4)在卷积层对词嵌入层进行卷积;
(4.5)在池化层对卷积得到的结果进行最大化池得到最终的特征向量;
(4.6)在全连接层先对池化层的输出进行平坦化,再输入全连接层,为了防止过拟合,在输出层之前加上dropout防止过拟合,得到结果就是预测的最后分类;
(4.7)重复训练多次后,采用测试集中的政策数据进行测试,根据测试得出的结果调整TextCNN模型;
(4.8)继续步骤(6.3),多次读入训练集数据,继续进行训练,得到最终的分类模型。
一种政策数据采集、清洗及自动发布的装置,包括导入模块、抓取模块、清洗模块和自动发布模块;
所述导入模块,用于采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中;
所述抓取模块,用于利用分布式爬虫抓取程序从redis数据库获取种子进行抓取,并将抓取的页面源码存储到MongoDB数据库中;
所述清洗模块,用于采用数据清洗程序根据抓取的页面源码对该页面进行清洗;
所述自动发布模块,用于采用爬虫采集程序将清洗的数据通过政策自动发布模型验证,判断是否发布,如果验证为可以发布,则直接发布,若不能发布,则隐藏该数据。
优选的,所述导入模块中,包括:
收集全国各地方政府网站网址,如国务院、工信部、科技部、各省份科技厅网站等;
人工将网站网址录入到渠道配置系统中,渠道配置系统用来配置各个网站抓取规则;
种子导入过程采用种子导入程序实现,种子导入程序从渠道配置系统中获取全部的地址链接,将链接作为种子导入到redis数据库中。
优选的,抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则、附件规则等,这些抓取规则一般是Xpath格式,表示某一个抓取内容在网页中的位置,形式如//*[@id="detaiText"]/div[1]/h3,通过该规则可从源码中提取出该内容。
优选的,种子导入程序是一个实时监测redis数据库种子是否清空的程序,每一种类型的数据在redis中都是通过一个key来存储,若检测到key对应的数据为空,那么说明种子消耗完了,则迅速从配置系统中获取导入到redis数据库中,本发明所使用的redis数据库是较为常见的数据库,单线程、读取写入速度快,并且可以方便的做判重处理,防止资源被重复抓取。
优选的,分布式爬虫抓取程序是一套抓取程序,分布式体现在可以运行到多台服务器上,能够实现分布式是因为各个爬虫程序都是从redis数据库中读取种子,彼此之间没有关联,且种子不会重复,分布式爬虫抓取程序根据种子来下载源码;MongoDB数据库是通用的非关系型数据库,是一种常用的大数据存储数据库,读写速度快,由于是非关系型数据库,对于数据存储格式没有要求,存储过程中不会存在数据格式问题导致数据存储失败的情况。
优选的,所述清洗模块,利用数据清洗程序根据已获取的页面源码,基于种子从配置系统中获取抓取规则,通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号等信息。
本发明中未详尽之处,均可采用现有技术进行。
本发明的有益效果为:
本发明的优点在于解决了政策采集发布中的两个问题,一个是采集的政策自动清洗,另一个是政策自动发布的问题,两个问题都是采用自然语言处理TextCNN文本分类的方式来处理,要想得到精准的结果需要有大量的数据作为支撑,一方面本发明已经有一批高质量的政策数据,先通过训练这一批数据得出一个初步模型,基于训练集和测试集反馈到原始数据库(初步模型)中,经过不断的训练、验证,可达到99.5%的准确率,自动发布模型正式使用后,一直在不断的训练、验证。
附图说明:
图1为本发明的方法流程图。
具体实施方式:
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
实施例1:
一种政策数据采集、清洗及自动发布的方法,如图1所述,包括以下步骤:
(1)采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中;
(2)利用分布式爬虫抓取程序从redis数据库获取种子进行抓取,并将抓取的页面源码存储到MongoDB数据库中;
(3)数据清洗程序根据抓取的页面源码对该页面进行清洗;
(4)爬虫采集程序将清洗的数据通过政策自动发布模型验证,判断是否发布,如果验证为可以发布,则直接发布,若不能发布,则隐藏该数据。
实施例2:
一种政策数据采集、清洗及自动发布的方法,如实施例1所示,所不同的是,步骤(1)进一步为:
(1.1)收集全国各地方政府网站网址,如国务院、工信部、科技部、各省份科技厅网站等;
(1.2)人工将网站网址录入到渠道配置系统中,渠道配置系统用来配置各个网站抓取规则;
优选的,抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则、附件规则等,这些抓取规则一般是Xpath格式,表示某一个抓取内容在网页中的位置,形式如//*[@id="detaiText"]/div[1]/h3,通过该规则可从源码中提取出该内容;
抓取规则需要人工一个一个录入,为了方便管理,本发明优选还开发了渠道配置系统,运营人员可以方便的进行规则配置录入,并且可以检测规则是否正确。
(1.3)种子导入过程采用种子导入程序实现,种子导入程序从渠道配置系统中获取全部的地址链接,将链接作为种子导入到redis数据库中;
此处的种子是网站地址链接的一种别称,优选的,种子导入程序是一个实时监测redis数据库种子是否清空的程序,每一种类型的数据在redis中都是通过一个key来存储,若检测到key对应的数据为空,那么说明种子消耗完了,则迅速从配置系统中获取导入到redis数据库中,本发明所使用的redis数据库是较为常见的数据库,单线程、读取写入速度快,并且可以方便的做判重处理,防止资源被重复抓取。
优选的,分布式爬虫抓取程序是一套抓取程序,分布式体现在可以运行到多台服务器上,能够实现分布式是因为各个爬虫程序都是从redis数据库中读取种子,彼此之间没有关联,且种子不会重复,分布式爬虫抓取程序根据种子来下载源码;MongoDB数据库是通用的非关系型数据库,是一种常用的大数据存储数据库,读写速度快,由于是非关系型数据库,对于数据存储格式没有要求,存储过程中不会存在数据格式问题导致数据存储失败的情况。
实施例3:
一种政策数据采集、清洗及自动发布的方法,如实施例1所示,所不同的是,步骤(3)中,数据清洗程序根据已获取的页面源码,基于种子从配置系统中获取抓取规则,通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号等信息。
本发明中,基于政策标题、正文信息,采用采用文本分析模型自动提取政策中所包含的标签、关键,此模型的实现方式是,人工设定好标签、关键词,然后人工分析出每个标签、关键词可以覆盖的关键词,然后该模型搜索政策原文、标题是否包含某个关键词,如果包含就给该政策设置之前约定好的标签或关键词。
实施例4:
一种政策数据采集、清洗及自动发布的方法,如实施例1所示,所不同的是,自动发布模型是通过政策标题判断政策是否发布的模型,自动发布模型为一个二分分类模型,结果只有0和1,自动发布模型的实现具体为:
(4.1)认定政策是否发布的依据是该政策的重要性是否有意义,如某部门发布关于组织申报自然科学基金重点项目的通知,则认为该政策通知是重要的,是可以发布的;如某部门发布推进中心公开招聘进入考察范围人员公示的通知,则认为这样的政策通知是不重要的,不可以发布,判断依据是此政策是否有助于企业发展、对企业是否有帮助;
(4.2)关于数据来源,本发明预先已经采集了大量的政策数据,通过人工审核发布的政策标记为1,人工审核不需要发布的政策标记为0,将已经人工审核处理后的数据提取出来进行预处理,通过jieba分词并编码后得到文本数据集,将该数据集分为训练集和测试集;
(4.3)在嵌入层读入训练集中的一批政策数据,通过embedding方式将每个词映射成一个n维的词向量,构建完词向量后,将所有的词向量拼接起来构成一个m*n的二维矩阵,作为最初的输入;
(4.4)在卷积层对词嵌入层进行卷积;
(4.5)在池化层对卷积得到的结果进行最大化池得到最终的特征向量;
(4.6)在全连接层先对池化层的输出进行平坦化,再输入全连接层,为了防止过拟合,在输出层之前加上dropout防止过拟合,得到结果就是预测的最后分类;
(4.7)重复训练多次后,采用测试集中的政策数据进行测试,根据测试得出的结果调整TextCNN模型;
(4.8)继续步骤(6.3),多次读入训练集数据,继续进行训练,得到最终的分类模型。
实施例5:
一种政策数据采集、清洗及自动发布的装置,包括导入模块、抓取模块、清洗模块和自动发布模块;
所述导入模块,用于采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中;
所述抓取模块,用于利用分布式爬虫抓取程序从redis数据库获取种子进行抓取,并将抓取的页面源码存储到MongoDB数据库中;
所述清洗模块,用于采用数据清洗程序根据抓取的页面源码对该页面进行清洗;
所述自动发布模块,用于采用爬虫采集程序将清洗的数据通过政策自动发布模型验证,判断是否发布,如果验证为可以发布,则直接发布,若不能发布,则隐藏该数据。
实施例6:
一种政策数据采集、清洗及自动发布的装置,如实施例5所示,所不同的是,导入模块中,包括:
收集全国各地方政府网站网址,如国务院、工信部、科技部、各省份科技厅网站等;
人工将网站网址录入到渠道配置系统中,渠道配置系统用来配置各个网站抓取规则;
种子导入过程采用种子导入程序实现,种子导入程序从渠道配置系统中获取全部的地址链接,将链接作为种子导入到redis数据库中。
抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则、附件规则等,这些抓取规则一般是Xpath格式,表示某一个抓取内容在网页中的位置,形式如//*[@id="detaiText"]/div[1]/h3,通过该规则可从源码中提取出该内容。
种子导入程序是一个实时监测redis数据库种子是否清空的程序,每一种类型的数据在redis中都是通过一个key来存储,若检测到key对应的数据为空,那么说明种子消耗完了,则迅速从配置系统中获取导入到redis数据库中,本发明所使用的redis数据库是较为常见的数据库,单线程、读取写入速度快,并且可以方便的做判重处理,防止资源被重复抓取。
分布式爬虫抓取程序是一套抓取程序,分布式体现在可以运行到多台服务器上,能够实现分布式是因为各个爬虫程序都是从redis数据库中读取种子,彼此之间没有关联,且种子不会重复,分布式爬虫抓取程序根据种子来下载源码;MongoDB数据库是通用的非关系型数据库,是一种常用的大数据存储数据库,读写速度快,由于是非关系型数据库,对于数据存储格式没有要求,存储过程中不会存在数据格式问题导致数据存储失败的情况。
实施例7:
一种政策数据采集、清洗及自动发布的装置,如实施例5所示,所不同的是,清洗模块,利用数据清洗程序根据已获取的页面源码,基于种子从配置系统中获取抓取规则,通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号等信息。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种政策数据采集、清洗及自动发布的方法,其特征在于,包括以下步骤:
(1)采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中;
(2)利用分布式爬虫抓取程序从redis数据库获取种子进行抓取,并将抓取的页面源码存储到MongoDB数据库中;
(3)数据清洗程序根据抓取的页面源码对该页面进行清洗;
(4)爬虫采集程序将清洗的数据通过政策自动发布模型验证,判断是否发布,如果验证为可以发布,则直接发布,若不能发布,则隐藏该数据。
2.根据权利要求1所述的政策数据采集、清洗及自动发布的方法,其特征在于,步骤(1)进一步为:
(1.1)收集全国各地方政府网站网址;
(1.2)人工将网站网址录入到渠道配置系统中,渠道配置系统用来配置各个网站抓取规则;
(1.3)种子导入过程采用种子导入程序实现,种子导入程序从渠道配置系统中获取全部的地址链接,将链接作为种子导入到redis数据库中。
3.根据权利要求2所述的政策数据采集、清洗及自动发布的方法,其特征在于,所述抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则和附件规则,抓取规则采用Xpath格式,表示某一个抓取内容在网页中的位置。
4.根据权利要求2所述的政策数据采集、清洗及自动发布的方法,其特征在于,所述种子导入程序是一个实时监测redis数据库种子是否清空的程序,每一种类型的数据在redis中都是通过一个key来存储,若检测到key对应的数据为空,那么说明种子消耗完了,则迅速从配置系统中获取导入到redis数据库中。
5.根据权利要求1所述的政策数据采集、清洗及自动发布的方法,其特征在于,步骤(3)中,数据清洗程序根据已获取的页面源码,基于种子从配置系统中获取抓取规则,通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号信息。
6.根据权利要求1所述的政策数据采集、清洗及自动发布的方法,其特征在于,自动发布模型是通过政策标题判断政策是否发布的模型,自动发布模型为一个二分分类模型,结果只有0和1,自动发布模型的实现具体为:
(4.1)认定政策是否发布的依据是该政策的重要性是否有意义,判断依据是此政策是否有助于企业发展、对企业是否有帮助;
(4.2)关于数据来源,本发明预先已经采集了大量的政策数据,通过人工审核发布的政策标记为1,人工审核不需要发布的政策标记为0,将已经人工审核处理后的数据提取出来进行预处理,通过jieba分词并编码后得到文本数据集,将该数据集分为训练集和测试集;
(4.3)在嵌入层读入训练集中的一批政策数据,通过embedding方式将每个词映射成一个n维的词向量,构建完词向量后,将所有的词向量拼接起来构成一个m*n的二维矩阵,作为最初的输入;
(4.4)在卷积层对词嵌入层进行卷积;
(4.5)在池化层对卷积得到的结果进行最大化池得到最终的特征向量;
(4.6)在全连接层先对池化层的输出进行平坦化,再输入全连接层,在输出层之前加上dropout防止过拟合,得到结果就是预测的最后分类;
(4.7)重复训练多次后,采用测试集中的政策数据进行测试,根据测试得出的结果调整TextCNN模型;
(4.8)继续步骤(6.3),多次读入训练集数据,继续进行训练,得到最终的分类模型。
7.一种基于权利要求1方法的政策数据采集、清洗及自动发布的装置,其特征在于,包括导入模块、抓取模块、清洗模块和自动发布模块;
所述导入模块,用于采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中;
所述抓取模块,用于利用分布式爬虫抓取程序从redis数据库获取种子进行抓取,并将抓取的页面源码存储到MongoDB数据库中;
所述清洗模块,用于采用数据清洗程序根据抓取的页面源码对该页面进行清洗;
所述自动发布模块,用于采用爬虫采集程序将清洗的数据通过政策自动发布模型验证,判断是否发布,如果验证为可以发布,则直接发布,若不能发布,则隐藏该数据。
8.根据权利要求7所述的政策数据采集、清洗及自动发布的装置,其特征在于,所述导入模块中,包括:
收集全国各地方政府网站网址;
人工将网站网址录入到渠道配置系统中,渠道配置系统用来配置各个网站抓取规则;
种子导入过程采用种子导入程序实现,种子导入程序从渠道配置系统中获取全部的地址链接,将链接作为种子导入到redis数据库中。
9.根据权利要求8所述的政策数据采集、清洗及自动发布的装置,其特征在于,抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则和附件规则,抓取规则采用Xpath格式,表示某一个抓取内容在网页中的位置。
10.根据权利要求8所述的政策数据采集、清洗及自动发布的装置,其特征在于,种子导入程序是一个实时监测redis数据库种子是否清空的程序,每一种类型的数据在redis中都是通过一个key来存储,若检测到key对应的数据为空,那么说明种子消耗完了,则迅速从配置系统中获取导入到redis数据库中;
优选的,所述清洗模块,利用数据清洗程序根据已获取的页面源码,基于种子从配置系统中获取抓取规则,通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011320063.7A CN112307006A (zh) | 2020-11-23 | 2020-11-23 | 一种政策数据采集、清洗及自动发布的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011320063.7A CN112307006A (zh) | 2020-11-23 | 2020-11-23 | 一种政策数据采集、清洗及自动发布的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112307006A true CN112307006A (zh) | 2021-02-02 |
Family
ID=74335420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011320063.7A Pending CN112307006A (zh) | 2020-11-23 | 2020-11-23 | 一种政策数据采集、清洗及自动发布的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307006A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633033A (zh) * | 2017-09-08 | 2018-01-26 | 成都链科信息科技有限公司 | 一种政策大数据智能匹配系统及匹配方法 |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
CN109063065A (zh) * | 2018-07-20 | 2018-12-21 | 政和科技股份有限公司 | 一种政策信息推送的方法及装置 |
CN109902225A (zh) * | 2019-01-22 | 2019-06-18 | 广州高企云信息科技有限公司 | 一种基于大数据的政策信息查询推送系统及方法 |
-
2020
- 2020-11-23 CN CN202011320063.7A patent/CN112307006A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633033A (zh) * | 2017-09-08 | 2018-01-26 | 成都链科信息科技有限公司 | 一种政策大数据智能匹配系统及匹配方法 |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
CN109063065A (zh) * | 2018-07-20 | 2018-12-21 | 政和科技股份有限公司 | 一种政策信息推送的方法及装置 |
CN109902225A (zh) * | 2019-01-22 | 2019-06-18 | 广州高企云信息科技有限公司 | 一种基于大数据的政策信息查询推送系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN110413786B (zh) | 基于网页文本分类的数据处理方法、智能终端及存储介质 | |
CN109241383B (zh) | 一种基于深度学习的网页类型智能识别方法及系统 | |
CN111460250A (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN110413319A (zh) | 一种基于深度语义的代码函数味道检测方法 | |
CN114816497B (zh) | 基于bert预训练模型的链接生成方法 | |
CN113779540A (zh) | 一种基于rpa的企业公示信息数据采集方法 | |
CN114462556A (zh) | 企业关联产业链分类方法、训练方法、装置、设备和介质 | |
CN115659044A (zh) | 一种人岗匹配的推荐方法、系统、电子设备、存储介质 | |
CN112328806A (zh) | 一种数据的处理方法、系统、计算机设备和存储介质 | |
CN117473512B (zh) | 基于网络测绘的漏洞风险评估方法 | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN111581299A (zh) | 基于大数据的多源数据仓库的库间数据转换系统及方法 | |
CN112307006A (zh) | 一种政策数据采集、清洗及自动发布的方法及装置 | |
CN110442807A (zh) | 一种网页类型识别方法、装置、服务器及存储介质 | |
CN107368464B (zh) | 一种获取招标产品信息的方法及装置 | |
CN112800219B (zh) | 客服日志反馈回流数据库的方法及系统 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN111309933A (zh) | 文化资源数据自动标注系统 | |
CN116703328B (zh) | 一种项目评审方法及系统 | |
CN112613317B (zh) | 一种文本数据清洗方法及装置 | |
CN112394984B (zh) | 一种固件代码分析方法及装置 | |
CN117557226A (zh) | 基于大数据的惠企政策智能匹配系统 | |
CN117668229A (zh) | 一种元模型自动采集分类管理的方法、装置及存储介质 | |
Wang et al. | An open dataset for oracle bone script recognition and decipherment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210202 |