CN110442768A - 一种智能的政策信息采集和查询方法及其系统 - Google Patents

一种智能的政策信息采集和查询方法及其系统 Download PDF

Info

Publication number
CN110442768A
CN110442768A CN201910708022.6A CN201910708022A CN110442768A CN 110442768 A CN110442768 A CN 110442768A CN 201910708022 A CN201910708022 A CN 201910708022A CN 110442768 A CN110442768 A CN 110442768A
Authority
CN
China
Prior art keywords
policy
attachment
file
web page
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910708022.6A
Other languages
English (en)
Inventor
费红琳
肖巧巧
丁杰
倪向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou High Qiyun Mdt Infotech Ltd
Original Assignee
Guangzhou High Qiyun Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou High Qiyun Mdt Infotech Ltd filed Critical Guangzhou High Qiyun Mdt Infotech Ltd
Priority to CN201910708022.6A priority Critical patent/CN110442768A/zh
Publication of CN110442768A publication Critical patent/CN110442768A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及计算机人工智能数据处理技术领域,公开了一种智能的政策信息采集和查询方法,包括了S1:网络爬虫工具抓取全国各地政府网站上与科技政策有关的网页内容和附件,并将抓取到的网页内容和附件存储到Elasticsearch服务器中;S2:政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库;S3:文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取,并整合到Solr服务器中;S4:用户使用高企云搜索从Solr服务器中获取政策内容,本发明还公开了一种智能的政策信息采集和查询系统,本发明通过设置内容提取模块使得系统可以对政策信息附件的内容进行提取,便于用户对科技政策的快速查询。

Description

一种智能的政策信息采集和查询方法及其系统
技术领域
本发明涉及计算机人工智能数据处理技术领域,特别是一种智能的政策信息采集和查询方法及其系统。
背景技术
近几年,为增强企业自主创新能力,提高科技创新水平,国家、省、市区政府先后出台了一系列支持企业科技创新、成果转化、创新创业的政策。为打破政府部门之间存在的信息孤岛和数据分割的局面,方便用户快速了解最新的、所有的政策通知,国内一些科技政策服务平台把这些分布在各区域政府网站上的政策采集整理到一个平台上,并按区域、文件类型进行分类展示,这样可以省去用户到不同网站查看政策的麻烦,节省不少时间。
当前的科技政策服务平台可以满足基本的一站式政策查询,但是对于想要快速系统性地了解某个行业或产业政策以及企业已获政策扶持信息的功能还有待完善。因为当前的科技政策服务平台只是对各政府网站政策通知正文内容进行采集和对所附附件进行直接转发,并未对所附附件内容进行相关的文字处理,而多数有效详细的政策信息和公示信息又均在附件中列出,导致实际使用中输入关键词不能有效识别筛选出所有有用的政策文件,仍需要逐个下载附件打开进行查看,这样比较费时费力,不便于为各类用户提供不同视角的政策分析统计和快速了解企业已获政策扶持信息等。此外,有些政务网站发布的政策通知为加密文档,不可直接复制粘贴使用,这也给用户带来了一定麻烦。
发明内容
本发明的目的在于提供一种智能的政策信息采集和查询方法及其系统,以解决现有技术不能对政策附件进行有效提取的问题。
为实现上述技术目的,达到上述技术效果,本发明公开了一种智能的政策信息采集和查询方法,包括以下步骤:
S1:网络爬虫模块抓取全国各地政府网站上与科技政策有关的网页内容和附件,并将抓取到的网页内容和附件存储到Elasticsearch服务器中;
S2:政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库;
S3:文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取,并整合到Solr服务器中;
S4:用户使用高企云搜索从Solr服务器中获取政策内容。
进一步,所述的网络爬虫模块爬取网页内容过程S1流程如下:
S11:爬虫获取初始的URL,从初始的URL开始爬取网页内容;
S12:爬取的网页内容和附件存储到Elasticsearch服务器中,爬取到URL放入任务调度服务器的优先级队列中;
S13:然后再对优先级队列中的URL进行再一次的爬取并重复上述步骤;
S14:当满足系统设置的条件停止爬虫。
进一步,所述的网页附件内容的提取过程S3流程如下:
S21:下载中心单元从高企云政策库下载网页内容和附件;
S22:文件检查单元对网页附件类型进行检测,并将附件传给相应文件格式的解析器;
S23:Word文件解析器、Pdf文件解析器、Excel文件解析器和OCR图片提取器分别提前相应格式文件的内容;
S24:压缩文件解压器解压压缩文件并重复S22和S23步骤;
S25:内容整合单元将各种文件解析器提取的文件内容整合并存储到Solr服务器。
进一步,所述的OCR图片提取器提取图片内容前使用图片预处理模块对图片进行二值化和降噪处理。
本发明还公开了一种智能政策信息采集和查询系统,采用上述信息采集和查询方法,包括以下模块:
政策采集模块:设有网络爬虫模块,用于采集全国各地政府网站上与科技政策有关的网页内容和附件,并存放到Elasticsearch服务器中;
Elasticsearch服务器:用于存储政策采集模块抓取的网页内容和附件;
政策定时调度模块:用于根据查询的时间段从Elasticsearch服务器获取网页内容和附件并传送给高企云政策库;
高企云政策库:用于存储政策定时调度模块传送的网页内容和附件;
文件内容提取模块:用于高企云政策库的网页附件内容的提取和整合;
Solr服务器:用于存储文件内容提取模块整合的网页附件内容;
高企云搜索:用于根据查询关键字从Solr服务器中获取政策内容。
进一步,所述的网络爬虫模块为定时爬虫工作服务器,所述的网络爬虫模块为WebMagic 爬虫工具。
进一步,所述的文件内容提取模块包括以下单元:
下载中心单元:用于从高企云政策库下载网页内容的和附件;
文件检查单元:用于对网页附件格式进行检测,并将附件传给相应文件格式的解析器;
Word文件解析器:用于对Word文件内容的提取;
Pdf文件解析器:用于对Pdf文件内容的提取;
Excel文件解析器:用于对Excel文件内容的提取;
OCR图片提取器:用于对图片内容的提取;
压缩文件解压器:用于压缩文件的解压,并将解压的文件传给文件检查单元;
内容整合单元:用于将各种文件解析器提取文件内容的整合并存储到Solr服务器。
进一步,OCR图片内容提取器设有图片预处理模块,所述的图片预处理模块用于对图片进行二值化、降噪处理。
本发明具有以下有益效果:
1.本发明通过设置内容提取模块使得本发明可以对政策信息的附件进行提取,有助于用户对政策的查询。
2.经过合理的设置内容提取模块内文件提取器的类型,本发明不仅可以对常规工作文件类型进行提取,还可以对图片类型的文件进行文字类容进行提取。
附图说明
图1为本发明的政策信息采集和查询系统的运行流程图。
图2为本发明文件内容提取模块的运行流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
实施例1
如图1、2所示,本发明公开了本发明公开了一种智能的政策信息采集和查询方法,包括以下步骤:
S1:网络爬虫模块抓取全国各地政府网站上与科技政策有关的网页内容和附件,并将抓取到的网页内容和附件存储到Elasticsearch服务器中,网络爬虫模块的类型为WebMagic 爬虫工具;
S2:政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库;
S3:文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取,并整合到Solr服务器中;
S4:用户使用高企云搜索从Solr服务器中获取政策内容。
进一步,所述的网络爬虫模块爬取网页内容过程S1流程如下:
S11:爬虫获取初始的URL,从初始的URL开始爬取网页内容;
S12:爬取的网页内容和附件存储到Elasticsearch服务器中,爬取到URL放入任务调度服务器的优先级队列中;
S13:然后再对优先级队列中的URL进行再一次的爬取并重复上述步骤;
S14:当满足系统设置的条件停止爬虫。
进一步,所述的网页附件内容的提取过程S3流程如下:
S21:下载中心单元从高企云政策库下载网页内容和附件;
S22:文件检查单元对网页附件类型进行检测,并将附件传给相应文件格式的解析器;
S23:Word文件解析器、Pdf文件解析器、Excel文件解析器和OCR图片提取器分别提前相应格式文件的内容;
S24:压缩文件解压器解压压缩文件并重复S22和S23步骤;
S25:内容整合单元将各种文件解析器提取的文件内容整合并存储到Solr服务器。
进一步,所述的OCR图片提取器提取图片内容前使用图片预处理模块对图片进行二值化和降噪处理。
一种智能政策信息采集和查询系统,包括以下模块:
政策采集模块:设有网络爬虫模块,用于采集全国各地政府网站上与科技政策有关的网页内容和附件,并存放到Elasticsearch服务器中,网络爬虫模块的类型为WebMagic 爬虫工具,网络爬虫模块为定时爬虫工作服务器;
Elasticsearch服务器:用于存储政策采集模块抓取的网页内容和附件;
政策定时调度模块:用于根据查询的时间段从Elasticsearch服务器获取网页内容和附件并传送给高企云政策库;
高企云政策库:用于存储政策定时调度模块传送的网页内容和附件,高企云政策库使用NoSQL数据库存储数据;
文件内容提取模块:用于高企云政策库的网页附件内容的提取和整合;
Solr服务器:用于存储文件内容提取模块整合的网页附件内容;
高企云搜索:用于根据查询关键字从Solr服务器中获取政策内容,高企云搜索具有基于Solr服务器的Lucene全文检索功能。
文件内容提取模块包括以下单元:
下载中心单元:用于从高企云政策库下载网页内容的和附件;
文件检查单元:用于对网页附件格式进行检测,并将附件传给相应文件格式的解析器,文件检查单元使用文件的头信息进行文件类型的识别,检测的文件类型和头信息分别为:
格式:JPEG,文件头:FFD8FFE1;
格式:PNG,文件头:89504E47;
格式:Word/Excel,文件头:D0CF11E0;
格式:PDF,文件头:255044462D312E;
格式:ZIP,文件头:504B0304;
格式:RAR,文件头:52617221;
Word文件解析器:使用Apache POI工具对Word文件的内容进行提取;
Pdf文件解析器:使用Apache PDFbox工具对Pdf文件的内容进行提取;
Excel文件解析器:使用Apache POI工具对Excel文件的内容进行提取;
OCR图片提取器:用于对图片内容的提取;
压缩文件解压器:使用unrar、unzip工具对压缩文件进行解压,并将解压的文件传给文件检查单元;
内容整合单元:用于将各种文件解析器提取文件内容的整合并存储到Solr服务器。
进一步,OCR图片内容提取器设有图片预处理模块,所述的图片预处理模块用于对图片进行二值化、降噪处理。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种智能的政策信息采集和查询方法,其特征在于,包括以下步骤:
S1:网络爬虫模块抓取全国各地政府网站上与科技政策有关的网页内容和附件,并将抓取到的网页内容和附件存储到Elasticsearch服务器中;
S2:政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库;
S3:文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取,并整合到Solr服务器中;
S4:用户使用高企云搜索从Solr服务器中获取政策内容。
2.如权利要求1所述的一种智能的政策信息采集和查询的方法,其特征在于:所述的网络爬虫模块爬取网页内容过程S1流程如下:
S11:爬虫获取初始的URL,从初始的URL开始爬取网页内容;
S12:爬取的网页内容和附件存储到Elasticsearch服务器中,爬取到URL放入任务调度服务器的优先级队列中;
S13:然后再对优先级队列中的URL进行再一次的爬取并重复上述步骤;
S14:当满足系统设置的条件停止爬虫。
3.如权利要求2所述的一种智能的政策信息采集和查询的方法,其特征在于:所述的网页附件内容的提取过程S3流程如下:
S21:下载中心单元从高企云政策库下载网页内容和附件;
S22:文件检查单元对网页附件类型进行检测,并将附件传给相应文件格式的解析器;
S23:Word文件解析器、Pdf文件解析器、Excel文件解析器和OCR图片提取器分别提前相应格式文件的内容;
S24:压缩文件解压器解压压缩文件并重复S22和S23步骤;
S25:内容整合单元将各种文件解析器提取的文件内容整合并存储到Solr服务器。
4.如权利要求3所述的一种智能的政策信息采集和查询的方法,其特征在于:所述的OCR图片提取器提取图片内容前使用图片预处理模块对图片进行二值化和降噪处理。
5.一种智能政策信息采集和查询系统,采用权利要求1-4所述的任意种采集和查询方法,其特征在于,包括以下模块:
政策采集模块:设有网络爬虫模块,用于采集全国各地政府网站上与科技政策有关的网页内容和附件,并存放到Elasticsearch服务器中;
Elasticsearch服务器:用于存储政策采集模块抓取的网页内容和附件;
政策定时调度模块:用于根据查询的时间段从Elasticsearch服务器获取网页内容和附件并传送给高企云政策库;
高企云政策库:用于存储政策定时调度模块传送的网页内容和附件;
文件内容提取模块:用于高企云政策库的网页附件内容的提取和整合;
Solr服务器:用于存储文件内容提取模块整合的网页附件内容;
高企云搜索:用于根据查询关键字从Solr服务器中获取政策内容。
6.如权利要求5所述的一种智能的政策信息采集和查询系统,其特征在于:所述的网络爬虫模块为定时爬虫工作服务器,所述的网络爬虫模块为WebMagic 爬虫工具。
7.如权利要求6所述的一种智能的政策信息采集和查询系统,其特征在于:所述的文件内容提取模块包括以下单元:
下载中心单元:用于从高企云政策库下载网页内容的和附件;
文件检查单元:用于对网页附件格式进行检测,并将附件传给相应文件格式的解析器;
Word文件解析器:用于对Word文件内容的提取;
Pdf文件解析器:用于对Pdf文件内容的提取;
Excel文件解析器:用于对Excel文件内容的提取;
OCR图片提取器:用于对图片内容的提取;
压缩文件解压器:用于压缩文件的解压,并将解压的文件传给文件检查单元;
内容整合单元:用于将各种文件解析器提取文件内容的整合并存储到Solr服务器。
8.如权利要求7所述的一种智能的政策信息采集和查询系统,其特征在于:OCR图片内容提取器设有图片预处理模块,所述的图片预处理模块用于对图片进行二值化、降噪处理。
CN201910708022.6A 2019-08-01 2019-08-01 一种智能的政策信息采集和查询方法及其系统 Pending CN110442768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910708022.6A CN110442768A (zh) 2019-08-01 2019-08-01 一种智能的政策信息采集和查询方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910708022.6A CN110442768A (zh) 2019-08-01 2019-08-01 一种智能的政策信息采集和查询方法及其系统

Publications (1)

Publication Number Publication Date
CN110442768A true CN110442768A (zh) 2019-11-12

Family

ID=68432753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910708022.6A Pending CN110442768A (zh) 2019-08-01 2019-08-01 一种智能的政策信息采集和查询方法及其系统

Country Status (1)

Country Link
CN (1) CN110442768A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563204A (zh) * 2020-05-12 2020-08-21 广州启鹏信息科技有限公司 一种信息提取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119268A1 (en) * 2007-11-05 2009-05-07 Nagaraju Bandaru Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
CN108491438A (zh) * 2018-02-12 2018-09-04 陆夏根 一种科技政策检索分析方法
CN109299371A (zh) * 2018-10-16 2019-02-01 珠海智慧创新科技有限公司 一种基于分布式爬虫技术的政策资讯采集管理系统
CN109902225A (zh) * 2019-01-22 2019-06-18 广州高企云信息科技有限公司 一种基于大数据的政策信息查询推送系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119268A1 (en) * 2007-11-05 2009-05-07 Nagaraju Bandaru Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
CN108491438A (zh) * 2018-02-12 2018-09-04 陆夏根 一种科技政策检索分析方法
CN109299371A (zh) * 2018-10-16 2019-02-01 珠海智慧创新科技有限公司 一种基于分布式爬虫技术的政策资讯采集管理系统
CN109902225A (zh) * 2019-01-22 2019-06-18 广州高企云信息科技有限公司 一种基于大数据的政策信息查询推送系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563204A (zh) * 2020-05-12 2020-08-21 广州启鹏信息科技有限公司 一种信息提取方法及系统
CN111563204B (zh) * 2020-05-12 2023-07-25 广州启鹏信息科技有限公司 一种信息提取方法及系统

Similar Documents

Publication Publication Date Title
CN101035128B (zh) 基于中文标点符号的三重网页文本内容识别及过滤方法
CN102402604B (zh) 搜索引擎的有效前向排序
CN105447184B (zh) 信息抓取方法及装置
CN108229810B (zh) 基于网络信息资源的行业分析系统及方法
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
CN110147360B (zh) 一种数据整合方法、装置、存储介质和服务器
US20080098300A1 (en) Method and system for extracting information from web pages
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
CN102473190A (zh) 为网页分配关键词
CN106126648B (zh) 一种基于重做日志的分布式商品信息爬虫方法
EP3563240B1 (en) Systems and methods for harvesting data associated with fraudulent content in a networked environment
TW200849045A (en) Web spam page classification using query-dependent data
CN107391675A (zh) 用于生成结构化信息的方法和装置
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN108846117A (zh) 商业快讯的去重筛选方法及装置
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN104268289A (zh) 链接url的失效检测方法和装置
CN102768663A (zh) 一种网页标题的提取方法、装置及信息处理系统
CN111125485A (zh) 基于Scrapy的网站URL爬取方法
CN110442768A (zh) 一种智能的政策信息采集和查询方法及其系统
CN105183843B (zh) 列表页识别系统及方法
WO2000077681A1 (en) Method for displaying search result data from internet search engines in three dimensional form
CN102457569B (zh) 一种面向物联网应用的Web服务的冗余检测方法及系统
CN102929948B (zh) 列表页识别系统及方法
EP1158422A3 (en) Internet site search service system and method having an automatic classification function of search results

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112

RJ01 Rejection of invention patent application after publication