CN108491438A - 一种科技政策检索分析方法 - Google Patents

一种科技政策检索分析方法 Download PDF

Info

Publication number
CN108491438A
CN108491438A CN201810145105.4A CN201810145105A CN108491438A CN 108491438 A CN108491438 A CN 108491438A CN 201810145105 A CN201810145105 A CN 201810145105A CN 108491438 A CN108491438 A CN 108491438A
Authority
CN
China
Prior art keywords
technology policy
technology
policy
information data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810145105.4A
Other languages
English (en)
Inventor
陆夏根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810145105.4A priority Critical patent/CN108491438A/zh
Publication of CN108491438A publication Critical patent/CN108491438A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种科技政策检索分析方法,属于数据分析技术领域,包括利用网络爬虫技术采集网站上与科技政策有关的网页内容,并将采集到的相关网页内容作为目标源数据;采用DOM树的方法对目标源数据中的网页中抽取非结构化的网页数据,并从非结构化的网页数据中抽取科技政策信息数据;采用机器学习方法对该科技政策信息进行分类,并将分类后各类别的科技政策信息数据存储至数据库中;采用Lucene工具对数据库中的科技政策信息数据建立索引文件,并将索引文件存放于服务器;根据用户输入的搜索词,在所述索引文件中检索出相应的科技政策。通过整合各大网站的与科技政策相关的网页,解决了科技政策数据分布零散的问题。

Description

一种科技政策检索分析方法
技术领域
本发明涉及数据分析技术领域,特别涉及一种科技政策检索分析方法。
背景技术
政策分析是一个跨学科、应用性和以行动取向的新学科领域。它是适应人类日益复杂社会问题的需要并在政策实践的推动下形成和发展起来的。
政策分析可以更好地理解政策的起因、发展历程和它对社会带来的影响。系统的采集、整理、加工、分析有利于将零碎的政策串联在一起进行对比分析,从而揭示其本质和规律性,增强人们对政策系统及过程的宏观认知和理解。对政策的原因、结果以及政策系统和过程本质的了解,可以更好的指导大众用好政策。政策分析可以帮助政府采纳正确的政策,端正社会发展的方向并达成一定的发展目标。政策分析有助于弥补政治学分析中的不足,凸显社会所面临的重要的政策问题,提高政策制定质量,帮助人们熟悉政治讨论,提高政治敏感性的同时,关注政策可行性。科技类政策分析平台的研发可被应用于政策实践或社会问题的解决中,为政府部门制定与改进科技政策提供信息支撑,为大众了解科技政策的演变、分化与变迁提供接入平台,为学术界的研究提供工具。
源自系统、演化和机器学习的智能技术,如基于计算机模拟的Agent模型或深度学习等正在占据主导地位,而源自工作研究和决策分析的线性规划、网络分析和随机分析正在被逐步取代。以美国为代表的一些科研机构正在利用新的工具(如知识图谱)和新的数据集来研究描述政策研究。“科技类政策应用分析平台”通过自动化信息采集汇聚国家及各省市出台的科技政策,融合机器智能学习分析方法,以及系统自成长进化与智库成果库相结合的进化方法,为各类用户提供不同视角的政策分析结果,全方位解读政策帮助使用者快速定位、分析目标政策及政策群,提供信息支撑。
但目前的政策分析平台在实际应用中存在如下缺陷:一是,科技政策数据分布零散,各地区、各部门分别在各自平台发布政策,缺乏一个整合来整合融合国内所有科技政策的平台。二是,目前的科技政策发布平台,用户无法定制跟自己密切相关的政策,政策的有效性不高。三是,目前的科技政策平台没有提供政策分析服务,无法全面、宏观的展示科技政策的发布特征,以供各地区各部门和企业提供参考。
发明内容
本发明的目的在于提供一种科技政策检索分析方法,以提高政策分析的整合性、有效性。
为实现以上目的,本发明采用的技术方案为:
采用一种科技政策检索分析方法,包括如下步骤:
利用网络爬虫技术采集网站上与科技政策有关的网页内容,并将采集到的相关网页内容作为目标源数据;
采用DOM树的方法对目标源数据中的网页中抽取非结构化的网页数据,并从非结构化的网页数据中抽取科技政策信息数据;
采用机器学习方法对该科技政策信息进行分类,并将分类后各类别的科技政策信息数据存储至数据库中;
采用Lucene工具对数据库中的科技政策信息数据建立索引文件,并将索引文件存放于服务器;
根据用户输入的搜索词,在所述索引文件中检索出相应的科技政策。
进一步地,所述利用网络爬虫技术采集网站上与科技政策有关的网页内容,并将采集到的相关网页内容作为目标源数据,包括:
S11、按照预先设定的初始网址,并顺着该初始网址发送http请求,抓取到网页内容并存放在本地中;
S12、从抓取的网页中提取超链接,并判断该超链接是否同时满足设定的网址规则和未被抓取过;
S13、若同时满足,则将该超链接放入链接池中;
S14、从链接池中取出一个网页,并执行步骤S11以得到超链接对应的网页内容直至链接池为空时,将所有网页内容作为目标源数据。
进一步地,所述采用DOM树的方法对目标源数据中的网页中抽取非结构化的网页数据,并从非结构化的网页数据中抽取科技政策信息数据,包括:
将每个超链接对应的网页内容中的标签以及每个标签下对应的子标签组成DOM树的形式;
根据所述设定的网址规则,从DOM树的形式网页中抽取出标题、发文机关、发文号、发布时间以及正文作为科技政策信息数据。
进一步地,所述采用机器学习方法对该科技政策信息进行分类,并将分类后各类别的科技政策信息数据存储至数据库中,包括:
根据科技政策的特点,通过人工方式对所述科技政策信息数据的分类类别进行定义,并获取每个类别下的一定条数的科技政策信息数据;
利用HanLP工具提取每条科技政策信息数据中的关键词;
采用贝叶斯分类算法,根据每个类别科技政策信息数据下的各条科技政策信息数据的关键词建立该类别对应的分类模型;
从数据库中提取未分类的科技政策信息数据,并利用HanLP工具提取其关键词;
利用每个类别对应的分类模型未分类的科技政策信息数据的关键词进行分类,得到科技政策信息数据的类别并存储在数据库中。
进一步地,所述采用Lucene工具对数据库中的科技政策信息数据建立索引文件,并将索引文件存放于服务器,包括:
创建Document对象;
构建域对象并添加到Document对象中,其中域对象包括标题、发文机关、发文号、发布时间、正文、类别以及区域;
利用IndexWriter对象将Document对象写入本地索引文件中以建立索引文件,并将索引文件存放与服务器。
进一步地,所述所述根据用户输入的搜索词,在所述索引文件中检索出相应的科技政策,包括:
利用Query组件,将用户输入的搜索词生成用户的查询请求;
利用Index Searcher组件打开所述索引文件,将用户检索项与索引文件中索引进行匹配,并得到匹配程度;
按照匹配程度和不同域对象的权重,对索引文件中的索引结果进行排序;
将排序结果放入集合Top Docs Collector组件中,并返回至用户界面供用户浏览。
进一步地,还包括对每条科技政策的相关历史科技政策的检索分析,具体包括:
采用HanLP工具从每条科技政策信息数据中提取出多个关键词,并将多个关键词组成检索组件的用户查询请求;
根据该用户查询请求,从所述索引文件中的正文域对象中检索出包含该多个关键词的科技政策;
按照时间顺序对检索出的科技政策进行排序,将最新的科技政策通过用户界面进行展示并将其后的科技政策作为历史科技政策。
进一步地,还包括根据用户设定的关注词向用户推荐与关注词相关的最新科技政策,具体包括:
根据用户设定的至少一个关注词,生成Lucene的Query,Query表示多个关注词在正文域中的或组合;
Index Searcher组件从所述索引文件中将所有包含了至少一个关注词的科技政策检索出来;
按照时间顺序对检索出的科技政策进行倒序排列,并通过用户界面向用户展示;
对检索出的包含关注词的科技政策进行时间、区域、类别维度的分析,得到不同时间、区域、类别维度下的科技政策数量。
进一步地,还包括提取检索出的包含关注词的科技政策的关键词并对其进行分析,具体包括:
按照设定的关键词数量,提取检索出的包含关注词的科技政策的关键词;
将不同包含关注词的科技政策中提出的相同关键词的数量进行统计并排序,并在排序中按照出现频率选取部分高频词;
从选取的部分高频词中挑选一个高频词,并将其与部分高频词中的剩余高频词进行匹配;
若存在两个高频词同时出现在同一科技政策信息数据中,则相关指数增加1;
将最终统计出的高频词之间的相关指数以知识图谱方式在用户界面进行展示。
与现有技术相比,本发明存在以下技术效果:本发明通过采集各个网站上与科技政策相关的网页内容,并采用机器学习的方法对科技类政策进行分类,并对分类后各类别下的科技政策建立索引文件,用户搜索时根据用户输入的搜索词,利用索引文本搜索出相应的科技政策。本发明通过整合各大网站的与科技政策相关的网页,解决了科技政策数据分布零散的问题。同时,用户可以设置自己的关注词,系统有针对性的实时推送跟用户相关的科技政策,提高政策的有效性。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种科技政策检索分析方法的流程示意图;
图2是Lucene工具中各组件的关系示意图;
图3是索引文件保存的反向索引信息示意图;
图4是合肥市经济折线图;
图5是合肥市经济柱状图;
图6是对关注词进行区域分析的结果示意图;
图7是每个类别的政策数量的折线图;
图8是每个类别的政策数量的柱状图;
图9是知识图谱示意图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种科技政策检索分析方法,该方法包括如下步骤:
S1、利用网络爬虫技术采集网站上与科技政策有关的网页内容,并将采集到的相关网页内容作为目标源数据;
需要说明的是,在实际应用中,可以采集科技部、各地方省科技厅、市区科技局等官方网站上发布的与科技政策相关的网页内容。
S2、采用DOM树的方法对目标源数据中的网页中抽取非结构化的网页数据,并从非结构化的网页数据中抽取科技政策信息数据;
S3、采用机器学习方法对该科技政策信息进行分类,并将分类后各类别的科技政策信息数据存储至数据库中;
S4、采用Lucene工具对数据库中的科技政策信息数据建立索引文件,并将索引文件存放于服务器;
S5、根据用户输入的搜索词,在所述索引文件中检索出相应的科技政策。
作为进一步优选的方案,在上述步骤S1中采集与科技政策相关的网页内容通过网络爬虫(Crawler)来完成。网络爬虫是一个设定初始网址之后,顺着此页面的超链接按照设定的网址规则,自动筛选超链接并自动抓取网页内容的程序,网址的规则一般为某正则表达式。采用网络爬虫技术获取科技政策相关网页内容的具体步骤为:(1)给定程序初始网址和网址规则;(2)根据程序初始网址发送http请求,获取网页页面,即抓取到网页内容,存放于本地;(3)从网页内容中提取超链接,如果该超链接满足设定的网址规则且没有被抓取过,则将该超链接放入链接池中;(4)从链接池中取出一个网页,循环执行(2)~(3),直到连接池为空,并将获取的所有网页内容作为目标数据源。
在实际应用中,由于所采集的目标源数据是原始的非结构化网页,其中掺杂有广告、友情链接、同类推荐等无关信息。因此,本实施例首先采用DOM树的方法抽取目标网页中的数据;然后从非结构化的网页数据中提取包括标题、发文机关、发文号、发布时间、正文等信息,其中发文机关记录了该政策来源于科技部或者某省市区。
具体地,从非结构化的网页数据中抽取科技政策信息数据,具体包括:
(a)网络爬虫获取到某个链接的网页内容,网页为html格式。其中,网页内容由多个不同的标签组成,一个标签下可以含有多个不同的子标签,可组建成DOM树的形式。需要说明的是,一般某个初始网址下面的同一类型的网页,采用的DOM树的形式是一样的,即同一个网页模板;(b)根据网页内容设定提取规则,从html格式的网页中抽取出标题、发文机关、发文号、发布时间、正文等信息作为科技政策信息数据。其中,设定的提取规则一般为正则表达式。
需要说明的是,将提取的科技政策信息数据存储至数据库中,以便于后续的调用。
作为进一步优选的方案,上述步骤S3:采用机器学习方法对该科技政策信息进行分类,并将分类后各类别的科技政策信息数据存储至数据库中。其具体过程为:
(1)分类模型的建立:
首先根据科技政策信息数据的特点,通过人工定义的方式将科技类政策分为综合、科研机构、改革科技计划、管理科技经费与财务、基础研究与科研基地、企业技术进步与高新技术产业化、农村科技与社会发展、科技人才、科技中介服务、科技条件与标准、科技金融与税收、科技成果与知识产权、科学技术普及、科技奖励、国际科技合作十五个类别。
在网页内容中提取科技政策信息数据,每个类别下分别提取一万条科技政策信息数据。
针对每一条科技政策信息数据,通过HanLP工具(HanLP是由一系列模型与算法组成的Java工具包,提供中文分词、词性标注、命名实体识别、关键词提取、自动摘要、短语提取等功能)提取其关键词。
对每一条科技政策信息数据提取的关键词,采用贝叶斯分类算法建立分类模型。
(2)根据建立的分类模型对数据库中未分类的科技政策信息数据进行分类:
从数据库中取出没有分类的科技政策信息数据,通过HanLP工具提取关键词。
根据上述建立的分类模型,对没有分类的科技政策信息数据进行分类,得到每条科技政策信息数据的类别后并将相应类别存入数据库。
作为进一步优选的方案,为了提高科技政策搜索和分析时的速度,本实施例中采用Lucene工具对数据库中的每条科技政策信息数据建立索引,并将索引文件存放于数据库。Lucene的使用包含建立索引库和根据搜索词从索引库里搜索两个主要步骤。使用过程中主要依靠Lucene的两个核心组件:搜索组件和索引组件。Lucene各组件的关系如图2所示。其中,索引组件主要完成索引文件的创建,即通过对给定内容的分析,建立一定格式的文件,以便于搜索组件的使用。在图2中由Lucene提供的Document到Index表示建立索引库的过程。其中,索引组件创建索引文件的过程如下:
(1)创建Document对象。
(2)构建域对象并添加到Document对象中。
其中,Document对象实质就是多个域的组合,域有名称和值,在搜索词时通过指定域的名称和值来进行搜索,通过不同域的与或非组合进行搜索。
搜索的词具有两个基本信息:一是它所属的域,二是它的具体内容。因此,即使两个词的内容完全相同,但是只要所属的域不同,它们则属于两个不同的词。
本实施例中,将政策文本信息划分为标题、发文机关、发文号、发布时间、正文、类别、区域这几个不同的域。其中,在对区域建立索引时,结合了中国地理七大地理分区(华东地区、华南地区、华北地区、华中地区、西南地区、西北地区、东北地区)建立索引。华东包括江苏省、浙江省、安徽省、福建省、江西省、山东省和上海市、台湾省。华南包括广东省(包括东沙群岛)、广西省、海南省(包括南海诸岛)、香港和澳门特区。华北包括河北省、山西省、北京市、天津市和内蒙古自治区的部分地区。华中包括湖北省,湖南省,河南省,华中地区的区域中心城市为武汉。东北包括辽宁省、吉林省、黑龙江省,或说东北四省区(包括内蒙古东部)。西南包括四川省、云南省、贵州省、重庆市、西藏自治区的大部以及陕西省南部(陕南地区)。西北包括宁夏回族自治区、新疆维吾尔自治区及青海、陕西、甘肃三省之地。
本实施例把发文机关映射为七大分区之一以及省、市、区,比如发文机关为“安徽省科技厅”,域有两个,域的名称为域的值为“华东地区”和“安徽省”;发文机关为“合肥市科技局”,域的值为“华东地区”和“安徽省合肥市”。
(3)使用IndexWriter对象将Document对象写入本地索引文件中。Lucene索引文件保存着文档与所含字符串间的映射关系(称为正向索引),也保存着字符串与所在文档之间的映射关系(称为反向索引)。检索过程主要使用反向索引文件提高检索的速度。例如,有若干文档保存在一文件夹中,将文档用阿拉伯数字进行编号,索引文件保存的反向索引信息,如图3所示。如图3所示,表示“技术”这个词存在于文档1、5、6中,“平台”这个词存在于文档2、3、5中。在搜索“技术”这个词时,直接从反向索引信息中查找到该词存在于文档1、5、6中。
搜索组件进行搜索的过程如下:
在上图2中,由Query到Index再到Top Docs Collector表示搜索的过程,Query表示用户的查询请求,用户输入搜索词,系统根据搜索词生成Query;Index Searcher打开索引库,将用户检索项与索引库中索引进行匹配,同时按照匹配程度和不同域的权重排序;将结果放入集合Top Docs Collector中,并返回给用户。
在本实施例中,Query可以是用户的搜索词在不同域的与或非组合,例如用户输入“合肥高新技术”,系统从标题和正文域中进行搜索,是标题域和正文域的“或组合”,即标题或者正文包含了“合肥高新技术”这个词的政策,都属于搜索范围。
作为进一步优选的方案,本实施例中对科技政策信息数据进行分析的过程包括:提供某条政策的相关历史政策、用户搜索、用户定制政策及多维度统计以及关键词的分析。具体为:
(1)每条科技政策信息数据相关历史科技政策的分析:
采用HanLP工具从该条科技政策信息数据中提取出多个关键词,关键词的个数可以根据实际需求设定。多个关键词组成检索组件的Query,从索引文件的正文域检索政策,即搜索出正文域中包含了多个关键词的政策,按照时间顺序对政策排序,最先展示最新的科技政策,其它时间的科技政策即为该最新的科技政策的历史政策。
(2)用户搜索:
输入搜索词,搜索词可以是发文号、发文机关、标题或正文,作为检索Query,由Lucene中的Index Searcher从索引文件的不同域中检索政策,并可以设定发布的时间范围、类别、区域。其中区域可以多层次选择,七大区域到省到市到区。
具体来说,Query是发文号、发文机关、标题、正文这四个域的“或组合”,域的值为搜索词,表示的是四个域有一个域包含了搜索词的即为要搜索的目标。在设定了发布时间的情况下,Query是上述四个域的“或组合”和时间域的“与组合”。搜索中区域选项,用户可以多层次选择,第一层次为七大区域,用户选择了七大区域的某个区域后,可进行省市区的选择,Query为上述域的组合和区域两个域的“与组合”。
(3)用户制定政策以及进行多维度分析:
用户制定政策,即用户设定关注词,平台根据关注词向用户推荐最新的科技政策,其具体过程为:
(3-1)用户设定一个或多个关注词,系统记录这些关注词。
(3-2)系统根据多个关注词生成Lucene的Query,该Query表示多个关注词在正文域中的“或组合”。
(3-3)Index Searcher从索引文件中将所有包含了某个关注词的政策检索出来。
(3-4)根据时间对政策进行倒序排列,并通过客户端展示政策。
需要说明的是,进行多维度分析为:根据设定的关注词,按照时间、区域、类别多个维度进行统计分析,分析出该关注词相关政策在不同时间、区域、类别的政策数量,从而统计该关注词相关政策随时间变化政策的数量变化,在不同地区的受重视程度,不同类别中的政府关注度。其中:
(3-5)时间维度的统计分析过程为:
生成Lucene中的Query,该Query表示正文中包含了某个关注词的政策。
Lucene提供了分组组件,对上述包含了某个关注词的政策信息的时间域进行分组,同一年内或同一个月内、同一天内的的政策分到一个组里,然后统计每个组里的政策数量。
采用ECharts工具(一个使用JavaScript实现的开源可视化库,内置的包含了丰富功能的图表),将每年、每月、每日的政策数量展示出来,如折线图(图4)和柱状图(图5),搜索词是“合肥市经济”,通过图4和图5可以清晰直观地展现随着时间变化,跟“合肥市经济”相关的政策的数量变化。
(3-6)区域维度的统计分析过程:
a、通过HanLP工具提供的词性判定功能,判定用户设定的多个关注词中是否存在包含地名的关注词,如果包含一个或多个包含了地名的关注词,则对每个关注词进行下面的操作。
b、将关注词切分为两部分,地名和非地名部分。例如关注词为“合肥市经济”,则地名为“合肥市”,非地名为“经济”。
c、判定地名是省、市或区,如果是省,则系统获取该省下面的各市名,如果是市,则获取该市所在省的同级市名,如果是区,则获取该区所在市内的同级区名。如上面的“合肥市”,则获取“合肥市”的同级市“马鞍山市”、“巢湖市”、“芜湖市”、“铜陵市”、“宣城市”、“黄山市”、“池州市”、“安庆市”、“六安市”、“滁州市”、“淮安市”、“阜阳市”、“亳州市”、“淮北市”、“宿州市”、“蚌埠市”。
d、将步骤c中的各个地名和步骤b中的非地名部分组成新的搜索词,如上面例子,则为“合肥市经济”、“马鞍山市经济”、“巢湖市经济”、“芜湖市经济”等多个搜索词。
e、采用Lucene的搜索组件,从索引文件中的正文域部分搜索步骤d中的搜索词,即搜索出正文部分包含了搜索词的政策。
f、统计每个搜索词的政策数量。
g、采用ECharts工具,将每个区域的政策数量展示出来。如用户设定了“科技成果转化”、“科技服务”、“经济体制创新”、“安徽经济”、“湖北经济”这几个关注词,其中“安徽经济”、“湖北经济”包含了地名,本专利对这两个关注词进行区域分析,如图6所示,通过图6可以清晰直观地展现和该区域相关的各区域的政策的数量。
(3-7)类别维度的统计分析过程:
a、根据用户设定的关注词,生成Lucene中的Query,该Query表示正文中包含了某个关注词的政策。
b、采用Lucene提供的分组组件,将根据上述步骤a中的政策信息的类别域进行分组,同一个类别的政策分到一个组里。
c、统计每个组里的政策数量。
d、采用ECharts,将每个类别的政策数量展示出来,如下面的折线图(图7)和柱状图(图8),通过图7至图8可以清晰直观地展现用户的关注词在十五个类别(综合、科研机构、改革科技计划、管理科技经费与财务、基础研究与科研基地、企业技术进步与高新技术产业化、农村科技与社会发展、科技人才、科技中介服务、科技条件与标准、科技金融与税收、科技成果与知识产权、科学技术普及、科技奖励、国际科技合作)中的政策数量。
(3-8)关键词的统计分析过程:
为browser端提供知识图谱,从某些关注词相关政策中提取出特征词。根据关注词,检索出相关政策;对每条政策抽取出关键词,关键词的个数可以设定;统计出每个关键词的数量,排序后从中选择一部分高频词;从中依次选择一个高频词和其他高频词进行匹配,如果两个高频词同时出现在一条政策信息里,说明这两个词存在一定的联系,相关指数加1;统计出高频词之间的相关指数后以知识图谱的方式展示,如图9所示。
需要说明的是,本实施例对应公开一种科技政策检索分析平台,其采用B/S(browser/server)结构设计,server端分为两个部分,一部分是采集,负责从指定的官方网站上的获取科技类政策,并根据网页结构进行数据抽取,抽取到的数据存储于数据库,然后根据已经训练好的分类模型,对数据库中数据进行分类;server端的另一部分负责为browser端提供请求服务:browser端可获取最新的科技政策;可以查看某条政策的相关历史政策,即某个方面政策的演化和发展;可以搜索政策,搜索时可以指定政策发布时间范围、区域、类别,同时可以对搜索结果按照时间、区域、类别进行统计,提供不同时间、区域、类别维度的政策数量,以查看该搜索内容相关政策的热度和趋势;可以设定关注词,server端根据关注词推荐相关政策;可以根据设定的关注词,按照时间、区域、类别进行统计分析,分析出该关注词相关政策在不同时间、区域、类别的政策数量;关键词的分析是为browser端提供知识图谱(图9),从某些关注词相关政策中提取出特征词。
需要说明的是,本实施例公开的方案具有如下有益效果:
(1)可将各大网站上有关于科技政策的网页内容整合在一起,解决了科技政策分散在各个部门的官网上,政策没有统一出口,政策类型多,如行政文件、规划纲要、政报公报等,查找起来效率不高,浪费时间等问题。
(2)建立分类模型的,根据分类模型对科技政策信息数据进行分类,确定数据的类别。通过采用机器学习的方法对科技类政策进行分类,提高科技政策信息推荐的准确性。
(3)用户可以设置自己的关注词,系统有针对性的实时推送跟用户相关的科技政策,提高政策的有效性。
(4)以政策类别、政策发文机关、时间、区域、关键词等维度作为出发点,可以更全面、更宏观的展示科技政策的发布特征,给各地区各部门和企业提供参考。根据发文机关,映射到索引文件中区域,搜索的时候用户可设定某地区的政策,同时可以对政策进行区域统计。
(5)以知识图谱的方式分析用户关注词相关政策的特征词,更加直观呈现出多个科技政策的多维度关系。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种科技政策检索分析方法,其特征在于,包括:
利用网络爬虫技术采集网站上与科技政策有关的网页内容,并将采集到的相关网页内容作为目标源数据;
采用DOM树的方法对目标源数据中的网页中抽取非结构化的网页数据,并从非结构化的网页数据中抽取科技政策信息数据;
采用机器学习方法对该科技政策信息进行分类,并将分类后各类别的科技政策信息数据存储至数据库中;
采用Lucene工具对数据库中的科技政策信息数据建立索引文件,并将索引文件存放于服务器;
根据用户输入的搜索词,在所述索引文件中检索出相应的科技政策。
2.如权利要求1所述的科技政策检索分析方法,其特征在于,所述利用网络爬虫技术采集网站上与科技政策有关的网页内容,并将采集到的相关网页内容作为目标源数据,包括:
S11、按照预先设定的初始网址,并顺着该初始网址发送http请求,抓取到网页内容并存放在本地中;
S12、从抓取的网页中提取超链接,并判断该超链接是否同时满足设定的网址规则和未被抓取过;
S13、若同时满足,则将该超链接放入链接池中;
S14、从链接池中取出一个网页,并执行步骤S11以得到超链接对应的网页内容直至链接池为空时,将所有网页内容作为目标源数据。
3.如权利要求2所述的科技政策检索分析方法,其特征在于,所述采用DOM树的方法对目标源数据中的网页中抽取非结构化的网页数据,并从非结构化的网页数据中抽取科技政策信息数据,包括:
将每个超链接对应的网页内容中的标签以及每个标签下对应的子标签组成DOM树的形式;
根据所述设定的网址规则,从DOM树的形式网页中抽取出标题、发文机关、发文号、发布时间以及正文作为科技政策信息数据。
4.如权利要求2所述的科技政策检索分析方法,其特征在于,所述采用机器学习方法对该科技政策信息进行分类,并将分类后各类别的科技政策信息数据存储至数据库中,包括:
根据科技政策的特点,通过人工方式对所述科技政策信息数据的分类类别进行定义,并获取每个类别下的一定条数的科技政策信息数据;
利用HanLP工具提取每条科技政策信息数据中的关键词;
采用贝叶斯分类算法,根据每个类别科技政策信息数据下的各条科技政策信息数据的关键词建立该类别对应的分类模型;
从数据库中提取未分类的科技政策信息数据,并利用HanLP工具提取其关键词;
利用每个类别对应的分类模型未分类的科技政策信息数据的关键词进行分类,得到科技政策信息数据的类别并存储在数据库中。
5.如权利要求4所述的科技政策检索分析方法,其特征在于,所述采用Lucene工具对数据库中的科技政策信息数据建立索引文件,并将索引文件存放于服务器,包括:
创建Document对象;
构建域对象并添加到Document对象中,其中域对象包括标题、发文机关、发文号、发布时间、正文、类别以及区域;
利用IndexWriter对象将Document对象写入本地索引文件中以建立索引文件,并将索引文件存放与服务器。
6.如权利要求5所述的科技政策检索分析方法,其特征在于,所述所述根据用户输入的搜索词,在所述索引文件中检索出相应的科技政策,包括:
利用Query组件,将用户输入的搜索词生成用户的查询请求;
利用Index Searcher组件打开所述索引文件,将用户检索项与索引文件中索引进行匹配,并得到匹配程度;
按照匹配程度和不同域对象的权重,对索引文件中的索引结果进行排序;
将排序结果放入集合 Top Docs Collector 组件中,并返回至用户界面供用户浏览。
7.如权利要求5所述的科技政策检索分析方法,其特征在于,还包括对每条科技政策的相关历史科技政策的检索分析,具体包括:
采用HanLP工具从每条科技政策信息数据中提取出多个关键词,并将多个关键词组成检索组件的用户查询请求;
根据该用户查询请求,从所述索引文件中的正文域对象中检索出包含该多个关键词的科技政策;
按照时间顺序对检索出的科技政策进行排序,将最新的科技政策通过用户界面进行展示并将其后的科技政策作为历史科技政策。
8.如权利要求5所述的科技政策检索分析方法,其特征在于,还包括根据用户设定的关注词向用户推荐与关注词相关的最新科技政策,具体包括:
根据用户设定的至少一个关注词,生成Lucene 的Query,Query表示多个关注词在正文域中的或组合;
Index Searcher组件从所述索引文件中将所有包含了至少一个关注词的科技政策检索出来;
按照时间顺序对检索出的科技政策进行倒序排列,并通过用户界面向用户展示;
对检索出的包含关注词的科技政策进行时间、区域、类别维度的分析,得到不同时间、区域、类别维度下的科技政策数量。
9.如权利要求8所述的科技政策检索分析方法,其特征在于,还包括提取检索出的包含关注词的科技政策的关键词并对其进行分析,具体包括:
按照设定的关键词数量,提取检索出的包含关注词的科技政策的关键词;
将不同包含关注词的科技政策中提出的相同关键词的数量进行统计并排序,并在排序中按照出现频率选取部分高频词;
从选取的部分高频词中挑选一个高频词,并将其与部分高频词中的剩余高频词进行匹配;
若存在两个高频词同时出现在同一科技政策信息数据中,则相关指数增加1;
将最终统计出的高频词之间的相关指数以知识图谱方式在用户界面进行展示。
CN201810145105.4A 2018-02-12 2018-02-12 一种科技政策检索分析方法 Pending CN108491438A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810145105.4A CN108491438A (zh) 2018-02-12 2018-02-12 一种科技政策检索分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810145105.4A CN108491438A (zh) 2018-02-12 2018-02-12 一种科技政策检索分析方法

Publications (1)

Publication Number Publication Date
CN108491438A true CN108491438A (zh) 2018-09-04

Family

ID=63340303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810145105.4A Pending CN108491438A (zh) 2018-02-12 2018-02-12 一种科技政策检索分析方法

Country Status (1)

Country Link
CN (1) CN108491438A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241432A (zh) * 2018-09-07 2019-01-18 云南东巴文信息技术有限公司 离散数据采集分析系统及方法
CN109345006A (zh) * 2018-09-12 2019-02-15 张连祥 一种基于区域发展目标的招商政策分析优化方法及系统
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
CN109726393A (zh) * 2018-12-17 2019-05-07 浪潮软件集团有限公司 一种基于自然语言处理技术的政策分析系统及方法
CN109902225A (zh) * 2019-01-22 2019-06-18 广州高企云信息科技有限公司 一种基于大数据的政策信息查询推送系统及方法
CN110275935A (zh) * 2019-05-10 2019-09-24 平安科技(深圳)有限公司 政策信息的处理方法、装置、及存储介质、电子装置
CN110297961A (zh) * 2019-06-26 2019-10-01 广州博士信息技术研究院有限公司 一种政策信息的快速采集与优化提取方法
CN110442768A (zh) * 2019-08-01 2019-11-12 广州高企云信息科技有限公司 一种智能的政策信息采集和查询方法及其系统
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
CN110968757A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 政策文件处理方法及装置
CN110968776A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 政策知识的推荐方法、装置存储介质及处理器
CN111400369A (zh) * 2020-03-06 2020-07-10 湖南城市学院 一种基于大数据分析的政策信息服务系统及方法
CN111428037A (zh) * 2020-03-24 2020-07-17 合肥科捷通科技信息服务有限公司 一种分析行为政策匹配性的方法
CN111435374A (zh) * 2019-01-11 2020-07-21 百度在线网络技术(北京)有限公司 搜索统计数据的展示装置和方法
CN111488465A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种知识图谱构建方法及相关装置
CN111563170A (zh) * 2020-04-30 2020-08-21 北京明略软件系统有限公司 一种知识图谱的生成方法、装置、计算机存储介质及终端
CN111831878A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 构建价值索引关系的方法、索引系统及索引装置
CN112148938A (zh) * 2020-10-16 2020-12-29 成都中科大旗软件股份有限公司 一种跨域异构数据检索系统及检索方法
CN112307006A (zh) * 2020-11-23 2021-02-02 政和科技股份有限公司 一种政策数据采集、清洗及自动发布的方法及装置
CN112667825A (zh) * 2021-01-19 2021-04-16 深圳市信联征信有限公司 基于知识图谱的智能推荐方法、装置、设备及存储介质
CN112800246A (zh) * 2021-04-09 2021-05-14 北京智源人工智能研究院 一种政策谱系构建方法、装置和电子设备
CN112995243A (zh) * 2019-12-02 2021-06-18 重庆市科学技术研究院 一种基于大数据的政策信息推送方法和系统
CN114528404A (zh) * 2022-02-18 2022-05-24 浪潮卓数大数据产业发展有限公司 一种识别省市区的方法及装置
CN115576901A (zh) * 2022-11-10 2023-01-06 山东立信华创信息科技咨询有限公司 一种基于大数据分析的科技项目信息服务系统及方法
CN117520627A (zh) * 2023-10-18 2024-02-06 广州汉申信息科技有限公司 项目检索数据处理方法及装置
CN117951357A (zh) * 2024-03-25 2024-04-30 中国标准化研究院 一种基于大数据的科技标准动态监测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008030568A2 (en) * 2006-09-07 2008-03-13 Feedster, Inc. Feed crawling system and method and spam feed filter
CN103049542A (zh) * 2012-12-27 2013-04-17 北京信息科技大学 一种面向领域的网络信息搜索方法
CN103838732A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种生活服务领域垂直搜索引擎
CN105868264A (zh) * 2015-12-31 2016-08-17 乐视网信息技术(北京)股份有限公司 一种根据关注词推送更新信息的方法及系统
CN106056406A (zh) * 2016-05-31 2016-10-26 无锡天脉聚源传媒科技有限公司 一种节目关键词的图谱生成方法及装置
CN106570171A (zh) * 2016-11-03 2017-04-19 中国电子科技集团公司第二十八研究所 一种基于语义的科技情报处理方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008030568A2 (en) * 2006-09-07 2008-03-13 Feedster, Inc. Feed crawling system and method and spam feed filter
CN103838732A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种生活服务领域垂直搜索引擎
CN103049542A (zh) * 2012-12-27 2013-04-17 北京信息科技大学 一种面向领域的网络信息搜索方法
CN105868264A (zh) * 2015-12-31 2016-08-17 乐视网信息技术(北京)股份有限公司 一种根据关注词推送更新信息的方法及系统
CN106056406A (zh) * 2016-05-31 2016-10-26 无锡天脉聚源传媒科技有限公司 一种节目关键词的图谱生成方法及装置
CN106570171A (zh) * 2016-11-03 2017-04-19 中国电子科技集团公司第二十八研究所 一种基于语义的科技情报处理方法及系统

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241432A (zh) * 2018-09-07 2019-01-18 云南东巴文信息技术有限公司 离散数据采集分析系统及方法
CN109345006A (zh) * 2018-09-12 2019-02-15 张连祥 一种基于区域发展目标的招商政策分析优化方法及系统
CN110968757A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 政策文件处理方法及装置
CN110968776A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 政策知识的推荐方法、装置存储介质及处理器
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
CN109726393A (zh) * 2018-12-17 2019-05-07 浪潮软件集团有限公司 一种基于自然语言处理技术的政策分析系统及方法
CN109726393B (zh) * 2018-12-17 2023-06-13 浪潮软件集团有限公司 一种基于自然语言处理技术的政策分析系统及方法
CN111435374A (zh) * 2019-01-11 2020-07-21 百度在线网络技术(北京)有限公司 搜索统计数据的展示装置和方法
CN111435374B (zh) * 2019-01-11 2023-04-25 百度在线网络技术(北京)有限公司 搜索统计数据的展示装置和方法
CN109902225A (zh) * 2019-01-22 2019-06-18 广州高企云信息科技有限公司 一种基于大数据的政策信息查询推送系统及方法
CN111831878B (zh) * 2019-04-22 2023-09-15 百度在线网络技术(北京)有限公司 构建价值索引关系的方法、索引系统及索引装置
CN111831878A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 构建价值索引关系的方法、索引系统及索引装置
CN110275935A (zh) * 2019-05-10 2019-09-24 平安科技(深圳)有限公司 政策信息的处理方法、装置、及存储介质、电子装置
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN110532451B (zh) * 2019-06-26 2023-08-29 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN110297961A (zh) * 2019-06-26 2019-10-01 广州博士信息技术研究院有限公司 一种政策信息的快速采集与优化提取方法
CN110442768A (zh) * 2019-08-01 2019-11-12 广州高企云信息科技有限公司 一种智能的政策信息采集和查询方法及其系统
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
CN110909122B (zh) * 2019-10-10 2023-10-03 湖北华中电力科技开发有限责任公司 一种信息处理方法及相关设备
CN112995243A (zh) * 2019-12-02 2021-06-18 重庆市科学技术研究院 一种基于大数据的政策信息推送方法和系统
CN111400369A (zh) * 2020-03-06 2020-07-10 湖南城市学院 一种基于大数据分析的政策信息服务系统及方法
CN111428037A (zh) * 2020-03-24 2020-07-17 合肥科捷通科技信息服务有限公司 一种分析行为政策匹配性的方法
CN111488465A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种知识图谱构建方法及相关装置
CN111563170A (zh) * 2020-04-30 2020-08-21 北京明略软件系统有限公司 一种知识图谱的生成方法、装置、计算机存储介质及终端
CN112148938A (zh) * 2020-10-16 2020-12-29 成都中科大旗软件股份有限公司 一种跨域异构数据检索系统及检索方法
CN112307006A (zh) * 2020-11-23 2021-02-02 政和科技股份有限公司 一种政策数据采集、清洗及自动发布的方法及装置
CN112667825A (zh) * 2021-01-19 2021-04-16 深圳市信联征信有限公司 基于知识图谱的智能推荐方法、装置、设备及存储介质
CN112667825B (zh) * 2021-01-19 2024-05-14 深圳市信联征信有限公司 基于知识图谱的智能推荐方法、装置、设备及存储介质
CN112800246A (zh) * 2021-04-09 2021-05-14 北京智源人工智能研究院 一种政策谱系构建方法、装置和电子设备
CN114528404A (zh) * 2022-02-18 2022-05-24 浪潮卓数大数据产业发展有限公司 一种识别省市区的方法及装置
CN115576901A (zh) * 2022-11-10 2023-01-06 山东立信华创信息科技咨询有限公司 一种基于大数据分析的科技项目信息服务系统及方法
CN117520627A (zh) * 2023-10-18 2024-02-06 广州汉申信息科技有限公司 项目检索数据处理方法及装置
CN117520627B (zh) * 2023-10-18 2024-04-26 广州汉申信息科技有限公司 项目检索数据处理方法及装置
CN117951357A (zh) * 2024-03-25 2024-04-30 中国标准化研究院 一种基于大数据的科技标准动态监测方法及系统

Similar Documents

Publication Publication Date Title
CN108491438A (zh) 一种科技政策检索分析方法
CN102831248B (zh) 网络热点挖掘方法及装置
CN100440224C (zh) 一种搜索引擎性能评价的自动化处理方法
CN103729359B (zh) 一种推荐搜索词的方法及系统
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN106447346A (zh) 一种智能电力客服系统的构建方法及系统
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN108829658A (zh) 新词发现的方法及装置
CN103049542A (zh) 一种面向领域的网络信息搜索方法
CN105426514A (zh) 个性化的移动应用app推荐方法
CN104915449A (zh) 一种基于水利对象分类标签的分面检索系统及方法
CN110569273A (zh) 一种基于相关性排序的专利检索系统及方法
CN110297961A (zh) 一种政策信息的快速采集与优化提取方法
CN102214183A (zh) 按页面反馈内容与固定排名相结合的搜索引擎查询方法
Renouf et al. Filling the gaps: Using the WebCorp Linguist’s Search Engine to supplement existing text resources
CN107330111A (zh) 基于通用形式化本体的领域本体的检索方法及装置
Yang et al. The research of policy big data retrieval and analysis based on elastic search
CN103034656B (zh) 章节内容分层方法和装置、文章内容分层方法和装置
CN108804594A (zh) 一种新闻内容全文检索引擎的构建方法及装置
CN110928978A (zh) 一种标准文献分类检索方法
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
CN114238772A (zh) 内容自适应感知的网络地图智能推荐系统
CN113836434A (zh) 一种基于数据库的web页面数据处理方法
KR102041915B1 (ko) 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법
KR101201218B1 (ko) 니치 기술 영역 발견을 지원하는 니치 기술 영역 발견을 지원하는 특허 정보 처리 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180904