CN112395485A - 一种政策大数据挖掘方法、装置、计算机设备及存储介质 - Google Patents

一种政策大数据挖掘方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112395485A
CN112395485A CN202110066132.4A CN202110066132A CN112395485A CN 112395485 A CN112395485 A CN 112395485A CN 202110066132 A CN202110066132 A CN 202110066132A CN 112395485 A CN112395485 A CN 112395485A
Authority
CN
China
Prior art keywords
policy
data
request
response
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110066132.4A
Other languages
English (en)
Inventor
王楠
赵振国
李婷
钟国华
胡建敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Doctor Information Technology Research Institute Co ltd
Original Assignee
Guangzhou Doctor Information Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Doctor Information Technology Research Institute Co ltd filed Critical Guangzhou Doctor Information Technology Research Institute Co ltd
Priority to CN202110066132.4A priority Critical patent/CN112395485A/zh
Publication of CN112395485A publication Critical patent/CN112395485A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于人工智能技术领域,涉及一种政策大数据挖掘方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的目标政策数据可存储于区块链中。本申请通过网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据,并对该初始政策数据进行自动化整合,得到便于工作人员查看的目标政策数据,整个实现过程无需人工对政策数据进行查询即可获取相关信息,有效解决人力资源耗费大、人力成本高的问题,同时,可以确保提取信息的准确度且提高了数据的提取速率。

Description

一种政策大数据挖掘方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种政策大数据挖掘方法、装置、计算机设备及存储介质。
背景技术
目前出台了很多对企业有帮扶作用的政策,对企业的发展起到极大的作用,因此,对于企业而言,需要及时、快速获取第一手政策信息。
现有的政策数据挖掘方法,通常通过人工对政策进行查询获取相关信息,并在自行筛选后获取政策并进行解读,以实现政策数据挖掘的目的。
然而,申请人发现传统的政策数据挖掘方法普遍不智能,因为相关政策数量大,且制定机关不同,企业无法了解清楚和全面,通过人工对政策进行查询获取相关信息的过程会浪费了大量的人力资源,对政策的人工筛选也加大了企业的人力成本,由此可见,传统的政策数据挖掘方法存在人力资源耗费大、人力成本高的问题。
发明内容
本申请实施例的目的在于提出一种政策大数据挖掘方法、装置、计算机设备及存储介质,以解决传统的政策数据挖掘方法存在人力资源耗费大、人力成本高的问题。
为了解决上述技术问题,本申请实施例提供一种政策大数据挖掘方法,采用了如下所述的技术方案:
获取数据挖掘请求,所述数据挖掘请求至少携带有政策对象URL;
将所述政策对象URL注入至Web数据库中,得到政策对象列表;
基于网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据;
基于预设关联规则对所述初始政策数据进行关联存储操作,得到第一关联关系;
基于人工智能算法对每条所述初始政策数据中的描述信息进行提取操作,得到所述初始政策数据的政策指标、标签以及不同政策数据之间的逻辑关系;
将每条所述初始政策数据的所述政策指标、所述标签以及所述逻辑关系与所述第一关联关系进行关联存储操作,得到目标政策数据;
输出所述目标政策数据。
为了解决上述技术问题,本申请实施例还提供一种政策大数据挖掘装置,采用了如下所述的技术方案:
请求获取模块,用于获取数据挖掘请求,所述数据挖掘请求至少携带有政策对象URL;
对象列表获取模块,用于将所述政策对象URL注入至Web数据库中,得到政策对象列表;
数据抓取模块,用于基于网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据;
第一关联存储模块,用于基于预设关联规则对所述初始政策数据进行关联存储操作,得到第一关联关系;
提取操作模块,用于基于人工智能算法对每条所述初始政策数据中的描述信息进行提取操作,得到所述初始政策数据的政策指标、标签以及不同政策数据之间的逻辑关系;
第二关联存储模块,用于将每条所述初始政策数据的所述政策指标、所述标签以及所述逻辑关系与所述第一关联关系进行关联存储操作,得到目标政策数据;
数据输出模块,用于输出所述目标政策数据。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的政策大数据挖掘方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的政策大数据挖掘方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提供的政策大数据挖掘方法,通过网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据,并对该初始政策数据进行自动化整合,得到便于工作人员查看的目标政策数据,整个实现过程无需人工对政策数据进行查询即可获取相关信息,有效解决人力资源耗费大、人力成本高的问题,同时,可以确保提取信息的准确度且提高了数据的提取速率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的政策大数据挖掘方法的实现流程图;
图2是图1中步骤S103的实现流程图;
图3是本申请实施例一提供的数据抓取操作的实现流程图;
图4是本申请实施例一提供的访问模式确定方法的实现流程图;
图5是本申请实施例一提供的政策大数据挖掘装置的结构示意图:
图6是图5中数据抓取模块130的结构示意图;
图7是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
实施例一
如图1所示,示出了本申请实施例一提供的政策大数据挖掘方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
上述的政策大数据挖掘方法,包括以下步骤:
在步骤S101中,获取数据挖掘请求,数据挖掘请求至少携带有政策对象URL。
在本申请实施例中,数据挖掘请求主要用于触发本申请提供的政策大数据挖掘方法,该数据挖掘请求至少携带有政策对象URL。
在本申请实施例中,政策对象URL指的是需要进行数据抓取的网站地址,该政策对象URL可以是政府公开网站,该政策对象URL还可以是基于用户预设的特定网站地址,应当理解的是,此处对政策对象URL的举例仅为方便理解,不用于限定本申请。
在步骤S102中,将政策对象URL注入至Web数据库中,得到政策对象列表。
在本申请实施例中,考虑到抓取深层网页需要比较连续的动作和较短的间隔(尤其是对于基于会话的深层网页),因此,列表包括普通列表和优先列表,基于会话的网页的URL被存储在优先列表中,以具有较高的优先权。
在步骤S103中,基于网页抓取器对政策对象列表中的政策对象URL进行数据抓取操作,得到初始政策数据。
在步骤S104中,基于预设关联规则对初始政策数据进行关联存储操作,得到第一关联关系。
在本申请实施例中,在采集到初始政策数据之后,对于每条初始政策数据,按照政策标题、政策来源、政策所属省市区、政策所属发文单位、发文字号及发文时间进行关联存储。可选的,实际实现时还可以采用更多或者更少的关联方式关联存储,本实施例对此并不做限定。
在本申请实施例中,以上仅以在采集到初始政策数据之后,直接对政策数据进行存储来举例说明,可选的,由于采集到的初始政策数据可能会因为排版或者原始输入有误导致采集到的数据有误,因此为了避免错误,在关联存储之前,还可以先展示采集到的各条初始政策数据。
作为本申请的优化实施例,在步骤S104之前,还可以包括:
(1)、接收修正所述初始政策数据的修正请求;
修正请求用于请求修正初始政策数据中的部分或者全部内容,比如,修正初始政策数据中的所属区域、发布时间等等。
(2)、根据所述修正请求修正所述初始政策数据;
相应的,本步骤S104可以包括:
按照所述预设规则对修正后的所述初始政策数据进行关联存储。
在本申请实施例中,在审核人员对初始政策数据修正之后,即可对修正后的初始政策数据进行关联存储。
在步骤S105中,基于人工智能算法对每条初始政策数据中的描述信息进行提取操作,得到初始政策数据的政策指标、标签以及不同政策数据之间的逻辑关系。
在获取到初始政策数据之后,可以通过智能AI自动对每条初始政策数据中的详细信息进行提取,进而得到每条初始政策数据的政策指标、标签以及各条初始政策数据之间的逻辑关系。
作为示例,比如,对于步骤S104中表格中的第一条初始政策数据,提取得到的政策指标、标签可以为“人才引进”。又比如,政策1和政策2是两种并行的政策,也即企业在申请政策1之后无法申请政策2,则可以得到初始政策数据1和初始政策数据2是并行初始政策数据。
可选的,政策指标、标签还可以为诸如科技、工信、人社、发改、商务、知识产权、文广新、农业政策体系等等,在此不做限定。
在步骤S106中,将每条初始政策数据的政策指标、标签以及逻辑关系与第一关联关系进行关联存储操作,得到目标政策数据。
在得到政策指标、标签和逻辑关系之后,即可将每条初始政策数据的政策指标、标签以及逻辑关系与该条初始政策数据所对应的第一关联关系关联存储,进而得到第二关联关系。
可选的,上述第一关联关系和第二关联关系均可以存储在数据库中,其中数据库可以采用Java语言,MySQL(关系型数据库)数据库。
在步骤S107中,输出目标政策数据。
本申请提供的政策大数据挖掘方法,包括:获取数据挖掘请求,数据挖掘请求至少携带有政策对象URL;将政策对象URL注入至Web数据库中,得到政策对象列表;基于网页抓取器对政策对象列表中的政策对象URL进行数据抓取操作,得到初始政策数据;基于预设关联规则对初始政策数据进行关联存储操作,得到第一关联关系;基于人工智能算法对每条初始政策数据中的描述信息进行提取操作,得到初始政策数据的政策指标、标签以及不同政策数据之间的逻辑关系;将每条初始政策数据的政策指标、标签以及逻辑关系与第一关联关系进行关联存储操作,得到目标政策数据;输出目标政策数据。通过网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据,并对该初始政策数据进行自动化整合,得到便于工作人员查看的目标政策数据,整个实现过程无需人工对政策数据进行查询即可获取相关信息,有效解决人力资源耗费大、人力成本高的问题,同时,可以确保提取信息的准确度且提高了数据的提取速率。
继续参阅图2,示出了图1中步骤S103的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S103具体包括:步骤S201、步骤S202以及步骤S203。
在步骤S201中,判断政策对象URL的起始网页是否满足预设的抓取触发条件。
在步骤S202中,若起始网页满足预设的抓取触发条件,则触发与起始网页相对应的访问模式进行数据抓取操作,访问模式包括请求参数槽、响应参数槽、以及请求参数槽与响应参数槽的对应关系,请求参数槽中包括请求参数、以及请求参数槽与响应参数槽的匹配关系,响应参数槽中包括响应参数、以及关于响应参数在http响应消息中的提取位置的提取位置信息。
在步骤S203中,若起始网页不满足预设的抓取触发条件,则取消数据抓取操作。
在本申请实施例中,访问模式本身相关的抓取流程可以是根据响应参数槽中的提取位置信息,从起始网页的http响应消息中提取响应参数,并将其填充到响应参数槽中;根据请求参数槽与响应参数槽的匹配关系,将与其匹配的响应参数槽中的响应参数,填充到请求参数槽中作为请求参数;根据对应于同一请求的一个或更多个请求参数槽的请求参数,生成请求消息并将其加入优先队列,以由网页抓取器优先抓取;根据请求参数槽与响应参数槽的对应关系,找到与所述一个或更多个请求参数槽对应的响应参数槽,并按照找到的响应参数槽中的提取位置信息,从所抓取的响应消息中提取响应参数,并将所提取的响应参数填充到响应参数槽中;以及重复上述步骤直至获得访问模式中的最后一级的响应消息,将该响应消息作为所抓取的网页。
在本申请实施例中,上述方法适用于对深层网页的抓取。在既能抓取深层网页又能抓取表层网页的网页抓取方法中,可以设定适当的触发条件触发深层网页的抓取。深层网页抓取的起始网页必然是表层网页,因此,可以在起始网页的网址满足预定的触发条件时,触发相应的访问模式来进行网页的抓取。
继续参阅图3,示出了本申请实施例一提供的数据抓取操作的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S202具体包括:步骤S301、步骤S302以及步骤S303。
在步骤S301中,发送请求消息,以得到对应的响应消息。
在步骤S302中,根据请求参数槽与响应参数槽的对应关系,找到对应的响应参数槽。
在步骤S303中,基于响应参数槽中的提取位置信息,从所得到的响应消息中提取响应参数,并将所提取的响应参数填充到该响应参数槽中。
继续参阅图4,示出了本申请实施例一提供的访问模式确定方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S202具体包括:步骤S401以及步骤S402。
在步骤S401中,收集与起始网页的访问相关的http消息流。
在步骤S402中,在http消息流中基于起始网页的http响应消息和目标http请求消息确定与目标http请求消息相关的访问模式。
在本申请实施例中,当用户在浏览器上访问深层网页的时候,http消息的收集来自观察到的http流。这些观察数据可以从代理或者浏览器的插件中收集到。所收集的http消息流可由请求参数槽和响应参数槽表征。
在本实施例的一些可选的实现方式中,步骤S402具体包括:从与目标http请求消息所对应的请求参数槽开始,搜索与请求参数槽匹配的响应参数槽以及与响应参数槽对应的请求参数槽,直至所搜索到的响应参数槽对应于起始网页的http响应消息,从而得到连接对应于起始网页的http响应消息的响应参数槽与对应于目标http请求消息的请求参数槽的路径;以及验证所得到的路径,以得到访问模式。
在本申请实施例中,在用户的操作下,浏览器发出http请求消息,作为请求的响应,服务器发来html网页。浏览器解析收到的html网页,然后基于被解析的结果发出接下来的http请求消息,因此观察到的http消息是根据发送时间来排序的。除此之外,在请求头中的referer字段指出了哪个网页发送了该请求。基于这两个事实,可以创建森林来反映这种http消息中的层次关系。正如图2所示,所有属于a.html的链接实际上根据访问顺序建立一棵树。在图2中,b.html被加载并且被插入到a.html的DOM中,这是由j.js在a.html加载的时候自动进行的,是一个典型的Ajax的应用。b.html的referer字段仍然是a.html。并且c.jsp是在浏览器中由用户的点击所提交的表单。在这个场景下,c.jsp的请求的参数来自a.html,也可能来自b.html。这棵树有两个特征:(1)如果一个节点有子节点,那么仅仅最后一个子节点有后代;(2)先根遍历的结果,在图2中是a.html→1.css→j.js→b.html→c.jsp→......,正是http消息访问的顺序。因此,这棵树反映了在深层网页的访问模式中的请求的顺序。参数能从最高的节点一直传递到底下的节点。从观察数据中,能够创建几棵这样的树。
在本申请实施例中,访问模式的确定基于起始(表层)网页的http响应消息和目标http消息。目标http消息包括目标http请求消息和目标http响应消息。目标http响应消息就是用户所感兴趣的网页。搜索步骤可采用两种搜索策略,即精确搜索和模糊搜索。这两种搜索策略的区别在于搜索的范围不同。
在本申请实施例中,从目标http请求消息开始,搜索如下的响应参数槽:该响应参数槽中的响应参数的名称和值匹配目标http请求消息的请求参数的名称和值(即步骤S61)。如果找到了这样的响应参数槽,则将该响应参数槽所对应的http消息按时间顺序加入到访问模式中。此时,与该响应参数槽对应的请求参数槽也被加入到访问模式中。在目标http请求消息中的每个请求参数槽都找到与其匹配的响应参数槽之后,新加入的http请求消息将作为新的目标http请求消息,重复上述寻找匹配关系的步骤,直到起始(表层)网页的http响应消息(即步骤S63-S64)。注意,每次搜索迭代中,都是在收集到的http消息集合中,按照时间上的相反顺序,一个接一个地搜索http消息,直到起始的消息。即反向遍历访问模式中的每个http消息,直到起初http消息。经过上述步骤,所有的与访问模式相关的http消息和它们之间的关系都可以被找到,即得到连接对应于起始网页的http响应消息的响应参数槽与对应于目标http请求消息的请求参数槽的路径(即步骤S65),显然上述路径很可能是不唯一的。因此,还需要验证所得到的路径,以得到访问模式。一种验证的方式是:所收集的http消息对应用户不止一次对同一深层网页的访问。因而,可以针对多次访问进行多次上述步骤S61-S65的搜索过程。在多次搜索结果中重复的路径应被判断为正确的反映了访问模式的路径。如果有多条路径被多次重复,则可随机选择其中之一作为访问模式。
进一步的,上述搜索过程中的候选的响应参数槽是从网页分析的结果和http响应消息的头字段中生成的,例如:(1)在网页中所有的input和textarea元素;(2)表单的动作(action)的URL;(3)消息头中的Set-Cookie字段;(4)URL的查询(query)部分;(5)其他已知的数据格式:json,xml等。
进一步的,随着Javascript的存在,有许多例外情况。例如,(1)下一个请求的referer字段可以被修改;(2)在提交表单的时候,参数的值可以被动态地改变。对于上述情况,可能会在采用精确搜索时无法找到匹配的响应参数槽。或者精确搜索得到的多条路径在验证步骤中均验证失败。模糊搜索正是为了解决这一问题而设计的,其搜索范围扩大到所有的在目标消息之前的响应。所有的元素的属性将被检查。如果所有元素的属性都被检查也无法找到匹配的响应参数槽,则将会采用字符串匹配的方式。
在本申请实施例中,在精确搜索验证失败的情况下,会采用模糊搜索和进行模糊搜索结果的验证,如果模糊搜索的结果也都验证失败,则整个访问模式的确定过程失败。
在本申请实施例中,由于根据本发明的网页抓取方法基于访问模式,因此,只要网站没有较大的改动,访问模式基本不变。如果网站内容的改变导致访问模式的改变,只需要重新确定访问模式以进行更新即可。
需要强调的是,为进一步保证上述目标政策数据的私密和安全性,上述目标政策数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图5,作为对上述图1所示方法的实现,本申请提供了一种政策大数据挖掘装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的政策大数据挖掘装置100包括:请求获取模块110、对象列表获取模块120、数据抓取模块130、第一关联存储模块140、提取操作模块150、第二关联存储模块160以及数据输出模块170。其中:
请求获取模块110,用于获取数据挖掘请求,数据挖掘请求至少携带有政策对象URL;
对象列表获取模块120,用于将政策对象URL注入至Web数据库中,得到政策对象列表;
数据抓取模块130,用于基于网页抓取器对政策对象列表中的政策对象URL进行数据抓取操作,得到初始政策数据;
第一关联存储模块140,用于基于预设关联规则对初始政策数据进行关联存储操作,得到第一关联关系;
提取操作模块150,用于基于人工智能算法对每条初始政策数据中的描述信息进行提取操作,得到初始政策数据的政策指标、标签以及不同政策数据之间的逻辑关系;
第二关联存储模块160,用于将每条初始政策数据的政策指标、标签以及逻辑关系与第一关联关系进行关联存储操作,得到目标政策数据;
数据输出模块170,用于输出目标政策数据。
在本申请实施例中,数据挖掘请求主要用于触发本申请提供的政策大数据挖掘方法,该数据挖掘请求至少携带有政策对象URL。
在本申请实施例中,政策对象URL指的是需要进行数据抓取的网站地址,该政策对象URL可以是政府公开网站,该政策对象URL还可以是基于用户预设的特定网站地址,应当理解的是,此处对政策对象URL的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,考虑到抓取深层网页需要比较连续的动作和较短的间隔(尤其是对于基于会话的深层网页),因此,列表包括普通列表和优先列表,基于会话的网页的URL被存储在优先列表中,以具有较高的优先权。
在本申请实施例中,在采集到初始政策数据之后,对于每条初始政策数据,按照政策标题、政策来源、政策所属省市区、政策所属发文单位、发文字号及发文时间进行关联存储。可选的,实际实现时还可以采用更多或者更少的关联方式关联存储,本实施例对此并不做限定。
在本申请实施例中,以上仅以在采集到初始政策数据之后,直接对政策数据进行存储来举例说明,可选的,由于采集到的初始政策数据可能会因为排版或者原始输入有误导致采集到的数据有误,因此为了避免错误,在关联存储之前,还可以先展示采集到的各条初始政策数据。
在获取到初始政策数据之后,可以通过智能AI(ArtificialIntelligence,人工智能)自动对每条初始政策数据中的详细信息进行提取,进而得到每条初始政策数据的政策指标、标签以及各条初始政策数据之间的逻辑关系。
作为示例,比如,对于步骤S104中表格中的第一条初始政策数据,提取得到的政策指标、标签可以为“人才引进”。又比如,政策1和政策2是两种并行的政策,也即企业在申请政策1之后无法申请政策2,则可以得到初始政策数据1和初始政策数据2是并行初始政策数据。
可选的,政策指标、标签还可以为诸如科技、工信、人社、发改、商务、知识产权、文广新、农业政策体系等等,在此不做限定。
在得到政策指标、标签和逻辑关系之后,即可将每条初始政策数据的政策指标、标签以及逻辑关系与该条初始政策数据所对应的第一关联关系关联存储,进而得到第二关联关系。
可选的,上述第一关联关系和第二关联关系均可以存储在数据库中,其中数据库可以采用Java语言,MySQL(关系型数据库)数据库。
本申请提供的政策大数据挖掘装置,通过网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据,并对该初始政策数据进行自动化整合,得到便于工作人员查看的目标政策数据,整个实现过程无需人工对政策数据进行查询即可获取相关信息,有效解决人力资源耗费大、人力成本高的问题,同时,可以确保提取信息的准确度且提高了数据的提取速率。
继续参阅图6,示出了图5中数据抓取模块130的结构示意图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述数据抓取模块130包括:触发条件判断子模块131、抓取执行子模块132以及抓取取消子模块133。其中:
触发条件判断子模块131,用于判断政策对象URL的起始网页是否满足预设的抓取触发条件;
抓取执行子模块132,用于若起始网页满足预设的抓取触发条件,则触发与起始网页相对应的访问模式进行数据抓取操作,访问模式包括请求参数槽、响应参数槽、以及请求参数槽与响应参数槽的对应关系,请求参数槽中包括请求参数、以及请求参数槽与响应参数槽的匹配关系,响应参数槽中包括响应参数、以及关于响应参数在http响应消息中的提取位置的提取位置信息;
抓取取消子模块133,用于若起始网页不满足预设的抓取触发条件,则取消数据抓取操作。
在本申请实施例中,访问模式本身相关的抓取流程可以是根据响应参数槽中的提取位置信息,从起始网页的http响应消息中提取响应参数,并将其填充到响应参数槽中;根据请求参数槽与响应参数槽的匹配关系,将与其匹配的响应参数槽中的响应参数,填充到请求参数槽中作为请求参数;根据对应于同一请求的一个或更多个请求参数槽的请求参数,生成请求消息并将其加入优先队列,以由网页抓取器优先抓取;根据请求参数槽与响应参数槽的对应关系,找到与所述一个或更多个请求参数槽对应的响应参数槽,并按照找到的响应参数槽中的提取位置信息,从所抓取的响应消息中提取响应参数,并将所提取的响应参数填充到响应参数槽中;以及重复上述步骤直至获得访问模式中的最后一级的响应消息,将该响应消息作为所抓取的网页。
在本申请实施例中,上述方法适用于对深层网页的抓取。在既能抓取深层网页又能抓取表层网页的网页抓取方法中,可以设定适当的触发条件触发深层网页的抓取。深层网页抓取的起始网页必然是表层网页,因此,可以在起始网页的网址满足预定的触发条件时,触发相应的访问模式来进行网页的抓取。
在本实施例的一些可选的实现方式中,上述抓取执行子模块132包括:请求发送单元、响应参数槽确认单元以及响应参数获取单元。其中:
请求发送单元,用于发送请求消息,以得到对应的响应消息;
响应参数槽确认单元,用于根据请求参数槽与响应参数槽的对应关系,找到对应的响应参数槽;
响应参数获取单元,用于基于所述响应参数槽中的提取位置信息,从所得到的响应消息中提取响应参数,并将所提取的响应参数填充到该响应参数槽中。
在本实施例的一些可选的实现方式中,上述抓取执行子模块132还包括:消息流收集单元以及访问模式确定单元。其中:
消息流收集单元,用于收集与所述起始网页的访问相关的http消息流;
访问模式确定单元,用于在http消息流中基于所述起始网页的http响应消息和目标http请求消息确定与目标http请求消息相关的所述访问模式。
在本实施例的一些可选的实现方式中,上述访问模式确定单元包括:访问模式确定子单元。其中:
访问模式确定子单元,用于从与所述目标http请求消息所对应的请求参数槽开始,搜索与所述请求参数槽匹配的响应参数槽以及与所述响应参数槽对应的请求参数槽,直至所搜索到的响应参数槽对应于起始网页的http响应消息,从而得到连接对应于起始网页的http响应消息的响应参数槽与对应于目标http请求消息的请求参数槽的路径;以及验证所得到的路径,以得到访问模式。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是,图中仅示出了具有组件210-230的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器210至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器210可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器210也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如政策大数据挖掘方法的计算机可读指令等。此外,所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据,例如运行所述政策大数据挖掘方法的计算机可读指令。
所述网络接口230可包括无线网络接口或有线网络接口,该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
本申请提供的计算机设备200,通过网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据,并对该初始政策数据进行自动化整合,得到便于工作人员查看的目标政策数据,整个实现过程无需人工对政策数据进行查询即可获取相关信息,有效解决人力资源耗费大、人力成本高的问题,同时,可以确保提取信息的准确度且提高了数据的提取速率。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的政策大数据挖掘方法的步骤。
本申请提供的计算机可读存储介质,通过网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据,并对该初始政策数据进行自动化整合,得到便于工作人员查看的目标政策数据,整个实现过程无需人工对政策数据进行查询即可获取相关信息,有效解决人力资源耗费大、人力成本高的问题,同时,可以确保提取信息的准确度且提高了数据的提取速率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种政策大数据挖掘方法,其特征在于,包括下述步骤:
获取数据挖掘请求,所述数据挖掘请求至少携带有政策对象URL;
将所述政策对象URL注入至Web数据库中,得到政策对象列表;
基于网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据;
基于预设关联规则对所述初始政策数据进行关联存储操作,得到第一关联关系;
基于人工智能算法对每条所述初始政策数据中的描述信息进行提取操作,得到所述初始政策数据的政策指标、标签以及不同政策数据之间的逻辑关系;
将每条所述初始政策数据的所述政策指标、所述标签以及所述逻辑关系与所述第一关联关系进行关联存储操作,得到目标政策数据;
输出所述目标政策数据。
2.根据权利要求1所述的政策大数据挖掘方法,其特征在于,所述基于网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据的步骤,具体包括:
判断所述政策对象URL的起始网页是否满足预设的抓取触发条件;
若所述起始网页满足预设的抓取触发条件,则触发与所述起始网页相对应的访问模式进行所述数据抓取操作,所述访问模式包括请求参数槽、响应参数槽、以及请求参数槽与响应参数槽的对应关系,请求参数槽中包括请求参数、以及请求参数槽与响应参数槽的匹配关系,响应参数槽中包括响应参数、以及关于响应参数在http响应消息中的提取位置的提取位置信息;
若所述起始网页不满足预设的抓取触发条件,则取消所述数据抓取操作。
3.根据权利要求2所述的政策大数据挖掘方法,其特征在于,所述触发与所述起始网页相对应的访问模式进行所述数据抓取操作的步骤,具体包括:
发送请求消息,以得到对应的响应消息;
根据请求参数槽与响应参数槽的对应关系,找到对应的响应参数槽;
基于所述响应参数槽中的提取位置信息,从所得到的响应消息中提取响应参数,并将所提取的响应参数填充到该响应参数槽中。
4.根据权利要求2所述的政策大数据挖掘方法,其特征在于,所述触发与所述起始网页相对应的访问模式进行所述数据抓取操作的步骤,具体包括:
收集与所述起始网页的访问相关的http消息流;
在http消息流中基于所述起始网页的http响应消息和目标http请求消息确定与目标http请求消息相关的所述访问模式。
5.根据权利要求4所述的政策大数据挖掘方法,其特征在于,所述在http消息流中基于所述起始网页的http响应消息和目标http请求消息确定与目标http请求消息相关的所述访问模式的步骤,具体包括:
从与所述目标http请求消息所对应的请求参数槽开始,搜索与所述请求参数槽匹配的响应参数槽以及与所述响应参数槽对应的请求参数槽,直至所搜索到的响应参数槽对应于起始网页的http响应消息,从而得到连接对应于起始网页的http响应消息的响应参数槽与对应于目标http请求消息的请求参数槽的路径;以及验证所得到的路径,以得到访问模式。
6.根据权利要求1所述的政策大数据挖掘方法,其特征在于,在所述输出所述目标政策数据的步骤之后还包括:
将所述目标政策数据存储至区块链中。
7.一种政策大数据挖掘装置,其特征在于,包括:
请求获取模块,用于获取数据挖掘请求,所述数据挖掘请求至少携带有政策对象URL;
对象列表获取模块,用于将所述政策对象URL注入至Web数据库中,得到政策对象列表;
数据抓取模块,用于基于网页抓取器对所述政策对象列表中的所述政策对象URL进行数据抓取操作,得到初始政策数据;
第一关联存储模块,用于基于预设关联规则对所述初始政策数据进行关联存储操作,得到第一关联关系;
提取操作模块,用于基于人工智能算法对每条所述初始政策数据中的描述信息进行提取操作,得到所述初始政策数据的政策指标、标签以及不同政策数据之间的逻辑关系;
第二关联存储模块,用于将每条所述初始政策数据的所述政策指标、所述标签以及所述逻辑关系与所述第一关联关系进行关联存储操作,得到目标政策数据;
数据输出模块,用于输出所述目标政策数据。
8.根据权利要求7所述的政策大数据挖掘装置,其特征在于,所述数据抓取模块包括:
触发条件判断子模块,用于判断所述政策对象URL的起始网页是否满足预设的抓取触发条件;
抓取执行子模块,用于若所述起始网页满足预设的抓取触发条件,则触发与所述起始网页相对应的访问模式进行所述数据抓取操作,所述访问模式包括请求参数槽、响应参数槽、以及请求参数槽与响应参数槽的对应关系,请求参数槽中包括请求参数、以及请求参数槽与响应参数槽的匹配关系,响应参数槽中包括响应参数、以及关于响应参数在http响应消息中的提取位置的提取位置信息;
抓取取消子模块,用于若所述起始网页不满足预设的抓取触发条件,则取消所述数据抓取操作。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的政策大数据挖掘方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的政策大数据挖掘方法的步骤。
CN202110066132.4A 2021-01-19 2021-01-19 一种政策大数据挖掘方法、装置、计算机设备及存储介质 Pending CN112395485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110066132.4A CN112395485A (zh) 2021-01-19 2021-01-19 一种政策大数据挖掘方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110066132.4A CN112395485A (zh) 2021-01-19 2021-01-19 一种政策大数据挖掘方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112395485A true CN112395485A (zh) 2021-02-23

Family

ID=74625617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110066132.4A Pending CN112395485A (zh) 2021-01-19 2021-01-19 一种政策大数据挖掘方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112395485A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539502A (zh) * 2021-07-15 2021-10-22 中国人民解放军联勤保障部队第九六〇医院 一种基于临床电子病历的药品不良反应数据模拟算法
CN113592368A (zh) * 2021-09-29 2021-11-02 深圳市指南针医疗科技有限公司 指标数据的提取方法、装置、设备及存储介质
CN115221205A (zh) * 2022-09-09 2022-10-21 中电科新型智慧城市研究院有限公司 政策确定方法、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719129A (zh) * 2009-12-31 2010-06-02 浙江大学 一种采用人工智能技术自动提取关键字的方法
US20110161338A1 (en) * 2009-12-22 2011-06-30 Carrier Iq, Inc Dynamic tasking-masking server apparatus, system, and method for dynamically configuring adaptive agents in wireless devices
CN103294732A (zh) * 2012-03-05 2013-09-11 富士通株式会社 网页抓取方法及爬虫
CN103985023A (zh) * 2014-06-11 2014-08-13 国家电网公司 智能变电站二次设备运维决策支持系统及数据挖掘方法
CN110297961A (zh) * 2019-06-26 2019-10-01 广州博士信息技术研究院有限公司 一种政策信息的快速采集与优化提取方法
CN112102137A (zh) * 2020-09-21 2020-12-18 江苏风云科技服务有限公司 政策数据处理方法、装置和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161338A1 (en) * 2009-12-22 2011-06-30 Carrier Iq, Inc Dynamic tasking-masking server apparatus, system, and method for dynamically configuring adaptive agents in wireless devices
CN101719129A (zh) * 2009-12-31 2010-06-02 浙江大学 一种采用人工智能技术自动提取关键字的方法
CN103294732A (zh) * 2012-03-05 2013-09-11 富士通株式会社 网页抓取方法及爬虫
CN103985023A (zh) * 2014-06-11 2014-08-13 国家电网公司 智能变电站二次设备运维决策支持系统及数据挖掘方法
CN110297961A (zh) * 2019-06-26 2019-10-01 广州博士信息技术研究院有限公司 一种政策信息的快速采集与优化提取方法
CN112102137A (zh) * 2020-09-21 2020-12-18 江苏风云科技服务有限公司 政策数据处理方法、装置和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539502A (zh) * 2021-07-15 2021-10-22 中国人民解放军联勤保障部队第九六〇医院 一种基于临床电子病历的药品不良反应数据模拟算法
CN113592368A (zh) * 2021-09-29 2021-11-02 深圳市指南针医疗科技有限公司 指标数据的提取方法、装置、设备及存储介质
CN115221205A (zh) * 2022-09-09 2022-10-21 中电科新型智慧城市研究院有限公司 政策确定方法、设备及存储介质
CN115221205B (zh) * 2022-09-09 2023-01-06 中电科新型智慧城市研究院有限公司 政策确定方法、设备及存储介质

Similar Documents

Publication Publication Date Title
US11722514B1 (en) Dynamic vulnerability correlation
CN112395485A (zh) 一种政策大数据挖掘方法、装置、计算机设备及存储介质
US8601434B2 (en) Method and system for information processing and test case generation
US20150033331A1 (en) System and method for webpage analysis
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
US9298850B2 (en) System and method for exclusion of irrelevant data from a DOM equivalence
CN104766014A (zh) 用于检测恶意网址的方法和系统
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN111125598A (zh) 数据智能查询方法、装置、设备及存储介质
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN115033894B (zh) 一种基于知识图谱的软件组件供应链安全检测方法及装置
CN109614319B (zh) 自动化测试方法、装置、电子设备及计算机可读介质
CN115150261B (zh) 告警分析的方法、装置、电子设备及存储介质
CN110147476A (zh) 基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质
WO2022179128A1 (zh) 基于爬虫的数据抓取方法、装置、计算机设备及存储介质
CN112989348A (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN103150647A (zh) 报表文件处理方法、服务器和系统
CN114491560A (zh) 一种漏洞检测方法、装置、存储介质及电子设备
CN111797297B (zh) 页面数据处理方法、装置、计算机设备及存储介质
CN113434400A (zh) 测试用例的执行方法、装置、计算机设备及存储介质
CN116186716A (zh) 一种面向持续集成部署的安全分析方法及装置
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN112464242A (zh) 一种网页平台漏洞采集方法、系统、终端及存储介质
CN116304458B (zh) 一种web页面实时通知更新方法、装置、设备及介质
CN114172725B (zh) 非法网站的处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210223