CN112989195A - 基于大数据的全过程咨询方法、装置、电子设备及存储介质 - Google Patents

基于大数据的全过程咨询方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112989195A
CN112989195A CN202110298985.0A CN202110298985A CN112989195A CN 112989195 A CN112989195 A CN 112989195A CN 202110298985 A CN202110298985 A CN 202110298985A CN 112989195 A CN112989195 A CN 112989195A
Authority
CN
China
Prior art keywords
information
webpage
target
policy
webpages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110298985.0A
Other languages
English (en)
Other versions
CN112989195B (zh
Inventor
丁娟
张庆
张丽彩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Tuqiang Engineering Technology Consulting Co ltd
Original Assignee
Chongqing Tuqiang Engineering Technology Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Tuqiang Engineering Technology Consulting Co ltd filed Critical Chongqing Tuqiang Engineering Technology Consulting Co ltd
Priority to CN202110298985.0A priority Critical patent/CN112989195B/zh
Publication of CN112989195A publication Critical patent/CN112989195A/zh
Application granted granted Critical
Publication of CN112989195B publication Critical patent/CN112989195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及基于大数据的全过程咨询方法、装置、电子设备及存储介质,其方法包括:获取目标网站中的目标网页并根据所述目标网页确定选中网页,所述每个目标网站对应多个所述目标网页,所述选中网页为所述目标网页中的至少一个;获取当前项目组信息,所述项目组信息包含多个当前项目信息;解析所述选中网页以得到政策名称信息;将所述政策名称信息与每个所述当前项目信息进行匹配,若匹配成功,则将匹配成功的所述政策名称信息作为选中政策信息;解析所述选中政策信息所在的所述选中网页,以获取与所述选中政策信息对应的引用信息,反馈所述引用信息。本申请具有便于规划人员快速收集与项目匹配的政策信息的效果。

Description

基于大数据的全过程咨询方法、装置、电子设备及存储介质
技术领域
本申请涉及大数据技术的领域,尤其是涉及基于大数据的全过程咨询方法、装置、电子设备及存储介质。
背景技术
全过程工程咨询是指对建设项目全生命周期提供组织、管理、经济和技术等各有关方面的工程咨询服务,包括项目的全过程工程项目管理以及投资咨询、勘察、设计、造价咨询、招标代理、监理、运行维护咨询以及BIM咨询等专业咨询服务,全过程工程咨询具有全过程化和集成化的特点。
PPP项目在初期规划时,需要收集与实施项目相关的政府政策信息,便于规划人员制作交流、合作的过程展示文档。
针对上述中的相关技术,发明人认为存在以下缺陷:相关技术中需要规划人员手动根据项目信息在政府网站上下载相关与项目相关的政策信息,增加了规划人员工作步骤。
发明内容
为了便于规划人员快速收集与项目匹配的政策信息,本申请提供基于大数据的全过程咨询方法、装置、电子设备及存储介质。
第一方面,本申请提供一种基于大数据的全过程咨询方法,采用如下的技术方案:一种基于大数据的全过程咨询方法,包括:
获取目标网站中的目标网页并根据所述目标网页确定选中网页以及获取当前项目组信息,所述每个目标网站对应多个所述目标网页,所述选中网页为所述目标网页中的至少一个,所述项目组信息包含多个当前项目信息,任一当前项目信息包括项目领域信息和项目名称信息;解析所述选中网页以得到政策名称信息;
将所述政策名称信息与每个所述当前项目信息进行匹配,若匹配成功,则将匹配成功的所述政策名称信息作为选中政策信息;
解析所述选中政策信息所在的所述选中网页,以获取与所述选中政策信息对应的引用信息,反馈所述引用信息,所述引用信息为与所述选中政策信息相对应的政策内容信息。
通过采用上述技术方案,目标网页为政策信息发布单位发布信息的网页,从多个目标网页中确定选中网页后,解析选中网页以获取选中网页中的政策名称信息,若存在当前项目信息与所述政策名称信息匹配成功,则说明所述政策名称信息与当前项目信息存在关联性,此时自动获取选中政策信息对应的引用信息(即政策内容信息),如此不但实现了根据当前项目信息选取与其相关联的选中政策信息的功能,还达到了自动调用选中政策信息对应的引用信息的效果。
在一种可能的实现方式中,根据所述目标网页确定选中网页,包括:
判断所述目标网站对应的任一所述目标网页是否满足上报触发条件,所述上报触发条件包括发表新文章触发上报、文章内容更新触发上报以及定时触发上报中的至少一种;
若所述任一所述目标网页满足所述上报触发条件,则将该所述任一目标网页作为选中网页,所述选中网页对应的所述目标网站主动上报满足上报触发条件的所述选中网页。
通过采用上述技术方案,若目标网页满足上报触发条件,即该目标网页中存在文章内容更新、发表新文章或者是定时触发中的至少一种,上报选中网页,实现了对所有目标网站以及每个目标网站对应的目标网页的更新内容进行监控的功能。
在一种可能的实现方式中,
以时间轴为存储顺序存储预设历史时间段内的被上报的选中网页;
将所有所述选中网页根据所述网页标识信息进行分类;
将属于同一类别且在时间轴上相邻的两个所述选中网页分别作为第一网页和第二网页;
解析所述第一网页以及解析所述第二网页;对比解析后的所述第一网页以及解析后的所述第二网页以获得对比结果信息,所述对比结果信息包括相同信息和差异信息。
通过采用上述技术方案,同一目标网站对应有多个目标网页,每个目标网页在不同时间点上对应的选中网页为属于同一类别,在时间轴上相邻的同一类别的两个选中网页分别为第一网页和第二网页,将解析后的第一网页的页面信息以及解析后的第二网页进行比对,并输出对比结果信息,即可得到该目标网页中更新的内容。
在一种可能的实现方式中,解析所述选中政策信息所在的所述选中网页以获取与所述选中政策信息对应的引用信息,包括:
解析所述选中网页对应的所有第一引用资源的下载地址,所述每个第一引用资源与每个所述选中政策信息对应,所述第一引用资源包括图片、文本、链接、脚本、样式表、网页、插件中的任意一种或多种;
若所述第一引用资源的下载地址被成功解析,则获得第一引用资源的下载地址的下载链接,根据所获得的下载链接下载第一引用资源,所述下载的第一引用资源即为与所述选中政策信息对应的所述引用信息。
通过采用上述技术方案,解析所述选中网页中与所述选中政策信息对应的第一引用资源的下载地址,解析成功后,下载该与所述选中政策信息对应的第一引用资源作为引用信息,即可实现获取选中网页内所需的政策内容信息的功能。
在一种可能的实现方式中,所述咨询方法还包括:
解析所述引用信息对应的时间点信息;
建立时间表,将每个所述引用信息对应所述时间点信息存储于所述时间表中。
通过采用上述技术方案,通过解析引用信息中的时间点信息并存储,便于规划人员对可参与或申报的项目的时间节点进行统计,达到了便于规划人员对文件的时间节点进行统计的功能。
第二方面,本申请提供一种基于大数据的全过程咨询装置,采用如下的技术方案:一种基于大数据的全过程咨询装置,包括:
获取模块,获取目标网站中的目标网页并根据所述目标网页确定选中网页以及获取当前项目组信息,所述每个目标网站对应多个所述目标网页,所述选中网页为所述目标网页中的至少一个,所述项目组信息包含多个当前项目信息,任一当前项目信息包括项目领域信息和项目名称信息;
解析模块,解析所述选中网页以得到政策名称信息;
匹配模块,将所述政策名称信息与每个所述当前项目信息进行匹配,若匹配成功,则将匹配成功的所述政策名称信息作为选中政策信息;
反馈模块,解析所述选中政策信息所在的所述选中网页,以获取与所述选中政策信息对应的引用信息,反馈所述引用信息,所述引用信息为与所述选中政策信息相对应的政策内容信息。
通过采用上述技术方案,目标网页为政策信息发布单位发布信息的网页,从多个目标网页中确定选中网页后,解析选中网页以获取选中网页中的政策名称信息,若存在当前项目信息与所述政策名称信息匹配成功,则说明所述政策名称信息与当前项目信息存在关联性,此时自动获取选中政策信息对应的引用信息(即政策内容信息),不但实现了根据当前项目信息选取与其相关联的选中政策信息的功能,还达到了自动调用选中政策信息对应的引用信息的效果。
在一种可能的实现方式中,获取模块根据所述目标网页确定选中网页,包括:
判断模块,判断所述目标网站对应的任一所述目标网页是否满足上报触发条件,所述上报触发条件包括发表新文章触发上报、文章内容更新触发上报以及定时触发上报中的至少一种;上报模块,若所述任一所述目标网页满足所述上报触发条件,则将该所述任一目标网页作为选中网页,所述选中网页对应的所述目标网站主动上报满足上报触发条件的所述选中网页。
在一种可能的实现方式中,反馈模块解析所述选中政策信息所在的所述选中网页以获取与所述选中政策信息对应的引用信息,包括:
解析所述选中网页对应的所有第一引用资源的下载地址,所述每个第一引用资源与每个所述选中政策信息对应,所述第一引用资源包括图片、文本、链接、脚本、样式表、网页、插件中的任意一种或多种;
若所述第一引用资源的下载地址被成功解析,则获得第一引用资源的下载地址的下载链接,根据所获得的下载链接下载第一引用资源,所述下载的第一引用资源即为与所述选中政策信息对应的所述引用信息。
第三方面,本申请提供一种电子设备,采用如下的技术方案:
一种电子设备,可选的,所述电子设备包括处理器、一个或多个处理器存储器以及一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行上述任一项所述的基于大数据的全过程咨询方法。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,包括:存储有能够被处理器加载并执行如上述任一种基于大数据的全过程咨询方法的计算机程序。
附图说明
图1是本申请实施例基于大数据的全过程咨询方法的流程图;
图2是本申请实施例基于大数据的全过程咨询装置的示意图;
图3是本申请实施例电子设备的示意图。
具体实施方式
以下结合附图对本申请作进一步详细说明。
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种基于大数据的全过程咨询方法,可以由电子设备执行,参照图1,该方法可以包括:
步骤S101、获取目标网站中的目标网页并根据目标网页确定选中网页,获取当前项目组信息。
其中,网站由域名、空间服务器、网页程序组成,通常可分为动态网站和静态网站,所谓静态网站是指网站完全是由静态的网页组成,其后缀名称通常是.html或者.htm,这样的网站特点是体积小,打开速度快,但是无法对网站的内容进行修改,还有一种就是动态网站其后缀名称通常是php、asp、aspx等等,这种网站的特点是网站的内容可以通过后台修改,企业通常制作的都是这类网站,网站的类型一般分为:个人网站,企业网站,政府网站,电子商务类网站等等。而网页是一个专门为用户可以在网页浏览器上直接浏览而创立的一个文件系统,它通常被分为静态网页和动态网页两种,构成网页的元素一般包含文字,图片,视频,音频等等,可以让客户通过互联网直接浏览网页上的资源而不用下载到本地计算机上,网页是要在网站上显示的内容,网站是用于显示内容的位置。
具体地,每个目标网站对应多个目标网页,目标网站对应政府网站,目标网页为政策信息发布信息的网页,选中网页为目标网页中的至少一个;项目组信息包含多个当前项目信息,每个当前项目信息包括项目领域信息和项目名称信息,例如:“武汉市水污染防治行动计划”、“重庆市长江保护修复攻坚战行动计划”等等,项目领域信息包括:水利设计、文旅景观、农林设计、工程造价等等,每个项目名称信息至少对应一个项目领域信息。
参照图1,
步骤S102、解析选中网页以得到政策名称信息。
其中,政策名称信息为由选中网页的页面上解析得到的政策名称信息,解析选中网页以获取政策信息的方式可为:
其一,抓取选中网页对应的页面内容,首先将选中网页对应的页面内容形成图片,再根据页面发布内容的特点对图片进行分割,将页面上的标题部分和正文部分分开,再接着对分割开的标题部分和正文部分分别进行识别,获取对应的文字信息,并分别对应的存储到数据表中。对抓取的页面内容进行比较,判断该内容是否为政策名称,若是,则利用抓取到的页面内容对数据表中存储的政策名称进行更新,在进行更新时,首先查找数据表中对应的内容,若查找到,则进行替换;若没有查找到,直接存储;若不是政策名称,则舍弃。
其二,加载选中网页页面是利用phantomjs构建一个浏览器平台,以此来对要分析的页面中的js来进行解析,通过phantomjs构建一个浏览器平台,将选中网页页面加载进来,这样访问网页就省去了浏览器界面绘制所消耗的系统资源,对于选中网页页面中包含的是代码,通过对加载的选中网页页面进行处理,得到转换网页页面,而转换网页页面中包含的是对象,例如转换网页页面中包含转换网页页面的文本信息,但是从选中网页页面中无法读取文本信息,所以,经过对加载的选中网页页面进行处理后可以读取到转换网页的文本信息,进而最终来获取选中网页页面的文本信息。其中,js:Javascript是一种由Netscape的 LiveScript发展而来的脚本语言,主要目的是为了解决服务器终端语言;phantomjs:是一个基于js的webkit内核无头浏览器,也就是没有显示界面的浏览器,这样访问网页就省去了浏览器的界面绘制所消耗的系统资源,比较合适用于网络测试。
参照图1,步骤S103、将政策名称信息与每个当前项目信息进行匹配,若匹配成功,则将匹配成功的政策名称信息作为选中政策信息。
其中,将政策名称信息与每个当前项目信息进行匹配,包括:
步骤S1031(图中未示出)、查找项目名称信息中的关键词信息。
其中,关键词信息包括:“水”、“土地”、“污染”、“空气”、“农田”、“林业”等等,根据关键词信息可以确定该项目属于哪一领域。
步骤S1032(图中未示出)、将项目名称信息中的关键词信息与政策名称信息进行匹配。
其中,若项目名称信息中的关键词信息与政策名称信息匹配成功,则说明该发布的政策信息与当前项目信息属于同一领域,可能具有关联性。
参照图1,步骤S104、解析选中政策信息所在的选中网页,以获取与选中政策信息对应的引用信息,反馈引用信息。
其中,引用信息为与选中政策信息相对应的政策内容信息,在选中网页的页面上除了显示的基本信息外,文字标题或图片还可能对应有下载链接,下载链接对应的内容即为政策内容信息,政策内容信息包括政策文本信息和/或政策图片信息。
确定目标网页中的选中网页后,解析选中网页以获取选中网页中的政策名称信息,若当前项目信息与政策名称信息匹配成功,则说明政策名称信息与当前项目信息相关联,此时调取与选中政策信息对应的引用信息(即政策内容信息),实现自动与当前项目信息匹配的政策名称信息以及政策内容信息的功能,基于大数据实现了数据自动匹配并上报的功能。
进一步地,步骤S101、获取目标网站中的目标网页并根据目标网页确定选中网页,具体可以包括:
步骤S1011(图中未示出)、判断目标网站对应的任一目标网页是否满足上报触发条件,任一目标网页为多个目标网页中的任一目标网页。
具体地,上报触发条件包括发表新文章触发上报、文章内容更新触发上报以及定时触发上报中的至少一种;对于资源信息类网页,其一般都有自己的更新频率,并且内容更新较少,格式也统一,因此可以遵循其本身的更新频率,其上报触发条件可以是:发表新文章触发上报,或根据回帖数量和浏览数量触发上报,或每天定时上报。
采用更新触发的方式时可设置更新触发模块,多个更新触发模块分别运行于各个目标网站(即政策发布网站)的后台服务器,实时监测后台服务器的运行情况,将后台服务器所修改内容对应的政策发布网站显示网页的页面地址存储,修改内容的对应的网页即为选中网页。
具体地,更新触发模块主要包括登陆状态监测模块、发布内容更改监测模块、更改内容网址获取模块和触发信号模块,登陆状态监测模块用于实时监测目标网站后台服务器的登陆状态,监测对应的后台服务器是否有管理用户登陆,若监测到有用户登陆到后台服务器则形成触发信号;
具体地,对于一般的政策发布网站来说,若有新的发布内容增加或修改并需通过后台服务器进入进行更新,这样通过登陆状态监测模块来监测后台服务器的登陆状态,可在第一时间内获知是否会有更新内容;若监测到后台服务器被登陆,则表明该后台服务器对应的政策发布网站将会有内容更新(具体包括增加、修改或删除内容),此时即可激活(或唤醒)发布内容更改监测模块;若没有监测到后台服务器被登陆,则表明该后台服务器对应的政策发布网站将不会有内容更新,无需激活其它模块;在具体实现时,该登陆状态监测模块作为一监测插件运行于监测政策发布网站后台服务器的登陆窗口,在具体安装时,需作为一个可信插件被后台服务器认可,避免对该后台服务器的用户登陆操作的可靠性和安全性造成影响。
具体地,更改内容网址获取模块平时处于休眠状态,在接收到发布内容更改监测模块发送的触发信号后即可唤醒工作,根据后台服务器发布内容的规则,获取后台服务器更改的发布内容所对应的发布网页页面地址,并形成触发信号连同获取的网页地址信息存储于数据表中。
步骤S1012(图中未示出)、若任一目标网页满足上报触发条件,则将该任一目标网页作为选中网页,选中网页对应的目标网站主动上报满足上报触发条件的选中网页。
其中,通过定时上报或者是获得更新信息后上报的方式,便于规划人员及时收集政府政策信息。
进一步地,步骤S104中解析选中政策信息所在的选中网页以获取与选中政策信息对应的引用信息,包括:
步骤S1041(图中未示出)、解析选中网页对应的所有第一引用资源的下载地址。
其中,每个第一引用资源与每个选中政策信息对应,第一引用资源包括图片、文本、链接、脚本、样式表、网页、插件中的任意一种或多种。
具体地,脚本——如JavaScript,VBScript——在网页中可以具有多种功能,如进行改进设计、验证表单、检测浏览器、创建cookies等;样式表(CascadingStyleSheets,CSS)是一种用来表现超文本标记语言(HyperTextMarkupLanguage,HTML)或扩展标记语言(EXtensibleMarkupLanguage,XML)等文件样式的计算机语言,可以控制网页中对象的格式、位置等属性,如控制网页中文字的字体大小、颜色等;插件可以在网页中添加视频、音频、或Flash等网页对象,可以使得网页内容变得更加丰富;网页中引用资源的下载地址可以从网页源代码中解析获得。
步骤S1042(图中未示出)、若第一引用资源的下载地址被成功解析,则获得第一引用资源的下载地址的下载链接,根据所获得的下载链接下载第一引用资源,下载的第一引用资源即为与选中政策信息对应的引用信息。
具体地,下载引用资源并存储、能够实现将监控网页上的政策内容信息自动下载并获取,存储后的网页构建成政策池,供后续查询。
进一步地,本申请实施例还包括步骤S105(图中未示出),步骤S105设于步骤S104之后,步骤S105包括:以时间轴为存储顺序存储预设历史时间段内的被上报的选中网页;将所有选中网页根据网页标识信息进行分类;将属于同一类别且在时间轴上相邻的两个选中网页分别作为第一网页和第二网页;解析第一网页以及解析第二网页;对比解析后的第一网页以及解析后的第二网页以获得对比结果信息,对比结果信息包括相同信息和差异信息。
具体地,网页标识信息为网页的URL(UniformResourceLocator),包括:协议部分、域名部分、端口部分、虚拟目录部分、文件名部分、参数部分、锚部分;属于同一列别的选中网页即为同一目标网页在不同时间点上被上报的网页;若上报触发条件为定时触发,则根据第一网页和第二网页的比对结果,形成对比结果信息,便于规划人员及时查找该目标网页中更新的内容。
进一步地,本申请实施例还包括步骤S106(图中未示出),步骤S106设于步骤S104之后,可设于步骤S105之前、步骤S105至步骤S106之间,或者是步骤S106之后,步骤 S105包括:解析引用信息对应的时间点信息;建立时间表,将每个引用信息对应时间点信
举例说明,例如获取到的引用信息包括:“2021年1月24日,《排污许可管理条例》(以下简称《条例》),2021年3月1日起施行。”则将引用信息解析后获得的时间点信息 即为:“2021年1月24日”以及“2020年3月1日”两个字段,将两个字段存储于时间表 中,时间表可参照下表:
Figure RE-GDA0003061191920000081
上述实施例从方法流程的角度介绍一种基于大数据的全过程咨询方法,下述实施例从虚拟模 块或者虚拟单元的角度介绍了了一种基于大数据的全过程咨询装置100,参照图2,具体详见 下述实施例。
获取模块1001,获取目标网站中的目标网页并根据目标网页确定选中网页,每个目标网站对应多个目标网页,选中网页为目标网页中的至少一个;获取当前项目组信息,项目组信息包含多个当前项目信息,当前项目信息包括项目领域信息和项目名称信息;
解析模块1002,解析选中网页以得到政策名称信息;
匹配模块1003,将政策名称信息与每个当前项目信息进行匹配,若匹配成功,则将匹配成功的政策名称信息作为选中政策信息;
反馈模块1004,解析选中政策信息所在的选中网页,以获取与选中政策信息对应的引用信息,反馈引用信息,引用信息为与选中政策信息相对应的政策内容信息。
进一步,在一种可能的实现方式中,获取模块还包括,
判断模块,用于判断目标网站对应的任一目标网页是否满足上报触发条件,上报触发条件包括发表新文章触发上报、文章内容更新触发上报以及定时触发上报中的至少一种;
上报模块,若任一目标网页满足上报触发条件,则将该任一目标网页作为选中网页,选中网页对应的目标网站主动上报满足上报触发条件的选中网页。
进一步,在一种可能的实现方式中,解析选中网页对应的所有第一引用资源的下载地址,每个第一引用资源与每个选中政策信息对应,第一引用资源包括图片、文本、链接、脚本、样式表、网页、插件中的任意一种或多种;
若第一引用资源的下载地址被成功解析,则获得第一引用资源的下载地址的下载链接,根据所获得的下载链接下载第一引用资源,下载的第一引用资源即为与选中政策信息对应的引用信息。
在上述实施例中提供了一种基于大数据的全过程咨询装置,适用于上述方法实施例,在此不再赘述。
在上述实施例中分别从方法流程的角度介绍了一种基于大数据的全过程咨询方法,以及从虚拟模块的角度介绍了一种基于大数据的全过程咨询装置,下面介绍一种电子设备,参照图3,电子设备1100包括:处理器1101和存储器1103。其中,处理器1101和存储器1103相连,如通过总线1102相连。可选地,电子设备1100还可以包括收发器1104。需要说明的是,实际应用中收发器1104不限于一个,该电子设备1100的结构并不构成对本申请实施例的限定。
处理器1101可以是CPU(CentralProcessingUnit,中央处理器),通用处理器,DSP(DigitalSignalProcessor,数据信号处理器),ASIC(ApplicationSpecificIntegratedCircuit,专用集成电路),FPGA(FieldProgrammableGateArray,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1102可包括一通路,在上述组件之间传送信息。总线1102可以是PCI(PeripheralComponentInterconnect,外设部件互连标准)总线或EISA (ExtendedIndustryStandardArchitecture,扩展工业标准结构)总线等。总线1102可以分为地 址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有 一根总线或一种类型的总线。
存储器1103可以是ROM(ReadOnlyMemory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(RandomAccessMemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM (ElectricallyErasableProgrammableReadOnlyMemory,电可擦可编程只读存储器)、CD-ROM (CompactDiscReadOnlyMemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器1103用于存储执行本申请方案的应用程序代码,并由处理器1101来控制执行。处理器1101用于执行存储器1103中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导 航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。 图3示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种基于大数据的全过程咨询方法,其特征在于,包括:
获取目标网站中的目标网页并根据所述目标网页确定选中网页,所述每个目标网站对应多个所述目标网页,所述选中网页为所述目标网页中的至少一个;
获取当前项目组信息,所述项目组信息包含多个当前项目信息,所述当前项目信息包括项目领域信息和项目名称信息;
解析所述选中网页以得到政策名称信息;
将所述政策名称信息与每个所述当前项目信息进行匹配,若匹配成功,则将匹配成功的所述政策名称信息作为选中政策信息;
解析所述选中政策信息所在的所述选中网页,以获取与所述选中政策信息对应的引用信息,反馈所述引用信息,所述引用信息为与所述选中政策信息相对应的政策内容信息。
2.根据权利要求1所述的一种基于大数据的全过程咨询方法,其特征在于,根据所述目标网页确定选中网页,包括:
判断所述目标网站对应的任一所述目标网页是否满足上报触发条件,所述上报触发条件包括发表新文章触发上报、文章内容更新触发上报以及定时触发上报中的至少一种;
若所述任一所述目标网页满足所述上报触发条件,则将该所述任一目标网页作为选中网页;
所述选中网页对应的所述目标网站主动上报满足上报触发条件的所述选中网页。
3.根据权利要求2所述的一种基于大数据的全过程咨询方法,其特征在于,包括:
以时间轴为存储顺序存储预设历史时间段内的被上报的所述选中网页;
将所有所述选中网页根据所述网页标识信息进行分类;
将属于同一类别且在时间轴上相邻的两个所述选中网页分别作为第一网页和第二网页;
解析所述第一网页以及解析所述第二网页;
对比解析后的所述第一网页以及解析后的所述第二网页以获得对比结果信息,所述对比结果信息包括相同信息和差异信息。
4.根据权利要求1所述的一种基于大数据的全过程咨询方法,其特征在于,解析所述选中政策信息所在的所述选中网页以获取与所述选中政策信息对应的引用信息,包括:
解析所述选中网页对应的所有第一引用资源的下载地址,所述每个第一引用资源与每个所述选中政策信息对应,所述第一引用资源包括图片、文本、链接、脚本、样式表、网页、插件中的任意一种或多种;
若所述第一引用资源的下载地址被成功解析,则获得第一引用资源的下载地址的下载链接,根据所获得的下载链接下载第一引用资源,所述下载的第一引用资源即为与所述选中政策信息对应的所述引用信息。
5.根据权利要求1所述的一种基于大数据的全过程咨询方法,其特征在于,所述咨询方法还包括:
解析所述引用信息对应的时间点信息;
建立时间表,将每个所述引用信息对应所述时间点信息存储于所述时间表中。
6.一种基于大数据的全过程咨询装置,其特征在于,包括:
获取模块,获取目标网站中的目标网页并根据所述目标网页确定选中网页以及获取当前项目组信息,所述每个目标网站对应多个所述目标网页,所述选中网页为所述目标网页中的至少一个,所述项目组信息包含多个当前项目信息,任一当前项目信息包括项目领域信息和项目名称信息;
解析模块,解析所述选中网页以得到政策名称信息;
匹配模块,将所述政策名称信息与每个所述当前项目信息进行匹配,若匹配成功,则将匹配成功的所述政策名称信息作为选中政策信息;
反馈模块,解析所述选中政策信息所在的所述选中网页,以获取与所述选中政策信息对应的引用信息,反馈所述引用信息,所述引用信息为与所述选中政策信息相对应的政策内容信息。
7.根据权利要求6所述的一种基于大数据的全过程咨询装置,其特征在于,获取模块根据所述目标网页确定选中网页,包括:
判断模块,判断所述目标网站对应的任一所述目标网页是否满足上报触发条件,所述上报触发条件包括发表新文章触发上报、文章内容更新触发上报以及定时触发上报中的至少一种;
上报模块,若所述任一所述目标网页满足所述上报触发条件,则将该所述任一目标网页作为选中网页,所述选中网页对应的所述目标网站主动上报满足上报触发条件的所述选中网页。
8.根据权利要求6所述的一种基于大数据的全过程咨询装置,其特征在于,反馈模块解析所述选中政策信息所在的所述选中网页以获取与所述选中政策信息对应的引用信息,包括:
解析所述选中网页对应的所有第一引用资源的下载地址,所述每个第一引用资源与每个所述选中政策信息对应,所述第一引用资源包括图片、文本、链接、脚本、样式表、网页、插件中的任意一种或多种;
若所述第一引用资源的下载地址被成功解析,则获得第一引用资源的下载地址的下载链接,根据所获得的下载链接下载第一引用资源,所述下载的第一引用资源即为与所述选中政策信息对应的所述引用信息。
9.一种电子设备,其特征在于,包括:一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行权利要求1-6任一项所述的全过程咨询的方法。
10.一种计算机可读存储介质,其特征在于,包括:存储有能够被处理器加载并执行如权利要求1至6中任一项所述的全过程咨询的方法的计算机程序。
CN202110298985.0A 2021-03-20 2021-03-20 基于大数据的全过程咨询方法、装置、电子设备及存储介质 Active CN112989195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110298985.0A CN112989195B (zh) 2021-03-20 2021-03-20 基于大数据的全过程咨询方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110298985.0A CN112989195B (zh) 2021-03-20 2021-03-20 基于大数据的全过程咨询方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112989195A true CN112989195A (zh) 2021-06-18
CN112989195B CN112989195B (zh) 2023-09-05

Family

ID=76334218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110298985.0A Active CN112989195B (zh) 2021-03-20 2021-03-20 基于大数据的全过程咨询方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112989195B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001080126A1 (en) * 2000-04-14 2001-10-25 Justaddsales. Com, Inc. Computer-based interpretation and location system
CN103942639A (zh) * 2014-03-21 2014-07-23 宁波中小在线信息服务有限公司 用于政策咨询服务系统的政策管理系统及其方法
US20150007256A1 (en) * 2013-07-01 2015-01-01 Cynthia Fascenelli Kirkeby Monetizing downloadable files based on resolving custodianship thereof to referring publisher and presentation of monetized content in a modal overlay contemporaneously with download
CN106383876A (zh) * 2016-09-09 2017-02-08 上海润吧信息技术有限公司 一种智能化的项目匹配系统
CN108038235A (zh) * 2017-12-27 2018-05-15 北京洪泰同创信息技术有限公司 一种政策匹配方法及装置
CN108376317A (zh) * 2018-02-13 2018-08-07 浙江知识产权交易中心有限公司 一种知识产权政策风险防范系统、基于该系统的知识产权交易系统和方法
CN109063065A (zh) * 2018-07-20 2018-12-21 政和科技股份有限公司 一种政策信息推送的方法及装置
CN109902225A (zh) * 2019-01-22 2019-06-18 广州高企云信息科技有限公司 一种基于大数据的政策信息查询推送系统及方法
CN110457696A (zh) * 2019-07-31 2019-11-15 福州数据技术研究院有限公司 一种面向档案数据的人才与政策智能匹配系统和方法
CN110537180A (zh) * 2017-02-22 2019-12-03 英国卡米洛要约公司 用于直接浏览器内标记因特网内容中的元素的系统和方法
CN111125597A (zh) * 2019-12-18 2020-05-08 百度在线网络技术(北京)有限公司 网页加载方法、浏览器、电子设备及存储介质
CN111652524A (zh) * 2020-06-11 2020-09-11 中力数创(重庆)科技有限公司 一种政策智能匹配与引导改善路径的方法与装置
CN111815421A (zh) * 2019-04-09 2020-10-23 百度在线网络技术(北京)有限公司 税务政策处理方法、装置、终端设备及存储介质
CN112036842A (zh) * 2020-09-18 2020-12-04 重庆强大知识产权服务有限公司 一种科技服务智能匹配平台
CN112199931A (zh) * 2020-09-24 2021-01-08 联合赤道环境评价有限公司 一种基于大数据的环保咨询类报告智能生成方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001080126A1 (en) * 2000-04-14 2001-10-25 Justaddsales. Com, Inc. Computer-based interpretation and location system
US20150007256A1 (en) * 2013-07-01 2015-01-01 Cynthia Fascenelli Kirkeby Monetizing downloadable files based on resolving custodianship thereof to referring publisher and presentation of monetized content in a modal overlay contemporaneously with download
CN103942639A (zh) * 2014-03-21 2014-07-23 宁波中小在线信息服务有限公司 用于政策咨询服务系统的政策管理系统及其方法
CN106383876A (zh) * 2016-09-09 2017-02-08 上海润吧信息技术有限公司 一种智能化的项目匹配系统
CN110537180A (zh) * 2017-02-22 2019-12-03 英国卡米洛要约公司 用于直接浏览器内标记因特网内容中的元素的系统和方法
CN108038235A (zh) * 2017-12-27 2018-05-15 北京洪泰同创信息技术有限公司 一种政策匹配方法及装置
CN108376317A (zh) * 2018-02-13 2018-08-07 浙江知识产权交易中心有限公司 一种知识产权政策风险防范系统、基于该系统的知识产权交易系统和方法
CN109063065A (zh) * 2018-07-20 2018-12-21 政和科技股份有限公司 一种政策信息推送的方法及装置
CN109902225A (zh) * 2019-01-22 2019-06-18 广州高企云信息科技有限公司 一种基于大数据的政策信息查询推送系统及方法
CN111815421A (zh) * 2019-04-09 2020-10-23 百度在线网络技术(北京)有限公司 税务政策处理方法、装置、终端设备及存储介质
CN110457696A (zh) * 2019-07-31 2019-11-15 福州数据技术研究院有限公司 一种面向档案数据的人才与政策智能匹配系统和方法
CN111125597A (zh) * 2019-12-18 2020-05-08 百度在线网络技术(北京)有限公司 网页加载方法、浏览器、电子设备及存储介质
CN111652524A (zh) * 2020-06-11 2020-09-11 中力数创(重庆)科技有限公司 一种政策智能匹配与引导改善路径的方法与装置
CN112036842A (zh) * 2020-09-18 2020-12-04 重庆强大知识产权服务有限公司 一种科技服务智能匹配平台
CN112199931A (zh) * 2020-09-24 2021-01-08 联合赤道环境评价有限公司 一种基于大数据的环保咨询类报告智能生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
付立宏等: "欧洲国家级图书馆网站版权政策比较分析", 图书与情报, no. 03, pages 62 - 65 *

Also Published As

Publication number Publication date
CN112989195B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN107895009B (zh) 一种基于分布式的互联网数据采集方法及系统
RU2522103C2 (ru) Способ и браузер для уведомления об обновлении
US8615442B1 (en) Personalized content delivery system
WO2016173200A1 (zh) 用于检测恶意网址的方法和系统
US7672938B2 (en) Creating search enabled web pages
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
US8046436B2 (en) System and method of providing context information for client application data stored on the web
CN107256232B (zh) 一种信息推荐方法和装置
US8046438B2 (en) System and method of restoring data and context of client applications stored on the web
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
US8639560B2 (en) Brand analysis using interactions with search result items
CN106570750B (zh) 基于浏览器插件的自动报税方法、系统及浏览器插件
WO2017124692A1 (zh) 查找表单页面和目标页面转化关系的方法和装置
US20080228903A1 (en) System and method of serving advertisements for web applications
CN107526718A (zh) 用于生成文本的方法和装置
CN105528416A (zh) 一种网站更新内容的监测方法及系统
US20080229241A1 (en) System and method of providing a user interface for client applications to store data and context information on the web
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN107526748B (zh) 一种识别用户点击行为的方法和设备
US20080228807A1 (en) System and method of storing data and context of client application on the web
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN111414523A (zh) 一种数据获取方法和装置
JP6763433B2 (ja) 情報収集システム、情報収集方法、及び、プログラム
CN112989195B (zh) 基于大数据的全过程咨询方法、装置、电子设备及存储介质
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant