CN112380415B - 空气质量信息的自动生成及发送方法、装置、设备及介质 - Google Patents
空气质量信息的自动生成及发送方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112380415B CN112380415B CN202011340573.0A CN202011340573A CN112380415B CN 112380415 B CN112380415 B CN 112380415B CN 202011340573 A CN202011340573 A CN 202011340573A CN 112380415 B CN112380415 B CN 112380415B
- Authority
- CN
- China
- Prior art keywords
- webpage
- crawled
- crawling
- rule
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种空气质量信息的自动生成及发送方法、装置、设备及介质。该方法包括:获取爬取周期阈值;分别控制多个代理节点中的爬虫程序以大于爬取周期阈值的爬取周期登录待爬取网站,并对各待爬取网页进行渲染,得到已渲染网页;分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据;将爬取得到的网页数据与规则库内的预设规则进行关联分析;根据关联分析的结果以及所述预设规则中的告警条件,生成告警信息并发送告警信息。通过本申请的方法,不再需要用户频繁主动登录网站来获取空气质量信息,用户只需要被动接收空气质量信息即可,大大方便了用户得到空气质量信息。
Description
技术领域
本申请涉及环境监控技术领域,具体涉及一种空气质量信息的自动生成及发送方法、装置、设备及介质。
背景技术
随着经济的发展和社会的进步,人们对空气质量问题越来越重视,越来越多地关注各种空气质量信息。目前人们大多是通过浏览各种空气质量数据发布网站的方式来获取空气质量数据,这就需要频繁登录各种网站,然后根据浏览网站所获得的空气质量数据作出关于空气质量状况的判断。当前的这种方式显然不方便,亟待研发一种能够自动生成空气质量信息并发送的技术方案。
发明内容
本申请的目的是提供一种空气质量信息的自动生成及发送方法、装置、设备及介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种空气质量信息的自动生成及发送方法,包括:
获取爬取周期阈值,所述爬取周期阈值是触发待爬取网站发起互联网协议封锁操作的最大周期值;
分别控制多个代理节点中的爬虫程序以大于爬取周期阈值的爬取周期登录待爬取网站,并对所述待爬取网站的各待爬取网页进行渲染,得到已渲染网页;
分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据;
将爬取得到的网页数据与规则库内的预设规则进行关联分析;
根据关联分析的结果以及所述预设规则中的告警条件,生成告警信息并发送所述告警信息。
进一步地,所述对所述待爬取网站的各待爬取网页进行渲染,得到已渲染网页,包括:
获取所述待爬取网页的源代码;
检测所述源代码中的元素节点是否符合预设特征要求;所述元素节点与所述待爬取网页中的素材资源对应,所述预设特征要求指示所述元素节点对应的网页素材资源在所述待爬取网页中的显示效果;
当所述元素节点符合所述预设特征要求时,停止对所述元素节点对应网页素材资源的渲染操作。
进一步地,所述将爬取得到的网页数据与规则库内的预设规则进行关联分析,包括:
从所述规则库内的预设规则中查找与所述爬取得到的网页数据相匹配的属性种类;
将所述爬取得到的网页数据的值,与所述相匹配的属性种类所关联的阈值进行比对,获得污染物浓度比对结果。
进一步地,所述发送所述告警信息,包括:
调用微信公众平台提供的接口向关注微信公众号的用户终端推送所述告警信息;或者直接将所述告警信息发送到用户终端。
根据本申请实施例的另一个方面,提供一种空气质量信息的自动生成及发送装置,包括:
获取模块,用于获取爬取周期阈值,所述爬取周期阈值是触发待爬取网站发起互联网协议封锁操作的最大周期值;
渲染模块,用于分别控制多个代理节点中的爬虫程序以大于爬取周期阈值的爬取周期登录待爬取网站,并对所述待爬取网站的各待爬取网页进行渲染,得到已渲染网页;
爬取模块,用于分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据;
分析模块,用于将爬取得到的网页数据与规则库内的预设规则进行关联分析;
告警模块,用于根据关联分析的结果以及所述预设规则中的告警条件,生成告警信息并发送所述告警信息。
进一步地,所述渲染模块包括渲染单元,所述渲染单元用于对所述待爬取网站的各待爬取网页进行渲染,得到已渲染网页;所述渲染单元包括:
获取子单元,用于获取所述待爬取网页的源代码;
检测子单元,用于检测所述源代码中的元素节点是否符合预设特征要求;所述元素节点与所述待爬取网页中的素材资源对应,所述预设特征要求指示所述元素节点对应的网页素材资源在所述待爬取网页中的显示效果;
停止子单元,用于当所述元素节点符合所述预设特征要求时,停止对所述元素节点对应网页素材资源的渲染操作。
进一步地,所述分析模块,包括:
查找单元,用于从所述规则库内的预设规则中查找与所述爬取得到的网页数据相匹配的属性种类;
比对单元,用于将所述爬取得到的网页数据的值,与所述相匹配的属性种类所关联的阈值进行比对,获得污染物浓度比对结果。
进一步地,所述告警模块包括发送单元,所述发送单元用于发送所述告警信息;所述发送单元具体用于:
调用微信公众平台提供的接口向关注微信公众号的用户终端推送所述告警信息;或者直接将所述告警信息发送到用户终端。
根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的空气质量信息的自动生成及发送方法。
根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的空气质量信息的自动生成及发送方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的空气质量信息的自动生成及发送方法,通过分别控制多个代理节点中的爬虫程序以大于爬取周期阈值的爬取周期登录待爬取网站,并对各待爬取网页进行渲染,分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据,将爬取得到的网页数据与规则库内的预设规则进行关联分析,根据关联分析的结果以及预设规则中的告警条件,生成告警信息并发送,不再需要用户频繁主动登录网站来获取空气质量信息,用户只需要被动接收空气质量信息即可,大大方便了用户得到空气质量信息。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请的一个实施例的空气质量信息的自动生成及发送方法的流程图;
图2示出了图1所对应实施例中的步骤S10的流程图;
图3示出了图1所对应实施例中的步骤S30的流程图;
图4示出了本申请的另一实施例的空气质量信息的自动生成及发送装置的结构框图;
图5示出了本申请的另一实施例的电子设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,本申请的一个实施例提供了一种空气质量信息的自动生成及发送方法,包括以下步骤:
步骤S00、获取爬取周期阈值;该爬取周期阈值是触发待爬取网站发起互联网协议封锁操作的最大周期值。
例如,待爬取网站为某空气质量数据发布网站“空气质量监测网”,爬取周期阈值为15分钟,即0.25小时,则当访问节点通过爬虫程序以大于0.25小时的爬取周期爬取“空气质量监测网”的网页数据时,“空气质量监测网”不会通过对该访问节点的互联网协议地址进行封锁操作以达到拒绝该访问节点访问的目的,而当访问节点通过爬虫程序以等于或小于0.25小时的爬取周期爬取“空气质量监测网”的网页数据时,“空气质量监测网”则会对该访问节点的互联网协议地址进行封锁,从而达到拒绝该访问节点在此访问的目的。
步骤S10、分别控制多个代理节点中的爬虫程序以大于爬取周期阈值的爬取周期登录待爬取网站,并对待爬取网站的各待爬取网页进行渲染,得到已渲染网页。
各代理节点中的爬虫程序按照爬取周期登录待爬取网站后,分别对各自承担的待爬取网页进行渲染,得到已渲染网页。例如,总共采用n个代理节点登录待爬取网站,待爬取网站总共有3n个待爬取网页,则每一代理节点承担3个待爬取网页,代理节点首先将分配到的3个待爬取网页进行渲染,得到3个已渲染网页。爬虫程序按照登录网站、渲染网页、爬取已渲染网页的数据的流程进行网页数据爬取。
如图2所示,在某些实施方式中,步骤S10中对待爬取网站的各待爬取网页进行渲染,得到已渲染网页,包括:
S101、获取待爬取网页的源代码。
以某空气质量数据发布网站“空气质量监测网”为例,从“空气质量监测网”的网站服务器处获取各待爬取网页的源代码,例如,该源代码可以是网页的HTML代码。进行网页页面渲染,即对各个网页素材资源对应的元素节点进行渲染。
S102、检测源代码中的元素节点是否符合预设特征要求;元素节点与待爬取网页中的素材资源对应,预设特征要求指示元素节点对应的网页素材资源在待爬取网页中的显示效果。
预设特征要求是通过对待爬取网页中广告的显示特征进行分析得到的。该预设特征要求可以包括元素节点的节点CSS特征和节点内容特征中的至少一种,其中,CSS特征用于指示元素节点对应的网页素材资源的显示样式,节点内容特征用于指示元素节点对应的网页素材资源中包含的显示内容。
S103、当元素节点符合预设特征要求时,停止对该元素节点对应网页素材资源的渲染操作。
对于符合预设特征要求的元素节点,将其确定为广告节点,并停止对该广告节点对应的素材资源进行渲染,从而起到广告拦截的作用。
例如,当元素节点符合节点CSS特征时,确定该元素节点为广告节点;当元素节点符合节点内容特征,确定该元素节点为广告节点;当元素节点符合节点CSS特征以及节点内容特征时,确定该元素节点为广告节点。
由于网页中广告的显示特征较为明显且变化较小,预设特征要求不需要进行频繁的更新,显著降低了广告过滤的难度和成本;并且,在进行网页渲染时无需对广告资源对应的元素节点进行渲染,能够提升网页的渲染速度和性能。
步骤S20、分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据。
其中,各代理节点的互联网协议地址互不相同。
仍以某空气质量数据发布网站“空气质量监测网”为例,触发“空气质量监测网”发起互联网协议封锁操作的周期登录阈值往往是根据对网页数据的登录周期而设定的,因此相较于使用爬虫程序进行网页数据的登录爬取而言,周期相对较大,为了在对“空气质量监测网”进行网页数据的爬取过程避免触发“空气质量监测网”的互联网协议封锁操作的同时,确保对“空气质量监测网”中的网页数据爬取的整体效率,本步骤采用控制多个代理节点中的爬虫程序以小于爬虫频率阈值的目标爬虫频率以协同工作的方式爬取“空气质量监测网”中的网页数据,此处所指的协同工作,是指将对“空气质量监测网”完整的爬取任务划分为多个部分任务,并由多个代理节点各自分担相应的部分任务,最终通过对各代理节点的部分任务结果进行汇总得到完整的爬取任务相应的网页数据。
本步骤中的大于爬取周期阈值的爬取周期可以是大于爬取周期阈值(例如0.25小时)的任意周期,但是考虑到应最大程度地降低对于待爬取网站的爬取周期,因此优选大于爬取周期阈值的爬取周期的值可以为大于爬取周期阈值的最小值。另外,各个代理节点的互联网协议地址互不相同的目的是为了确保各个代理节点的对于待爬取网站而言都是不同身份的访问节点,避免触发待爬取网站对互联网协议地址的封锁操作。
本实施例中的网页数据爬取步骤,首先获取爬虫触发待爬取网站的互联网协议封锁操作时的数据爬取周期,将该数据爬取周期作为爬取周期阈值,进而控制多个代理节点中的爬虫程序分别以大于爬虫周期阈值的爬取周期登录待爬取网站,渲染各待爬取网页得到已渲染网页后,协同爬取已渲染网页的数据,其中,各个代理节点所使用的互联网协议地址互不相同。通过获取爬取周期阈值,并将爬取周期阈值作为各个代理节点对待爬取网站的爬取周期下限,能够相对避免出现各代理节点的互联网协议地址被待爬取网站封锁的情况发生,进而保证了对网页数据进行爬取过程的可靠性,避免了互联网协议资源的浪费;此外,本方法通过多个代理节点协同工作的方式爬取待爬取网站中各网页数据,提高了网页数据爬取过程的整体效率。
步骤S30、将爬取得到的网页数据与规则库内的预设规则进行关联分析。
在某些实施方式中,规则库内的预设规则包括存在关联关系的属性种类和阈值;预设规则包括n种属性种类,每一种属性种类对应关联一个阈值,例如,其中的一个属性种类为PM2.5,对应关联的阈值为30μg/m3,另一属性种类为PM10,对应关联的阈值为70μg/m3。
如图3所示,步骤S30包括:
S301、从规则库内的预设规则中查找与上述爬取得到的网页数据相匹配的属性种类。
例如,爬取得到的网页数据包括PM10浓度69μg/m3、PM2.5浓度31μg/m3,则相匹配的属性种类分别为PM2.5和PM10。
S302、将上述爬取得到的网页数据的值,与上述相匹配的属性种类所关联的阈值进行比对,获得污染物浓度比对结果,即关联分析的结果。
例如,将PM2.5浓度31μg/m3与对应的阈值30μg/m3进行比对,则比对结果为PM2.5浓度超过阈值;
将PM10浓度69μg/m3与对应的阈值70μg/m3进行比对,则比对结果为PM10浓度未超过阈值。
在某些实施方式中,步骤S30包括以下步骤:
1)规则引擎读取并解析规则库,并对预设的规则进行编译加载。
在某些实施方式中,S301包括以下步骤:
通过规则配置端创建规则库中的预设规则,并以json格式存储在Mysql数据库中,上述规则包括:规则名称、规则编号、规则类型、规则描述、规则启用状态、规则语句、告警级别、告警响应动作。规则除了规则语句还定义了告警级别以及告警响应动作,通过该字段为后续安全事件自动化的处置策略配置提供了配置依据。规则引擎启动后会预先加载这部分规则,当规则有变更时,会发送rpc消息通知规则引擎重新加载规则库以达到动态实时响应规则变更。规则引擎从规则库中读取并解析,生成预设规则执行的有向无环图;规则引擎中的词法语法分析器将规则有向无环图翻译成FlinkCep的java代码。
2)将爬取得到的网页数据生成特征向量模型规则。
在某些实施方式中,步骤S302包括:通过对爬取得到的网页数据进行特征工程计算生成训练数据和测试数据,模型训练和模型评估对训练数据和测试数据进行交叉训练评估生成最优模型参数,从而建立特征向量模型规则。
3)将爬取得到的网页数据生成待分析的实时事件流。
在某些实施方式中,将爬取得到的网页数据推送到kafka消息队列中生成待分析的实时事件流。上述实时事件流为json格式数据,其定义字段包括:事件类型、事件来源、设备互联网协议地址、事件时间、源互联网协议地址、目的互联网协议地址、日志内容以及根据不同事件类型自定义的字段。
4)将特征向量数据流输入到特征向量模型规则中进行模型规则匹配.
在某些实施方式中,将步骤S302中的特征向量模型规则上线,通过在线模型预测任务,对待分析的事件流中一段事件窗口的事件数据经过特征工程计算,生成特征向量。将上述特征向量输入到特征向量模型规则中进行分析计算。
5)规则引擎订阅待分析的实时事件流,并将上述待分析的实时事件流与上述预设的规则进行关联规则匹配。
关联规则匹配通过FlinkCep实现。具体地,规则引擎调用maven命令将预设规则的java代码打包成jar包,通过任务调度器将jar包提交到flink-on-yarn上执行关联规则匹配。规则引擎中的事件流订阅器通过订阅待分析的实时事件流的topic数据作为FlinkCep任务的输入流与FlinkCep规则进行实时规则匹配,一旦触发告警生成条件则将告警信息事件输出到告警信息消息队列的topic中。
步骤S40、根据关联分析的结果以及上述预设规则中的告警条件,生成告警信息,并向用户端发送告警信息。
在某些实施方式中,预设规则中的告警条件可以为污染物浓度比对结果中污染物浓度超过阈值。
例如,可以分别设置各污染物阈值如下
在某些实施方式中,告警信息模型包含的字段定义为:告警名称、告警类型、告警描述、告警来源、告警时间以及根据告警类型自定义的字段等。
生成的告警信息例如可以为:
局部高值提醒:07:00,汴京公园、龙亭公园站点PM2.5浓度分别为80ug/m3、75ug/m3,分别比全市均值(50ug/m3)高出30ug/m3、25ug/m3,拉高我市均值,全省排名12/15,倒排第4名。
污染等级上升:07:00,我市PM2.5浓度80微克/立方米,从5:00的良下滑到轻度污染;PM10浓度80微克/立方米,从5:00的良下滑到轻度污染。
持续变差:07:00,龙亭公园站点PM2.5浓度80微克/立方米,PM10浓度70微克/立方米,从5:00起持续变差,预计3小时后污染等级会由良下滑到轻度污染;其中,预计龙亭公园PM10浓度190微克/立方米,为全市最高。
排名下滑:07:00,我市PM2.5浓度分别为80微克/立方米,全省排名12/15,相较于04:00(6/15)下滑了6名,各区需立即加大站点周边及外围污染源排查与管控力度。
排名落后:07:00,我市PM2.5小时浓度分别为80微克/立方米,全省排名12/15,倒排第4名,各区需立即加大站点周边及外围污染源排查与管控力度。
在某些实施方式中,向用户端发送告警信息包括:调用微信公众平台提供的接口向关注微信公众号的用户终端推送告警信息;或者直接将告警信息发送到用户终端例如手机等。
本申请实施例提供的空气质量信息的自动生成及发送方法,通过分别控制多个代理节点中的爬虫程序以大于爬取周期阈值的爬取周期登录待爬取网站,并对各待爬取网页进行渲染,分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据,将爬取得到的网页数据与规则库内的预设规则进行关联分析,根据关联分析的结果以及预设规则中的告警条件,生成告警信息并发送,不再需要用户频繁主动登录网站来获取空气质量信息,用户只需要被动接收空气质量信息即可,大大方便了用户得到空气质量信息。
如图4所示,本申请的另一个实施例提供了一种空气质量信息的自动生成及发送装置,包括:
获取模块,用于获取爬取周期阈值,爬取周期阈值是触发待爬取网站发起互联网协议封锁操作的最大周期值;
渲染模块,用于分别控制多个代理节点中的爬虫程序以大于爬取周期阈值的爬取周期登录待爬取网站,并对待爬取网站的各待爬取网页进行渲染,得到已渲染网页;
爬取模块,用于分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据;
分析模块,用于将爬取得到的网页数据与规则库内的预设规则进行关联分析;
告警模块,用于根据关联分析的结果以及预设规则中的告警条件,生成告警信息并发送告警信息。
在某些实施方式中,渲染模块包括渲染单元,渲染单元用于对待爬取网站的各待爬取网页进行渲染,得到已渲染网页;渲染单元包括:
获取子单元,用于获取待爬取网页的源代码;
检测子单元,用于检测源代码中的元素节点是否符合预设特征要求;元素节点与待爬取网页中的素材资源对应,预设特征要求指示元素节点对应的网页素材资源在待爬取网页中的显示效果;
停止子单元,用于当元素节点符合预设特征要求时,停止对元素节点对应网页素材资源的渲染操作。
在某些实施方式中,分析模块,包括:
查找单元,用于从规则库内的预设规则中查找与爬取得到的网页数据相匹配的属性种类;
比对单元,用于将爬取得到的网页数据的值,与相匹配的属性种类所关联的阈值进行比对,获得污染物浓度比对结果。
在某些实施方式中,告警模块包括发送单元,发送单元用于发送告警信息;发送单元具体用于:
调用微信公众平台提供的接口向关注微信公众号的用户终端推送告警信息;或者直接将告警信息发送到用户终端。
本申请的另一个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序,以实现上述的空气质量信息的自动生成及发送方法。如图5所示,电子设备20可以包括:处理器200,存储器201,总线202和通信接口203,处理器200、通信接口203和存储器201通过总线202连接;存储器201中存储有可在处理器200上运行的计算机程序,处理器200运行计算机程序时执行本申请前述任一实施方式所提供的空气质量信息的自动生成及发送方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还可以包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,处理器200在接收到执行指令后,执行程序,前述本申请实施例任一实施方式揭示的空气质量信息的自动生成及发送方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,可以包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的空气质量信息的自动生成及发送方法。
需要说明的是:
术语“模块”并非意图受限于特定物理形式。取决于具体应用,模块可以实现为硬件、固件、软件和/或其组合。此外,不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (8)
1.一种空气质量信息的自动生成及发送方法,其特征在于,包括:
获取爬取周期阈值,所述爬取周期阈值是触发待爬取网站发起互联网协议封锁操作的最大周期值;
分别控制多个代理节点中的爬虫程序以大于爬取周期阈值的爬取周期登录待爬取网站,并对所述待爬取网站的各待爬取网页进行渲染,得到已渲染网页;其中,所述大于爬取周期阈值的爬取周期的值为大于爬取周期阈值的最小值;各所述代理节点的互联网协议地址互不相同;各所述代理节点的爬虫程序分别渲染不同的所述待爬取网页;
分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据;
将爬取得到的网页数据与规则库内的预设规则进行关联分析;
根据关联分析的结果以及所述预设规则中的告警条件,生成告警信息并发送所述告警信息;
其中,所述分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据包括:
将爬取所述各已渲染网页的数据的整体任务划分为多个部分任务;
控制所述多个代理节点各自分担相应的所述部分任务,进行爬取;
对各所述代理节点所爬取的数据进行汇总,得到完成所述整体任务后的数据;
所述预设规则包括存在关联关系的属性种类和阈值;所述预设规则包括若干种所述属性种类,每一种所述属性种类对应关联一个所述阈值;所述将爬取得到的网页数据与规则库内的预设规则进行关联分析,包括:
从所述规则库内的预设规则中查找与所述爬取得到的网页数据相匹配的属性种类;
将所述爬取得到的网页数据的值,与所述相匹配的属性种类所关联的阈值进行比对,获得污染物浓度比对结果;
所述从所述规则库内的预设规则中查找与所述爬取得到的网页数据相匹配的属性种类,包括:
规则引擎读取并解析规则库,并对预设的规则进行编译加载;将爬取得到的网页数据生成特征向量模型规则;
将爬取得到的网页数据生成待分析的实时事件流;
将特征向量数据流输入到特征向量模型规则中进行模型规则匹配;
规则引擎订阅待分析的实时事件流,并将上述待分析的实时事件流与上述预设的规则进行关联规则匹配,得到与所述实时事件流相匹配的属性种类;其中,所述实时事件流的定义字段包括事件类型、事件来源、设备互联网协议地址、事件时间、源互联网协议地址、目的互联网协议地址、日志内容以及根据不同事件类型自定义的字段。
2.根据权利要求1所述的方法,其特征在于,所述对所述待爬取网站的各待爬取网页进行渲染,得到已渲染网页,包括:
获取所述待爬取网页的源代码;
检测所述源代码中的元素节点是否符合预设特征要求;所述元素节点与所述待爬取网页中的素材资源对应,所述预设特征要求指示所述元素节点对应的网页素材资源在所述待爬取网页中的显示效果;
当所述元素节点符合所述预设特征要求时,停止对所述元素节点对应网页素材资源的渲染操作。
3.根据权利要求1所述的方法,其特征在于,所述发送所述告警信息,包括:
调用微信公众平台提供的接口向关注微信公众号的用户终端推送所述告警信息;或者直接将所述告警信息发送到用户终端。
4.一种空气质量信息的自动生成及发送装置,其特征在于,包括:
获取模块,用于获取爬取周期阈值,所述爬取周期阈值是触发待爬取网站发起互联网协议封锁操作的最大周期值;
渲染模块,用于分别控制多个代理节点中的爬虫程序以大于爬取周期阈值的爬取周期登录待爬取网站,并对所述待爬取网站的各待爬取网页进行渲染,得到已渲染网页;所述大于爬取周期阈值的爬取周期的值为大于爬取周期阈值的最小值;各所述代理节点的互联网协议地址互不相同;各所述代理节点的爬虫程序分别渲染不同的所述待爬取网页;
爬取模块,用于分别控制多个代理节点中的爬虫程序协同爬取各已渲染网页的数据;
分析模块,用于将爬取得到的网页数据与规则库内的预设规则进行关联分析;
告警模块,用于根据关联分析的结果以及所述预设规则中的告警条件,生成告警信息并发送所述告警信息;
其中,所述爬取模块包括:
划分单元,用于将爬取所述各已渲染网页的数据的整体任务划分为多个部分任务;
爬取单元,用于控制所述多个代理节点各自分担相应的所述部分任务,进行爬取;
汇总单元,用于对各所述代理节点所爬取的数据进行汇总,得到完成所述整体任务后的数据;
所述预设规则包括存在关联关系的属性种类和阈值;所述预设规则包括若干种所述属性种类,每一种所述属性种类对应关联一个所述阈值;所述分析模块,包括:
查找单元,用于从所述规则库内的预设规则中查找与所述爬取得到的网页数据相匹配的属性种类;
比对单元,用于将所述爬取得到的网页数据的值,与所述相匹配的属性种类所关联的阈值进行比对,获得污染物浓度比对结果;
所述查找单元,具体用于:
规则引擎读取并解析规则库,并对预设的规则进行编译加载;将爬取得到的网页数据生成特征向量模型规则;
将爬取得到的网页数据生成待分析的实时事件流;
将特征向量数据流输入到特征向量模型规则中进行模型规则匹配;
规则引擎订阅待分析的实时事件流,并将上述待分析的实时事件流与上述预设的规则进行关联规则匹配,得到与所述实时事件流相匹配的属性种类;其中,所述实时事件流的定义字段包括事件类型、事件来源、设备互联网协议地址、事件时间、源互联网协议地址、目的互联网协议地址、日志内容以及根据不同事件类型自定义的字段。
5.根据权利要求4所述的装置,其特征在于,所述渲染模块包括渲染单元,所述渲染单元用于对所述待爬取网站的各待爬取网页进行渲染,得到已渲染网页;所述渲染单元包括:
获取子单元,用于获取所述待爬取网页的源代码;
检测子单元,用于检测所述源代码中的元素节点是否符合预设特征要求;所述元素节点与所述待爬取网页中的素材资源对应,所述预设特征要求指示所述元素节点对应的网页素材资源在所述待爬取网页中的显示效果;
停止子单元,用于当所述元素节点符合所述预设特征要求时,停止对所述元素节点对应网页素材资源的渲染操作。
6.根据权利要求4所述的装置,其特征在于,所述告警模块包括发送单元,所述发送单元用于发送所述告警信息;所述发送单元具体用于:
调用微信公众平台提供的接口向关注微信公众号的用户终端推送所述告警信息;或者直接将所述告警信息发送到用户终端。
7.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-3中任一所述的空气质量信息的自动生成及发送方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-3中任一所述的空气质量信息的自动生成及发送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011340573.0A CN112380415B (zh) | 2020-11-25 | 2020-11-25 | 空气质量信息的自动生成及发送方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011340573.0A CN112380415B (zh) | 2020-11-25 | 2020-11-25 | 空气质量信息的自动生成及发送方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380415A CN112380415A (zh) | 2021-02-19 |
CN112380415B true CN112380415B (zh) | 2021-10-08 |
Family
ID=74588238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011340573.0A Active CN112380415B (zh) | 2020-11-25 | 2020-11-25 | 空气质量信息的自动生成及发送方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380415B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112882707B (zh) * | 2021-03-09 | 2024-02-09 | 成都新希望金融信息有限公司 | 一种渲染方法、装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956026A (zh) * | 2016-04-22 | 2016-09-21 | 北京小米移动软件有限公司 | 网页渲染方法及装置 |
CN109948026A (zh) * | 2019-03-28 | 2019-06-28 | 深信服科技股份有限公司 | 一种网页数据爬取方法、装置、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309389A (zh) * | 2018-03-14 | 2019-10-08 | 北京嘀嘀无限科技发展有限公司 | 云计算系统 |
CN109543085A (zh) * | 2018-11-15 | 2019-03-29 | 中电科嘉兴新型智慧城市科技发展有限公司 | 数据提取方法、装置及计算机可读存储介质 |
CN111538883B (zh) * | 2020-03-25 | 2023-11-17 | 北京市科学技术情报研究所 | 一种数据爬取方法、系统及设备 |
-
2020
- 2020-11-25 CN CN202011340573.0A patent/CN112380415B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956026A (zh) * | 2016-04-22 | 2016-09-21 | 北京小米移动软件有限公司 | 网页渲染方法及装置 |
CN109948026A (zh) * | 2019-03-28 | 2019-06-28 | 深信服科技股份有限公司 | 一种网页数据爬取方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
佛山市三水区灾害性天气监测靶向报警系统的设计与应用;梁华玲等;《广东气象》;20190430;第41卷(第2期);正文第53-56页 * |
城市空气质量分析系统的设计与实现;陈锐一,赵辉;《湖北理工学院学报》;20190228;第35卷(第1期);正文第31-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112380415A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6744480B2 (ja) | ネットワークベースの広告データトラフィックレイテンシ削減 | |
CN110020062B (zh) | 一种可定制的网络爬虫方法及系统 | |
CN110020367B (zh) | 一种页面渲染方法及装置 | |
CN107766344B (zh) | 一种模板渲染的方法、装置及浏览器 | |
CN110990233A (zh) | 一种利用甘特图展示soar的方法和系统 | |
CN112380415B (zh) | 空气质量信息的自动生成及发送方法、装置、设备及介质 | |
US20140244830A1 (en) | Web application monitoring | |
CN110781180A (zh) | 一种数据筛选方法和数据筛选装置 | |
US20140052851A1 (en) | Systems and methods for discovering sources of online content | |
CN112818201A (zh) | 一种网络数据采集方法、装置、计算机设备及存储介质 | |
US8719934B2 (en) | Methods, systems and media for detecting non-intended traffic using co-visitation information | |
CN114237594A (zh) | 一种表单界面生成方法、装置、系统及可读存储介质 | |
CN117040799A (zh) | 页面拦截规则生成、页面访问控制方法、装置及电子设备 | |
CN106383869A (zh) | 一种获取用户行为信息的方法及装置 | |
CN107508705B (zh) | 一种http元素的资源树构建方法及计算设备 | |
CN111949862B (zh) | 一种管理业务任务流程的方法、装置和电子设备 | |
CN110489569B (zh) | 一种基于知识图谱的事件处理方法及装置 | |
CN110336826B (zh) | 一种接口参数类型的获取方法、装置、设备及存储介质 | |
CN113127767B (zh) | 手机号码提取方法、装置、电子设备及存储介质 | |
CN117376852B (zh) | 一种智能短信的生成和处理方法、装置、电子设备及介质 | |
KR102247065B1 (ko) | 웹 페이지에서 url을 수집하는 방법, 장치 및 컴퓨터 프로그램 | |
CN114090112B (zh) | 配置文件的加载方法和装置、存储介质及电子装置 | |
CN112380418B (zh) | 一种基于网络爬虫的数据处理方法、系统及云平台 | |
CN115168718A (zh) | 一种信息推荐方法及装置 | |
CN110020076B (zh) | 网页数据爬取的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210219 Assignee: Beijing Zhongke Sanqing Environmental Technology Co.,Ltd. Assignor: 3CLEAR TECHNOLOGY Co.,Ltd. Contract record no.: X2022980012305 Denomination of invention: Method, device, device and medium for automatic generation and transmission of air quality information Granted publication date: 20211008 License type: Common License Record date: 20220815 |