CN114428705A - 一种网络数据的监测方法、装置、设备以及存储介质 - Google Patents

一种网络数据的监测方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN114428705A
CN114428705A CN202111648885.2A CN202111648885A CN114428705A CN 114428705 A CN114428705 A CN 114428705A CN 202111648885 A CN202111648885 A CN 202111648885A CN 114428705 A CN114428705 A CN 114428705A
Authority
CN
China
Prior art keywords
data
network data
acquisition
type
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111648885.2A
Other languages
English (en)
Inventor
吴琼
刘武雷
王元卓
郭建永
晁天鹏
王杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science And Technology Big Data Research Institute
Original Assignee
China Science And Technology Big Data Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology Big Data Research Institute filed Critical China Science And Technology Big Data Research Institute
Priority to CN202111648885.2A priority Critical patent/CN114428705A/zh
Publication of CN114428705A publication Critical patent/CN114428705A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种网络数据的监测方法、装置、设备以及存储介质,该方法可应用于超融合一体机,首先,利用分布式数据采集系统采集目标监测对象的网络数据;并基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中;然后,利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据;如果确定网络数据属于预设风险数据,则将基于预先配置的预警方式,针对网络数据进行预警处理。可见,本公开能够基于网络数据所属的类型和数据类型对应的识别模型,确定网络数据是否属于预设风险数据,能够实现对风险数据的监测,并针对风险数据进行预警,从而提高了监测发现能力和应急处置能力。

Description

一种网络数据的监测方法、装置、设备以及存储介质
技术领域
本公开涉及数据处理领域,尤其涉及一种网络数据的监测方法、装置、设备以及存储介质。
背景技术
在直播和短视频平台兴起之前,文本是主要的监测对象,传统的方法通过关键词匹配来进行网络数据中的预设风险数据的监测与发现。但是随着近几年短视频和直播平台的快速发展,传统的方法无法满足网络数据中的预设风险数据的全面监测的需求,亟需通过新的技术来提高平台和相关部门的监测发现能力和应急处置能力。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明提供了一种网络数据的监测方法,能够基于网络数据所属的类型和数据类型对应的识别模型,确定网络数据是否属于预设风险数据,能够实现对风险数据的监测,并针对风险数据进行预警,从而提高了监测发现能力和应急处置能力。
第一方面,本公开提供了一种网络数据的监测方法,该方法可应用于超融合一体机,该方法包括:
利用分布式数据采集系统采集目标监测对象的网络数据;
基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中;
利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据;
如果确定网络数据属于预设风险数据,则将基于预先配置的预警方式,针对网络数据进行预警处理。
一种可选的实施方式中,分布式数据采集系统包括调度中心、任务调度模块和至少一个采集节点;利用分布式数据采集系统采集目标监测对象的网络数据,包括:
通过调度中心获取待监测任务列表,并将待监测任务列表写入任务调度模块;其中,待监测任务列表中包括目标监测对象的采集任务;
通过任务调度模块调用采集任务所属的采集类型对应的采集节点,采集目标监测对象的网络数据;其中,采集类型包括通过接口或通道采集类型、静态页面采集类型、动态页面采集类型和/或应用程序 APP采集类型。
一种可选的实施方式中,目标监测对象包括目标网页,通过任务调度模块调用采集任务所属的采集类型对应的采集节点,采集目标监测对象的网络数据,包括:
在采集目标监测对象的静态数据的过程中,如果确定目标监测对象中存在动态数据,则生成动态页面采集任务,并将动态页面采集任务写回至任务调度模块;
通过任务调度模块调用与动态页面采集任务对应的采集节点,采集目标监测对象中的动态数据。
一种可选的实施方式中,网络数据属于目标监测对象的目标网页,基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中之前,还包括:
基于目标网页对应的网页内容分块方式,对网络数据进行分块处理,得到网络数据对应的至少一个数据分块;
计算至少一个数据分块分别对应的指纹值,并基于指纹值对网络数据中的数据分块进行去重处理。
一种可选的实施方式中,基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中之前,还包括:
将采集到的网络数据写入消息中间件中;
相应的,将网络数据输入至网络数据所属的数据类型对应的识别模型中,包括:
从消息中间件中读取网络数据,并将网络数据输入至网络数据所属的数据类型对应的识别模型中。
一种可选的实施方式中,将基于预先配置的预警方式,针对网络数据进行预警处理之前,还包括:
通过预设取证方式,获取网络数据对应的取证图像或取证视频;
将取证图像或取证视频与目标监测对象之间的对应关系存储于风险库中。
一种可选的实施方式中,将基于预先配置的预警方式,针对网络数据进行预警处理,包括:
确定网络数据对应的预警等级;
基于预警等级对应的消息推送方式,针对网络数据进行预警处理。
第二方面,本公开提供了一种网络数据的监测装置,该装置包括:
采集模块,用于利用分布式数据采集系统采集目标监测对象的网络数据;
输入模块,用于基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中;
识别模块,用于利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据;
预警模块,用于在确定网络数据属于预设风险数据时,将基于预先配置的预警方式,针对网络数据进行预警处理。
第三方面,本公开提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端设备上运行时,使得终端设备实现上述的方法。
第四方面,本公开提供了一种设备,包括:存储器,处理器,及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述的方法。
第五方面,本公开提供了一种计算机程序产品,计算机程序产品包括计算机程序/指令,计算机程序/指令被处理器执行时实现上述的方法。
本公开实施例提供的技术方案与现有技术相比至少具有如下优点:
本公开提供了一种网络数据的监测方法,该方法应用于超融合一体机,首先,利用分布式数据采集系统采集目标监测对象的网络数据;基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中;利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据;如果确定网络数据属于预设风险数据,则将基于预先配置的预警方式,针对网络数据进行预警处理。可见,本公开能够基于网络数据所属的类型和数据类型对应的识别模型,确定网络数据是否属于预设风险数据,能够实现对风险数据的监测,并针对风险数据进行预警,从而提高了监测发现能力和应急处置能力。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种网络数据的监测方法流程示意图;
图2为本公开实施例提供的一种网络数据的获取方法执行过程示意图;
图3为本公开实施例提供的一种超融合一体机的结构示意图;
图4为本公开实施例提供的一种网络数据的获取装置的结构示意图;
图5为本公开实施例提供的一种网络数据的监测设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
在直播和短视频平台兴起之前,文本是主要的监测对象,传统的方法通过关键词匹配来进行网络数据中的预设风险数据的监测与发现。但是随着近几年短视频和直播平台的快速发展,传统的方法无法满足网络数据中的预设风险数据的监测的需求,亟需通过新的技术来提高平台和相关部门的针对风险数据监测发现能力和应急处置能力。
为此,本公开实施例提供了一种网络数据的监测方法,该方法应用于超融合一体机,首先,利用分布式数据采集系统采集目标监测对象的网络数据;并基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中;然后,利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据;如果确定网络数据属于预设风险数据,则将基于预先配置的预警方式,针对网络数据进行预警处理。可见,本公开能够基于网络数据所属的类型和数据类型对应的识别模型,确定网络数据是否属于预设风险数据,能够实现对风险数据的监测,并针对风险数据进行预警,从而提高了监测发现能力和应急处置能力。
基于此,本公开实施例提供了一种网络数据的监测方法,参考图1,为本公开实施例提供的一种网络数据的监测方法流程示意图,该方法应用于超融合一体机,其中,超融合一体机包括硬件基础设施、设备虚拟化管理软件、运维及服务管理和网络内容监测服务等,该方法包括:
S101、利用分布式数据采集系统采集目标监测对象的网络数据。
本公开实施例中,监测对象可以为微信、微博、新闻客户端、视频网站、网络广播和网页等自媒体平台,其中,目标监测对象可以为自媒体平台中任意一个自媒体平台,例如,可以是网页、微博等,本公开实施例中对此不做限定。
本公开实施例中,网络数据主要通过文本、图像、音视频的形式进行呈现和传播。
本公开实施例中,分布式网络采集系统用于获取自媒体平台的网络数据。本公开实施例中,可通过分布式网络采集系统实现自媒体平台中的文本、图像、音频、视频等网络数据的获取。
S102、基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中。
本公开实施例中,数据类型包括文本、图形图像和音视频。
本公开实施例中,利用多模态融合方法构建的识别模型,该识别模型包括文本风险识别模型、图像风险识别特征模型和音视频风险识别模型任意一个或多个。识别模型是经过训练的,能够准确识别出文本、图像、音视频中违法或违规信息的深度学习算法模型。具体的,通过海量文本标注语料、图形图像知识库训练出来的具有高性能和准确率的文本、图形图像、音视频的内容处理和识别的多种算法模型,该识别模型随着新型复杂风险数据的出现,识别模型支持远程迭代更新。
实际应用中,文本风险识别模型的构建,可通过标注文本语料,根据样本语料的特征及样本对应的分类标签,通过规则结合深度学习的算法训练文本风险识别模型。例如,根据样本语料的特征、规则结合长短期记忆算法(Long Short-Term Memory,LSTM)等训练文本风险识别模型。通过该模型可有效解决单纯基于规则受制于样本库的影响,提高模型监测的召回率。
图像风险识别特征模型的构建,可通过预先标注好的语料,根据语料的特征及样本对应的分类标签,训练图像风险识别模型。例如,根据语料的特征结合卷积神经网络(Convolutional Neural Networks, CNN)训练图像风险识别特征模型。
音视频风险识别模型构建,可分别建立图像、文本、音频风险特征,通过特定的多模态融合方法的风险识别算法进行模型的训练和风险识别。例如,根据图像、文本、音频风险的特征结合机器学习算法 (Microsoft Machine Learning,MML)训练音视频风险识别模型。
本公开实施例中,利用多模态融合方法构建识别模型,识别经过预处理后的包含文本、图像和音视频中的风险信息,具体的,采用晚期融合方法通过规则来确定不同模型输出结果的组合,具体可采用最大值融合(Max-Fusion)和集成学习(Ensemble Learning)等规则融合方法。多模态融合是综合来自文本、图像和音视频等多个模态的信息以进行分类的过程。在风险预测的过程中,单个模态通常不能包含产生精确预测结果所需的全部有效信息,多模态融合过程结合来自多个模态的信息,实现信息补充,拓宽输入数据所包含信息的覆盖范围,可有效提升风险识别的精度,提高识别模型的鲁棒性。
本公开实施例中,通过将获取的监控对象的网络数据,写入到消息中间件中,以便对网络数据进行预处理,以及将网络数据输入至数据类型对应的识别模型中对网络数据进行风险识别。
一种可选的实施方式中,将网络数据输入至数据类型对应的识别模型中之前,对网络数据可以进行预处理。具体的,根据不同的识别模型识别对不同类型的网络数据的识别过程的需求,可以对网络数据进行文本去噪、中文分词、过滤停用词、词性标注、关键词提取、图像滤波、图像去噪等中任意一项或多项的预处理,并将最终处理后的待识别的数据流通过消息中间件传递给后续数据类型对应的识别模型中。
S103、利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据。
本公开实施例中,风险数据是影响身心健康、违反社会秩序的违法违规等不良信息的数据。
实际应用中,也可通过消息中间件中读取待分析的内容,通过集成OCR(OpticalCharacter Recognition,光学字符识别)提取视频文字、通过语音、语种和转写等服务实现音频内容提取,利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据。
一种可选的实施例中,如果确定网络数据属于预设风险数据,例如,网络数据中包括违法违等数据,可将识别结果存到风险库中。具体的,通过预设取证方式,获取网络数据对应的取证图像或取证视频;将取证图像或取证视频与目标监测对象之间的对应关系存储于风险库中。
具体的,针对识别的风险数据,可通过网页截取获得取证图像,通过录屏等多种取证方式获得取证视频,并对取证图像或取证视频与目标监测对象之间的对应关系存储于风险库中。可采用可信时间戳,保证取证图像或取证视频不可篡改。还可采用区块链等技术来保证取证图像或取证视频不被篡改。
一种可选的实施方式中,针对识别的风险数据,可通过风险来源、风险类型等不同维度实现对风险数据的实时统计和可视化展现。例如,可通过ECharts图形化展示风险数据。其中,ECharts是一款基于 JavaScript的数据可视化图表库,提供直观、可交互、可个性化定制的数据可视化图表。本公开实施例中,基于ECharts图形化展示风险数据,有利于直观体现风险数据。
S104、如果确定网络数据属于预设风险数据,则将基于预先配置的预警方式,针对网络数据进行预警处理。
一种可选的实施方式中,针对网络数据进行预警处理,包括:确定网络数据对应的预警等级,并基于预警等级对应的消息推送方式,针对网络数据进行预警处理。
实际应用中,可预先对网络数据中的风险数据确定预警等级,实际应用中还包括其它确定预警等级方式,本公开实施例中并不限制确定预警等级的方式。
一种可选的实施方式中,可在线配置风险数据的预警等级和预警等级对应的消息推送方式,根据设定的推送时点将风险数据的预警等级和预警等级对应的消息送到指定的接收对象。其中,推送方式可以通过邮件或即时通信工具定时推送。具体的,在实施过程,相关的预警和推送服务通过kubernetes(容器编排引擎)和容器技术进行封装部署,可按需进行弹性伸缩和运行状况监控。
本公开提供了一种网络数据的监测方法,该方法应用于超融合一体机,首先,利用分布式数据采集系统采集目标监测对象的网络数据;并基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中;然后,利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据;如果确定网络数据属于预设风险数据,则将基于预先配置的预警方式,针对网络数据进行预警处理。可见,本公开能够基于网络数据所属的类型和数据类型对应的识别模型,确定网络数据是否属于预设风险数据,能够实现对风险数据的监测,并针对风险数据进行预警,从而提高了监测发现能力和应急处置能力。
目前,获取的网络数据主要是静态页面采集的数据,例如,静态文本数据,现有技术中缺乏能够涵盖多场景的网络数据获取方法,特别是无法获取动态页面的数据、APP(应用程序)数据和通过接口或通道得到的数据。而本公开实施例中可通过分布式网络采集系统不仅能获取静态页面采集的数据,还能获取动态页面的数据、APP(应用程序) 数据和通过接口或通道得到的数据。其中,分布式数据采集系统包括调度中心、任务调度模块和至少一个采集节点。
为了便于对本公开提供的网络数据的监测方法进一步理解,在上述实施例的基础上,本公开实施例还提供了另一种网络数据的监测方法。
本公开实施例中,获取目标监测对象的网络数据的过程可如图2 所示,如图2为本公开实施例提供的一种网络数据的获取方法执行过程示意图。
本公开实施例中,通过调度中心获取待监测任务列表,并将待监测任务列表写入任务调度模块;其中,待监测任务列表中包括目标监测对象的采集任务,例如,待监测任务列表包括文本、图像、音视频等的采集任务,调度中心根据采集任务的大小,可横向扩展,并通过任务调度模块调用采集任务所属的采集类型对应的采集节点,采集目标监测对象的网络数据;其中,采集类型包括通过接口或通道采集类型、静态页面采集类型、动态页面采集类型和/或应用程序APP采集类型。
实际应用中,采集器包括接口或通道采集节点、静态页面采集节点、动态页面采集节点和/或应用程序APP采集节点。其中,采集类型与采集器中的节点具有对应关系,例如,静态页面采集类型与静态页面采集节点具有对应关系。数据采集节点支持静态网页采集、动态页面采集、APP数据解析获取以及通过接口或者通道直接获取的网络数据采集。本公开实施例中,数据采集节点可根据采集任务需要,设置的不同规模的采集服务器。
本公开实施例中,可以根据网络数据的采集类型写入对应的任务调度模块中对应的任务通道。采集器中的各个节点根据网络数据的采集类型实时从该采集节点对应不同的任务通道获取网络数据。
实际应用中,对于APP的数据的采集,通过调用资源池中的模拟器环境解析监控对象中的内容信息,并对于分析出的接口服务写入接口和通道数据采集中,方便后续通过接口获取,加快数据获取效率。其中,资源池通过特定的反采集技术设定的代理资源和模拟器资源。本公开实施例中,数据采集资源池特为规避一些站点的防爬虫而提供的代理IP资源,以及特定站点的账户资源,动态页面采集所需的驱动器资源等。模拟器环境是指借助HOOK(钩子)技术和脚本获取特定 APP的数据信息,对于解析获取的接口地址可以将接口信息写回到接口和通道任务获取列表,以便提高后续数据获取的效率。对于接口和通道的数据,通过特定的接入方式可直接获取数据写入消息中间件中。
一种可选的实施方式中,目标监测对象包括目标网页,可先通过静态页面采集节点获取数据。在采集目标监测对象的静态数据的过程中,如果确定目标监测对象中存在动态数据,则生成动态页面采集任务,并将动态页面采集任务写回至任务调度模块;并通过任务调度模块调用与动态页面采集任务对应的采集节点,采集目标监测对象中的动态数据。
实际应用中,采集节点实时获取对应的采集任务,进行网络数据的获取,对于网页先通过静态页面采集节点获取网络数据,在采集网页的静态数据的过程中,如果网页存在非静态数据,则生成动态页面采集任务,并将该采集任务写回调度任务的任务调度模块中的动态页面采集的任务中,以通过动态页面模拟采集的方法获取动态页面中的动态数据,通过这样的方式,在全面保障网络数据采集的全面性的基础上,提高网络数据的采集效率。
一种可选的实施方式中,网络数据属于目标监测对象的目标网页,为降低数据重复识别所造成的资源浪费,可采用指纹算法对识别内容进行去重。可基于目标网页对应的网页内容分块方式,对网络数据进行分块处理,得到网络数据对应的至少一个数据分块;计算至少一个数据分块分别对应的指纹值,并基于指纹值对网络数据中的数据分块进行去重处理。
实际应用中可通过SHA-1(Secure Hash Algorithm 1,安全散列算法1)或者MD5(Message-Digest Algorithm,信息-摘要算法5))计算各个数据分块分别对应的指纹值,使用指纹值查询去重系统中的指纹索引,判断该网络数据是否已经存在。如果该网络数据已经存在,可以不需要将网络数据输入至数据类型对应的识别模型中,这样可以降低网络数据重复识别所造成的资源浪费。
一种可选的实施方式中,不同的采集节点获取目标监测对象的网络数据,并将采集到的网络数据写入消息中间件中;其中,消息中间件可以使用Kafka来保证数据高效传输需求。其中,Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。然后,从消息中间件中读取网络数据,并基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中,基于识别模型对网络数据进行风险识别。
本公开提供了一种网络数据的监测方法,首先,利用分布式数据采集系统采集目标监测对象的网络数据;分布式数据采集系统包括调度中心、任务调度模块和至少一个采集节点;通过调度中心获取待监测任务列表,并将待监测任务列表写入任务调度模块;通过任务调度模块调用采集任务所属的采集类型对应的采集节点,采集目标监测对象的网络数据;并基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中;然后,利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据;如果确定网络数据属于预设风险数据,则将基于预先配置的预警方式,针对网络数据进行预警处理。可见,本公开能够在全面保障网络数据采集的全面性的基础上,提高网络数据的采集效率,并能够基于网络数据所属的类型和数据类型对应的识别模型,确定网络数据是否属于预设风险数据,能够实现对风险数据的监测,并针对风险数据进行预警,从而提高了监测发现能力和应急处置能力。
目前,针对需要海量实时数据分析处理的需求,在信息化建设过程中,往往需要较大的服务器资源及部署大数据相关组件,来解决实时的数据的采集、分析和处理的需求,物理环境的复杂性导致了部署和运维都变得十分困难,目前市面上较多通过接口的形式或者云服务的形式对外提供服务,使用起来较为简便,但是长期使用却十分昂贵,因此,本公开实施例中提供了超融合一体机,既能够私有化部署、能够解决运维难的问题,又能获取网络数据并基于数据类型对应的识别模型,确定网络数据是否属于预设风险数据。
本公开提供了一种超融合一体机,图3为本公开实施例提供的一种超融合一体机的结构示意图;该超融合一体机包括硬件基础设施、设备虚拟化管理软件、运维及服务管理、网络内容监测服务等,该超融合一体机可通过服务的形式对外提供服务。
一种可选的实施方式中,部署超融合一体机的硬件基础设施包括:采用高性能且支持虚拟化的深度学习处理器、存储设备、网络设备及相关扩展板卡,其中,深度学习处理器能够处理高并发、大数据量的计算需求;具体的,能够支撑内容监测应用数据量大、并发实时计算要求高需求,存储设备能够支持虚拟化和大数据量的存储需求,并能够动态扩容;网络设备配置有一定数量的高速网卡,从而满足网络内容实时采集的需求。其中,选取的CPU、硬盘和网络设备及专用的图形图像处理设备,将计算、存储、网络和安全资源以及管理组件融合到标准x86架构服务器中。
例如,可参照以下单节点资源进行部署:单节点下,处理器每节点配置一定数量(例如4颗)高性能CPU,主频在3.0GHz以上,支持智能缓存技术;内存单节点配置128GDDR4,支持可扩展、内存保护、内存镜像和内存热备等技术;由于应对风险结果存储和风险取证留存的需求,硬盘配置一定数量的SAS硬盘(例如,8T 3.5寸SAS存储硬盘),支持扩容和热插拔,同时配置一定数量SSD硬盘;同时为支持对音视频、图形图像数据处理的需求。由于实际数据接入和采集需求,需要搭载四端口万兆多模网卡和一定数量的显卡,其中,显卡可以为英伟达Quadra RTX4000-8G。对于机箱可采用标准机架式安装,机箱高度可根据实际需求灵活定制,电源和风扇模块支持一定冗余(例如支持2冗余)。同时配置支持能够支持RAID 0、1、5、10的阵列卡,提高数据安全性和传输效率。对应资源的具体数量,可以结合具体的监测任务的规模,通过超融合的方案灵活伸缩。
一种可选的实施方式中,其配置清单可以为其配置清单如表1所示:
Figure RE-GDA0003569058380000141
表1
一种可选的实施方式中,设备虚拟化管理包括:通过kvm(系统虚拟化模块)虚拟化技术,以及VMware虚拟化技术等技术手段,实现对计算资源、存储资源、网络资源的虚拟化,并可以根据需求,实现计算、存储能力的动态分配、扩容和管理。
一种可选的实施方式中,运维及服务管理包括:通过定制的监控软件能够实现主机和虚拟机等资源的全生命周期的管理、监控、告警和消息事件等日常运维管理的功能,通过虚拟化技术实现大数据组件、以及内容监测所需相关定制服务的自动化安装部署以及对所需软件服务运转情况、资源占用情况的动态监控,同时可现实系统用户权限的在线管理。
具体的,在实施过程中可通过kubernetes(容器编排引擎)和容器技术实现大数据组件(如Hadoop、Flink、kafka等)和模型服务的弹性伸缩、高可用等能力,为终端用户提供网络内容风险识别解决方案。
一种可选的实施方式中,网络内容监测服务包括:通过利用所属硬件资源和大数据相关组件实现对接入的监测对象通过数据采集、内容监测、统计分析、风险预警等服务,实现对风险信息的实时监测、发现、分析和预警。其中,大数据组件包括存储组件、基于内存的实时计算组件、消息通信组件等。在实施过程相关服务通过kubernetes 和容器技术进行封装部署,可按需进行弹性伸缩和运行状况监控。
本公开实施例提供了一种超融合一体机,既能够私有化部署、解决运维难的问题,又能够基于网络数据所属的类型和数据类型对应的识别模型,确定网络数据是否属于预设风险数据,能够实现对风险数据的监测,并针对风险数据进行预警,从而提高了监测发现能力和应急处置能力。
与上述实施例基于同一个发明构思,本公开实施例还提供了一种网络数据的监测装置,参考图4,为本公开实施例提供的一种网络数据的监测装置的结构示意图,该装置包括:
采集模块401,用于利用分布式数据采集系统采集目标监测对象的网络数据;
输入模块402,用于基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中;
识别模块403,用于利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据;
预警模块404,用于在确定网络数据属于预设风险数据时,将基于预先配置的预警方式,针对网络数据进行预警处理。
一种可选的实施方式中,分布式数据采集系统包括调度中心、任务调度模块和至少一个采集节点;该采集模块401,包括:
写入子模块,用于通过调度中心获取待监测任务列表,并将待监测任务列表写入任务调度模块;其中,待监测任务列表中包括目标监测对象的采集任务;
采集子模块,用于通过任务调度模块调用采集任务所属的采集类型对应的采集节点,采集目标监测对象的网络数据;其中,采集类型包括通过接口或通道采集类型、静态页面采集类型、动态页面采集类型和/或应用程序APP采集类型。
一种可选的实施方式中,目标监测对象包括目标网页,采集子模块,具体用于:
在采集目标监测对象的静态数据的过程中,在确定目标监测对象中存在动态数据时,生成动态页面采集任务,并将动态页面采集任务写回至任务调度模块;
通过任务调度模块调用与动态页面采集任务对应的采集节点,采集目标监测对象中的动态数据。
一种可选的实施方式中,网络数据属于目标监测对象的目标网页,该装置,还包括:
分块模块,用于基于目标网页对应的网页内容分块方式,对网络数据进行分块处理,得到网络数据对应的至少一个数据分块;
计算模块,用于计算至少一个数据分块分别对应的指纹值,并基于指纹值对网络数据中的数据分块进行去重处理。
一种可选的实施方式中,该装置,还包括:
写入模块,用于将采集到的网络数据写入消息中间件中;
相应的,输入模块402,包括:
读取子模块,用于从消息中间件中读取网络数据,并将网络数据输入至网络数据所属的数据类型对应的识别模型中。
一种可选的实施方式中,将基于预先配置的预警方式,该装置,还包括:
获取模块,用于通过预设取证方式,获取网络数据对应的取证图像或取证视频;
存储模块,用于将取证图像或取证视频与目标监测对象之间的对应关系存储于风险库中。
一种可选的实施方式中,预警模块404,具体用于:
确定网络数据对应的预警等级;
基于预警等级对应的消息推送方式,针对网络数据进行预警处理。
本公开实施例提供了一种网络数据的监测装置,首先,利用分布式数据采集系统采集目标监测对象的网络数据;并基于网络数据所属的数据类型,将网络数据输入至数据类型对应的识别模型中;然后,利用识别模型对网络数据进行识别处理,确定网络数据是否属于预设风险数据;如果确定网络数据属于预设风险数据,则将基于预先配置的预警方式,针对网络数据进行预警处理。可见,本公开能够基于网络数据所属的类型和数据类型对应的识别模型,确定网络数据是否属于预设风险数据,能够实现对风险数据的监测,并针对风险数据进行预警,从而提高了监测发现能力和应急处置能力。
除了上述方法和装置以外,本公开实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端设备上运行时,使得终端设备实现本公开实施例的网络数据的监测方法。
本公开实施例还提供了一种计算机程序产品,计算机程序产品包括计算机程序/指令,计算机程序/指令被处理器执行时实现本公开实施例的网络数据的监测方法。
另外,本公开实施例还提供了一种网络数据的监测设备,参见图5 所示,图5为本公开实施例提供的一种网络数据的监测的结构示意图,包括:
处理器501、存储器502、输入装置503和输出装置504。网络数据的监测设备中的处理器501的数量可以一个或多个,图5中以一个处理器为例。在本公开的一些实施例中,处理器501、存储器502、输入装置503和输出装置504可通过总线或其它方式连接,其中,图5 中以通过总线连接为例。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行网络数据的监测设备的各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置503可用于接收输入的数字或字符信息,以及产生与网络数据的监测设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现上述网络数据的监测设备的各种功能。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种网络数据的监测方法,其特征在于,所述方法应用于超融合一体机,所述方法包括:
利用分布式数据采集系统采集目标监测对象的网络数据;
基于所述网络数据所属的数据类型,将所述网络数据输入至所述数据类型对应的识别模型中;
利用所述识别模型对所述网络数据进行识别处理,确定所述网络数据是否属于预设风险数据;
如果确定所述网络数据属于所述预设风险数据,则将基于预先配置的预警方式,针对所述网络数据进行预警处理。
2.根据权利要求1所述的方法,其特征在于,所述分布式数据采集系统包括调度中心、任务调度模块和至少一个采集节点;所述利用分布式数据采集系统采集目标监测对象的网络数据,包括:
通过所述调度中心获取待监测任务列表,并将所述待监测任务列表写入所述任务调度模块;其中,所述待监测任务列表中包括目标监测对象的采集任务;
通过所述任务调度模块调用所述采集任务所属的采集类型对应的采集节点,采集所述目标监测对象的网络数据;其中,所述采集类型包括通过接口或通道采集类型、静态页面采集类型、动态页面采集类型和/或应用程序APP采集类型。
3.根据权利要求2所述的方法,其特征在于,所述目标监测对象包括目标网页,所述通过所述任务调度模块调用所述采集任务所属的采集类型对应的采集节点,采集所述目标监测对象的网络数据,包括:
在采集所述目标监测对象的静态数据的过程中,如果确定所述目标监测对象中存在动态数据,则生成动态页面采集任务,并将所述动态页面采集任务写回至所述任务调度模块;
通过所述任务调度模块调用与所述动态页面采集任务对应的采集节点,采集所述目标监测对象中的动态数据。
4.根据权利要求1所述的方法,其特征在于,所述网络数据属于所述目标监测对象的目标网页,所述基于所述网络数据所属的数据类型,将所述网络数据输入至所述数据类型对应的识别模型中之前,还包括:
基于所述目标网页对应的网页内容分块方式,对所述网络数据进行分块处理,得到所述网络数据对应的至少一个数据分块;
计算所述至少一个数据分块分别对应的指纹值,并基于所述指纹值对所述网络数据中的数据分块进行去重处理。
5.根据权利要求1所述的方法,其特征在于,所述基于所述网络数据所属的数据类型,将所述网络数据输入至所述数据类型对应的识别模型中之前,还包括:
将采集到的所述网络数据写入消息中间件中;
相应的,所述将所述网络数据输入至所述网络数据所属的数据类型对应的识别模型中,包括:
从所述消息中间件中读取所述网络数据,并将所述网络数据输入至所述网络数据所属的数据类型对应的识别模型中。
6.根据权利要求1所述的方法,其特征在于,所述将基于预先配置的预警方式,针对所述网络数据进行预警处理之前,还包括:
通过预设取证方式,获取所述网络数据对应的取证图像或取证视频;
将所述取证图像或所述取证视频与所述目标监测对象之间的对应关系存储于风险库中。
7.根据权利要求1所述的方法,其特征在于,所述将基于预先配置的预警方式,针对所述网络数据进行预警处理,包括:
确定所述网络数据对应的预警等级;
基于所述预警等级对应的消息推送方式,针对所述网络数据进行预警处理。
8.一种网络数据的监测装置,其特征在于,所述装置包括:
采集模块,用于利用分布式数据采集系统采集目标监测对象的网络数据;
输入模块,用于基于所述网络数据所属的数据类型,将所述网络数据输入至所述数据类型对应的识别模型中;
识别模块,用于利用所述识别模型对所述网络数据进行识别处理,确定所述网络数据是否属于预设风险数据;
预警模块,用于在确定所述网络数据属于所述预设风险数据时,将基于预先配置的预警方式,针对所述网络数据进行预警处理。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1-7任一项所述的方法。
10.一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的方法。
CN202111648885.2A 2021-12-30 2021-12-30 一种网络数据的监测方法、装置、设备以及存储介质 Pending CN114428705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111648885.2A CN114428705A (zh) 2021-12-30 2021-12-30 一种网络数据的监测方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111648885.2A CN114428705A (zh) 2021-12-30 2021-12-30 一种网络数据的监测方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN114428705A true CN114428705A (zh) 2022-05-03

Family

ID=81311375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111648885.2A Pending CN114428705A (zh) 2021-12-30 2021-12-30 一种网络数据的监测方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114428705A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277503A (zh) * 2022-06-24 2022-11-01 北京天融信网络安全技术有限公司 一种监控网络流量的方法、装置、存储介质及电子设备
CN117201188A (zh) * 2023-11-03 2023-12-08 北京绿色苹果技术有限公司 基于大数据的it安全运行风险预测方法、系统和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277503A (zh) * 2022-06-24 2022-11-01 北京天融信网络安全技术有限公司 一种监控网络流量的方法、装置、存储介质及电子设备
CN115277503B (zh) * 2022-06-24 2024-03-15 北京天融信网络安全技术有限公司 一种监控网络流量的方法、装置、存储介质及电子设备
CN117201188A (zh) * 2023-11-03 2023-12-08 北京绿色苹果技术有限公司 基于大数据的it安全运行风险预测方法、系统和介质
CN117201188B (zh) * 2023-11-03 2024-01-09 北京绿色苹果技术有限公司 基于大数据的it安全运行风险预测方法、系统和介质

Similar Documents

Publication Publication Date Title
US11409775B2 (en) Recommending documents sets based on a similar set of correlated features
US20160349928A1 (en) Generating summary of activity on computer gui
CN111461553A (zh) 景区舆情监测分析系统和方法
CN110598075A (zh) 一种基于人工智能的互联网媒体内容安全监测系统及方法
CN114428705A (zh) 一种网络数据的监测方法、装置、设备以及存储介质
CN111078776A (zh) 数据表的标准化方法、装置、设备及存储介质
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
CN111355628A (zh) 一种模型训练方法、业务识别方法、装置和电子装置
CN110888972A (zh) 一种基于Spark Streaming的敏感内容识别方法及装置
US11437038B2 (en) Recognition and restructuring of previously presented materials
CN105354189A (zh) 搜寻应用软件的方法及其系统
US20160283522A1 (en) Matching untagged data sources to untagged data analysis applications
CN110287338B (zh) 行业热点确定方法、装置、设备和介质
US8751508B1 (en) Contextual indexing of applications
US9286348B2 (en) Dynamic search system
CN111078905A (zh) 一种数据处理方法、装置、介质以及设备
CN115470489A (zh) 检测模型训练方法、检测方法、设备以及计算机可读介质
US10963490B2 (en) Text extraction and processing
Jung Discovering social bursts by using link analytics on large-scale social networks
CN110750569A (zh) 数据提取方法、装置、设备及存储介质
KR20200103133A (ko) 하둡 기반의 빅데이터 시스템에서 etl 절차를 수행하는 방법 및 장치
US11954424B2 (en) Automatic domain annotation of structured data
Gill et al. Cloud monitoring data challenges: A systematic review
CN114584616B (zh) 一种消息推送方法、装置、电子设备及存储介质
Tsuji et al. Extending a distributed online machine learning framework for streaming video analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination