CN113132383B - 一种网络数据采集方法及系统 - Google Patents

一种网络数据采集方法及系统 Download PDF

Info

Publication number
CN113132383B
CN113132383B CN202110421317.2A CN202110421317A CN113132383B CN 113132383 B CN113132383 B CN 113132383B CN 202110421317 A CN202110421317 A CN 202110421317A CN 113132383 B CN113132383 B CN 113132383B
Authority
CN
China
Prior art keywords
task
user information
data
message
information acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110421317.2A
Other languages
English (en)
Other versions
CN113132383A (zh
Inventor
段东圣
王海洋
时磊
佟玲玲
段运强
任博雅
井雅琪
李�真
张旋
田伟裕
王丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
National Computer Network and Information Security Management Center
Original Assignee
Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Branch Institute Of Computing Technology Chinese Academy Of Science, National Computer Network and Information Security Management Center filed Critical Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
Priority to CN202110421317.2A priority Critical patent/CN113132383B/zh
Publication of CN113132383A publication Critical patent/CN113132383A/zh
Application granted granted Critical
Publication of CN113132383B publication Critical patent/CN113132383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/562Brokering proxy services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及大数据技术领域。本发明公开了一种网络数据采集系统,该系统包括服务器,服务器包括:任务下发模块,用于创建用户信息获取任务,将用户信息获取任务分配至不同的任务池,计算任务池优先级,根据任务下发规则,得到并传输具有优先级参数的用户信息获取任务;数据解析模块,与任务下发模块数据连接,用于获取来自中间代理服务端的用户信息流量数据,数据解析模块构建报文解析神经网络模型,将待解析报文信息输入训练后报文解析神经网络模型,判断待解析报文信息中是否包括指定用户信息并提取。通过设置任务优先级,优先处理重要的任务,提高任务处理效率。本公开实施例还公开了一种网络数据采集方法。

Description

一种网络数据采集方法及系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种网络数据采集方法及系统。
背景技术
目前,移动终端已成为用户获取信息的一个主要平台,移动平台使用户更加容易地获取到各种信息,也使得用户对于有用信息的需求大大增加。为了更好地为用户提供信息与服务,移动应用开发商需要获取用户信息,分析用户行为和属性,根据用户的实际需求为用户提供个性化推荐。
现有技术中,通过对移动应用统计分析平台实时数据需求的分析,提取实时数据需求特点,明确系统设计要点;之后对各项技术及框架进行分析和研究,最终定位技术选型;通过对系统模块化的设计与实现,逐步发现系统缺陷并解决。该方法从实时系统的实时性、可靠性出发,结合实际企业案例移动应用分析平台的具体需求,决策系统流程架构,定位系统技术选型,实现系统架构。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:现有技术中获取用户信息的技术方案效率较低。
发明内容
本公开实施例提供了一种网络数据采集方法及系统,以解决现有技术中对于获取用户信息的技术方案效率较低的技术问题。
第一方面,提供了一种网络数据采集系统,该网络数据采集系统包括服务器,所述服务器包括:任务下发模块,用于创建用户信息获取任务,将所述用户信息获取任务分配至不同的任务池,计算任务池优先级,根据任务下发规则,得到并传输具有优先级参数的用户信息获取任务;数据解析模块,与所述任务下发模块数据连接,用于获取来自中间代理服务端的用户信息流量数据并将所述用户信息流量数据解析为待解析报文信息,所述数据解析模块构建报文解析神经网络模型,将所述待解析报文信息输入报文解析神经网络模型,判断所述待解析报文信息中是否包括指定用户信息并提取。
结合第一方面,在第一方面的第一种可能的实现方式中,所述任务下发模块,包括:任务管理部分,用于所述用户信息获取任务的创建和下发;任务空间部分,与所述数据解析模块和所述任务管理部分数据连接,所述任务空间部分包括至少一个任务池,所述任务空间部分用于计算任务池优先级、制定任务下发规则和对所述具有优先级参数的用户信息获取任务进行加密。
结合第一方面或者第一方面的第一种可能的实现方式,所述数据解析模块,包括:解析通信单元,用于获取并传输来自中间代理服务端的用户信息流量数据;过滤单元,与所述解析通信单元数据连接,用于接收并过滤所述用户信息流量数据,所述过滤单元传输过滤后用户信息流量数据;结构解析单元,与所述过滤单元数据连接,用于获取所述过滤后用户信息流量数据,所述结构解析单元将所述过滤后用户信息流量数据以报文格式树的形式设置,得到待解析报文信息;深度识别单元,与所述结构解析单元数据连接,所述深度识别单元用于构建报文解析神经网络模型,通过所述报文解析神经网络模型对所述待解析报文信息进行特征提取,判断所述待解析报文信息中是否包括指定用户信息并提取,传输提取的指定用户信息。
第二方面,还提供了一种网络数据采集系统,该网络数据采集系统包括移动终端,所述移动终端包括:应用控制模块,用于获取来自服务器的具有优先级参数的用户信息获取任务,根据所述具有优先级参数的用户信息获取任务,发送激活指令至中间代理服务端,获取来自所述中间代理服务端反馈的激活答复,在所述中间代理服务端激活成功后将所述具有优先级参数的用户信息获取任务发送至所述中间代理服务端。
结合第二方面,在第二方面的第一种可能的实现方式中,所述应用控制模块,包括:应用通信单元,用于获取、解密并传输所述具有优先级参数的用户信息获取任务,获取来自所述中间代理服务端反馈的激活成功答复后,将解密且具有优先级参数的用户信息获取任务发送至所述中间代理服务端;应用激活单元,与所述应用通信单元数据连接,用于获取解密具有优先级参数的用户信息获取任务后,发送激活指令至中间代理服务端;任务进程单元,与所述应用通信单元数据连接,用于记录所述解密且具有优先级参数的用户信息获取任务的进程,并将所述进程反馈至所述服务器。
第三方面,还提供了一种网络数据采集系统,该网络数据采集系统包括:中间代理服务端,所述中间代理服务端包括:中间代理服务模块,用于获取来自移动终端的激活指令并激活后,反馈激活成功答复至所述移动终端,获取来自所述移动终端的具有优先级参数的用户信息获取任务,根据所述具有优先级参数的用户信息获取任务获取用户信息流量数据,将所述用户信息流量数据发送至服务器。
第四方面,提供了一种网络数据采集方法,该方法包括:步骤S1:创建用户信息获取任务,所述用户信息获取任务包括:应用名称、群组标识符和待解析报文信息类型,根据所述应用名称对所述用户信息获取任务进行分类并计算任务优先级,根据任务下发规则,传输具有优先级参数的用户信息获取任务;步骤S2:根据所述具有优先级参数的用户信息获取任务,获取用户信息流量数据;步骤S3:将所述用户信息流量数据解析为待解析报文信息,通过神经网络模型对待解析报文信息进行特征提取,判断待解析报文信息中是否包括指定用户信息并提取。
结合第四方面,在第四方面的第一种可能的实现方式中,所述步骤S1进一步包括:步骤S11:通过如下公式计算任务优先级参数:
Figure BDA0003027133630000031
其中,Prii表示任务类别i的优先级参数,L表示任务类别i中共有L个任务,taskll表示任务类别i中第l个任务的创建顺序衡量值,wl表示第l个任务的权重,ntaskl表示第l个任务相同内容发布过的次数,a,c均为常数值,由系统随机分配,a,c∈[0,1],bt-1表示时隙标识符,用于表示不同时间段之间的影响,bt=(a*bt-1)modc,taskpi表示任务类别i的映射值,用于区分不同任务池,任务池中任务越多映射值越大,
Figure BDA0003027133630000034
表示向下取整,nCI表示指示符补充值,用于在不同任务池对
Figure BDA0003027133630000032
取余运算时,对
Figure BDA0003027133630000033
进行补充,避免不同任务池的优先级相差过大,mod为取余运算。
结合第四方面或者第四方面的第一种可能的实现方式,在第四方面的第二种可能的实现方式中,所述步骤S3进一步包括:步骤S31:将所述用户信息流量数据设置为报文格式树的形式,得到所述待解析报文信息,根据所述报文格式树确定解析深度参数;步骤S32:所述神经网络模型对所述待解析报文信息通过激活、循环和封装进行特征提取,利用所述解析深度参数进行深度训练,判断所述待解析报文信息中是否包括指定用户信息并提取。
结合第四方面,在第四方面的第三种可能的实现方式中,所述步骤S2进一步包括:步骤S21:根据所述应用名称和所述群组标识符找到并加入群组,通过监听相应的地址或端口,获取用户信息流量数据。
本公开实施例提供的网络数据采集方法及系统,可以实现以下技术效果:
通过设置任务优先级,优先处理重要的任务,提高任务处理效率;在网络数据采集过程中进行加密处理,可以提高数据采集过程的安全性;选取关键属性信息作为特征信息,可以得到较为准确的用户信息;在循环核上施加正则项,利用解析深度参数进行深度训练识别,使识别结果更加准确,从而高效获得有效的用户信息;最后,数据采集过程中的反馈机制,也可以提高用户信息获取的效率。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一种网络数据采集系统中服务器的结构示意图;
图2是本公开实施例提供的另一网络数据采集系统中移动终端的结构示意图;
图3是本公开实施例提供的另一网络数据采集系统中中间代理服务端的通信连接关系示意图;
图4是本公开实施例提供的网络数据采集方法的流程示意图;
图5是本公开实施例提供的另一网络数据采集系统的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解,下面对本公开实施例所涉工具进行介绍,mitmproxy是一款支持SSL的HTTP代理,可以用于调试HTTP通信,发起中间人攻击等,mitmproxy提供了一个控制台接口用于动态拦截和编辑HTTP数据包。
图1是本公开实施例提供的一种网络数据采集系统中服务器的结构示意图。如图1所示,本公开实施例提供了一种网络数据采集系统,该系统包括服务器,服务器包括:任务下发模块,用于创建用户信息获取任务,将用户信息获取任务分配至不同的任务池,计算任务池优先级,根据任务下发规则,得到并传输具有优先级参数的用户信息获取任务;数据解析模块50,与任务下发模块数据连接,用于获取来自中间代理服务端40的用户信息流量数据并将用户信息流量数据解析为待解析报文信息,数据解析模块50构建报文解析神经网络模型,将待解析报文信息输入报文解析神经网络模型进行训练,判断待解析报文信息中是否包括指定用户信息并提取。
如图1所示,在一些实施例中,前述的任务下发模块包括:任务管理部分10,用于用户信息获取任务的创建和下发;任务空间部分20,与数据解析模块50和任务管理部分10数据连接,任务空间部分20包括至少一个任务池,任务空间部分20用于计算任务池优先级、制定任务下发规则和对具有优先级参数的用户信息获取任务进行加密。其中,任务管理部分10,包括:任务创建单元101,用于创建用户信息获取任务,用户信息获取任务包括:应用名称app_name、群组标识符和待解析报文信息类型type_Infana;任务存储单元102,用于对用户信息获取任务进行存储;映射单元103,用于将创建的用户信息获取任务映射到任务空间部分20,还用于根据每个用户信息获取任务中的应用名称app_name对任务进行分类,将应用名称app_name相同的任务放置于同一任务池中,并对任务池进行标号,每个任务池中至少有一个任务,当任务池中任务数量清零时,该任务池向应用控制模块30即移动终端发送任务暂停发布指令taskp_pau。
在一些实施例中,用任务池标识符taskp_ID代替应用名称app_name,根据任务空间20的映射值来标识任务池。任务空间部分20,将代替应用名称的任务池标识符和群组标识符加密后传输至移动终端,将待解析报文信息类型发送至数据解析模块50,任务空间部分20还根据预设周期向任务管理部分10发送每个任务池中的剩余任务数量、已完成任务数量和任务数量已清零且接收到任务完成答复的应用名称和群组标识符,任务空间部分20还用于将用户信息获取任务暂停发布指令传输至应用控制模块30。这样,通过任务池标识符和应用名称互换并加密,可以提高任务发布的安全性。
如图1所示,在一些实施例中,前述的数据解析模块50,包括:解析通信单元501,用于获取并传输来自中间代理服务端40的用户信息流量数据;过滤单元502,与解析通信单元501数据连接,用于接收并过滤用户信息流量数据,过滤单元502传输过滤后用户信息流量数据;结构解析单元503,与过滤单元502数据连接,用于获取过滤后用户信息流量数据,结构解析单元503将过滤后用户信息流量数据以报文格式树的形式设置,得到待解析报文信息,根据报文格式树确定解析深度参数;深度识别单元504,与结构解析单元503数据连接,深度识别单元504用于构建报文解析神经网络模型,通过报文解析神经网络模型对待解析报文信息进行特征提取,判断待解析报文信息中是否包括指定用户信息并提取,传输提取的指定用户信息;解析存储单元505,与深度识别单元504数据连接,用于存储提取的指定用户信息。
在一些实施例中,解析通信单元501,还用于获取并传输任务池发送的待解析报文信息类型,将用户信息流量数据和待解析报文信息类型传输至过滤单元502。
在一些实施例中,过滤单元502,接收用户信息流量数据和待解析报文信息类型,根据待解析报文信息类型对用户流量数据进行过滤,得到用户信息获取任务中规定类型的用户信息流量数据,将过滤后的用户信息流量数据传输至结构解析单元503。
在一些实施例中,结构解析单元503,得到待解析报文信息后,根据待解析报文信息确定解析深度参数,结构解析单元503将解析深度参数发送给深度识别单元504。深度识别单元504选取关键属性信息作为特征信息,通过激活、循环、封装完成报文解析,得到较为精准的用户信息,且在循环核上施加正则项,利用解析深度参数进行深度训练识别,使识别结果更加准确,从而获得有效的指定用户信息。
在一些实施例中,深度识别单元504,设置有多个报文解析线程,对待解析报文信息进行高并发处理,其中,每个报文解析线程包括一个报文解析神经网络模型,报文解析神经网络模型可对输入的待解析报文信息信息进行特征提取,判断待解析报文信息中是否包括指定用户信息并提取。提取的指定用户信息包括:用户账号信息、用户发布的文本、图片、音频、视频或者是文件链接信息等内容,用户账号信息包括:简介、头像或者用户名中的至少一种。
在一些实施例中,解析存储单元505,还用于向任务进程单元303传输用户信息获取任务完成答复。
图2是本公开实施例提供的另一网络数据采集系统中移动终端的结构示意图。如图2所示,本公开实施例还提供了一种网络数据采集系统,该系统包括移动终端,移动终端包括:应用控制模块30,用于获取具有优先级参数的用户信息获取任务,根据具有优先级参数的用户信息获取任务,发送激活指令至中间代理服务端40,获取来自中间代理服务端40反馈的激活答复,在中间代理服务端40激活成功后将具有优先级参数的用户信息获取任务发送至中间代理服务端40。
如图2所示,在一些实施例中,前述的应用控制模块30包括:应用通信单元301,用于获取、解密并传输具有优先级参数的用户信息获取任务,获取来自中间代理服务端40反馈的激活成功答复后,将解密且具有优先级参数的用户信息获取任务发送至中间代理服务端40;应用激活单元302,与应用通信单元301数据连接,用于获取解密且具有优先级参数的用户信息获取任务后,发送激活指令至中间代理服务端40;任务进程单元303,与应用通信单元301数据连接,用于记录解密且具有优先级参数的用户信息获取任务的进程,并将进程反馈至服务器。
在一些实施例中,移动终端中的应用通信单元301,获取并解密具有优先级参数的用户信息获取任务,进一步包括:获取通过任务信道传输的任务池标识符、群组标识符和任务暂停发布指令taskp_pau;根据私钥对具有优先级参数的用户信息获取任务进行解密,将得到的任务池标识符转换为应用名称;将app_name和群组标识符group_id发送至应用激活单元302和任务进程单元303;将任务暂停发布指令taskp_pau传输至任务进程单元303。
在一些实施例中,移动终端中的应用通信单元301,获取来自中间代理服务端40反馈的激活成功答复后,将解密且具有优先级参数的用户信息获取任务发送至中间代理服务端40,进一步包括:应用通信单元301接收激活成功答复后,将应用名称和群组标识符发送至中间代理服务端40。
在一些实施例中,移动终端中的应用激活单元302,获取解密且具有优先级参数的用户信息获取任务后,发送激活指令至中间代理服务端40,进一步包括:应用激活单元302借助界面设计自动化框架,例如是UIautomator2,通过自动化控制脚本,根据获取的来自应用通信单元301的app_name启动对应的应用,根据group_id找到并加入群组。
在一些实施例中,移动终端中的任务进程单元303,记录正在进行的、暂停的或者完成的用户信息获取任务的任务进程,并将各任务进程反馈至任务池。具体包括:任务进程单元303将完成的用户信息获取任务中的应用名称记为app_nameend,将完成的用户信息获取任务中的群组标识符记为group_idend,然后任务进程单元303向任务池发送任务完成答复,任务池将任务数量已清零且接收到任务完成答复的应用名称和群组标识符反馈给任务管理部分10,进行空闲通知。这样,将将任务池中剩余任务数量与任务完成情况进行及时反馈,向任务管理部分10进行空闲通知,方便任务管理部分10对任务的制定,增强了获取用户信息获取任务的工作效率。
本公开实施例还提供了一种网络数据采集系统,该系统包括中间代理服务端40,中间代理服务端40包括:中间代理服务模块,用于获取来自移动终端的激活指令并激活后,反馈激活成功答复至移动终端,获取来自移动终端的具有优先级参数的用户信息获取任务,根据具有优先级参数的用户信息获取任务获取用户信息流量数据,将用户信息流量数据发送至服务器。本公开实施例中中间代理服务端40与移动终端和服务器端数据连接。这样,在移动终端和服务器端之间架设中间代理服务端40,中间代理服务端40可以转发并获取移动终端和服务器之间的通信流量。
图3是本公开实施例提供的另一网络数据采集系统中中间代理服务端40的通信连接关系示意图。如图3所示,中间代理服务端40设置于服务器与移动终端之间,由中间代理服务端40转发移动终端和服务器端之间的http和https通信流量。中间代理服务端40可以采用mitmproxy工具搭建中间代理服务,中间代理服务端40生成Certification Authority证书,简称CA证书,移动终端获取并安装CA证书。这样,在https协议加密传输的情况下,移动应用程序的移动终端和服务器端可以信任该中间代理服务端40,可以捕获https流量信息。开启中间代理服务端40的80和443端口监听服务,其中80端口用于监听http协议流量信息,443端口用于监听https协议流量信息,设置中间代理服务端40与移动终端处于同一网段内,将移动终端网关地址修改为中间代理服务端地址。这样,中间代理服务端40可以正常获取安装有移动应用的移动终端和服务器端之间的通信流量信息。
在一些实施例中,中间代理服务端40向应用通信单元301反馈激活成功答复,根据获取的来自移动终端的应用名称和群组标识符,通过监听相应的地址和端口,获取移动终端和服务器之间传输的关于前述应用中群组的用户信息流量数据,将获取的用户信息流量数据发送至服务器的数据解析模块50。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
图4是本公开实施例提供的网络数据采集方法的流程示意图。如图4所示,本公开实施例提供了一种网络数据采集方法,该方法包括:步骤S1:创建用户信息获取任务,用户信息获取任务包括:应用名称、群组标识符和待解析报文信息类型,根据应用名称对用户信息获取任务进行分类,并计算任务优先级,根据任务下发规则,传输具有优先级参数的用户信息获取任务;步骤S2:根据具有优先级参数的用户信息获取任务,获取用户信息流量数据;步骤S3:将用户信息流量数据解析为待解析报文信息,通过神经网络模型对待解析报文信息进行特征提取,判断待解析报文信息中是否包括指定用户信息并提取。其中,群组标识符用于标识不同应用程序中用于聊天和交流的平台,待解析报文信息类型包括:文字、图片、语音或者视频。
在一些实施例中,步骤S1进一步包括:步骤S11:通过如下公式计算任务优先级参数:
Figure BDA0003027133630000101
其中,Prii表示任务类别i的优先级参数,L表示任务类别i中共有L个任务,taskll表示任务类别i中第l个任务的创建顺序衡量值,创建越早的任务衡量值越大,wl表示第l个任务的权重,由任务创建者指定,任务越重要权重值越大,ntaskl表示第l个任务相同内容发布过的次数,a,c均为常数值,由系统随机分配,a,c∈[0,1],bt-1表示时隙标识符,用于表示不同时间段之间的影响,bt=(a*bt-1)modc,taskpi表示任务类别i的映射值,用于区分不同任务池,任务池中任务越多映射值越大,
Figure BDA0003027133630000105
表示向下取整,nCI表示指示符补充值,用于在不同任务池对
Figure BDA0003027133630000102
取余运算时,对
Figure BDA0003027133630000103
进行补充,避免不同任务池的优先级相差过大,mod为取余运算。其中任务类别i也为任务池i。在本公开实施例提供的移动终端、中间代理服务端40、服务器和信息获取方法中,均通过步骤S11记载的步骤计算任务优先级。这样,基于任务池中每个任务的创建时间、重要程度和当前时隙与上一时隙的对应来计算任务优先级,可以优先处理重要任务,提高任务处理效率。
在一些实施例中,步骤S1还包括:步骤S12:根据任务下发规则,将用户信息获取任务划分任务优先等级,进一步包括:根据实际应用场景设定两个优先级划分阈值,根据任务优先级参数将任务优先级划分为三个等级,第一等级的任务池可连续输出两个任务,当前优先级的任务池输出两个任务后由下一优先级的任务池输出任务,遍历一遍后,由第二等级的任务池输出任务;第二等级任务池每次只能输出一个任务,第二等级任务池遍历一遍后,统计第三等级任务池中优先级最高的任务池的任务数量
Figure BDA0003027133630000104
与前两个等级中任务数量最多的任务池中的任务数量
Figure BDA0003027133630000111
若满足:
Figure BDA0003027133630000112
则由第三等级的任务池输出任务;否则由第一等级任务池输出任务,循环迭代。其中,
Figure BDA0003027133630000113
表示第三等级任务池中优先级最高的任务池的第lp个任务的创建顺序衡量值,lp表示第三等级任务池中优先级最高的任务池中所有任务的任意一个;
Figure BDA0003027133630000114
表示第一等级和第二等级任务池中任务数量最多的任务池中第ln个任务的创建顺序衡量值,ln表示第一等级和第二等级任务池中任务数量最多的任务池中所有任务的任意一个。本公开实施例中的服务器也可以通过步骤S12制定任务下发规则。
在一些实施例中,步骤S1还包括:步骤S13:对设置优先级后的用户信息获取任务进行加密后传输。其中,加密方法包括但不限于:MD5、SHA256、RSA、AES等。
在一些实施例中,步骤S3进一步包括:步骤S31:将用户信息流量数据设置为报文格式树的形式,得到待解析报文信息,根据报文格式树确定解析深度参数;步骤S32:神经网络模型对待解析报文信息通过激活、循环和封装进行特征提取,利用解析深度参数进行深度训练,判断待解析报文信息中是否包括指定用户信息并提取。
在一些实施例中,步骤S31中报文格式树包括:一个根节点和若干个普通节点,共R层,根节点包括所有的报文信息;根据可扩展标记语言报文格式定义待解析报文信息字节的无符号整数和字节的无符号整数的范围,字节的无符号整数的范围由实验获得。当报文信息在定义的范围内时,可存入一个普通节点中。根据报文格式树确定解析深度参数,解析深度参数δ的计算方法为:
Figure BDA0003027133630000115
其中,
Figure BDA0003027133630000116
表示向上取整。本公开实施例提供的服务器的结构解析单元503中的报文格式树也可以这样设置,结构解析单元503还将解析深度参数δ发送至深度识别单元504。
在一些实施例中,基于训练样本,通过对需要提取的用户信息特征进行训练,构建报文解析神经网络模型,利用训练完成的报文解析神经网络模型对待解析报文信息进行特征封装并分类判断。这样,可与快速判断待解析报文信息中是否存在指定的用户信息,无需所有数据全部传送完成便可获知是否含有任务指定的用户信息,从而加快任务完成时间,提高任务效率;相比于现有的采用正则匹配的报文解析方式,不需要解析出每一个详细字段,只需要分类到用户信息获取任务中提出的感兴趣类别即可满足任务需求,可以最大程度提高解析效率,适当拓宽推荐范围。
本公开实施例中,神经网络模型为报文解析神经网络模型,包括:输入层、激活层、循环层、封装层和输出层。
在一些实施例中,输入层包括T个神经元,分别对应连续T个时隙的待解析报文信息C,输入层对输入数据PI1=C={C1,C2,...,CT}进行降噪等数据预处理,任意一个输入数据用Ct表示,其中所涉数据预处理方法为现有技术,本公开实施例在此不做过多阐述。输入层将处理后的数据PO1传输至激活层。
在一些实施例中,激活层的输入数据为PI2=W1,2PO1+B2,W1,2表示输入层与激活层的连接权值,B2表示激活层神经元的偏置。激活层中包括T个神经元,对每个神经元通过如下公式进行激活操作,
Figure BDA0003027133630000121
其中,W2表示激活层的权值,
Figure BDA0003027133630000122
为激活因子,
Figure BDA0003027133630000123
为输入数据的平均值,∈为平衡因子。对每个神经元的数据进行激活后,将成功激活的神经元中的数据发送至循环层,未激活的数据丢弃。
在一些实施例中,循环层的输入数据为PI3=W2,3PO2+B3,W2,3表示激活层与循环层的连接权值,B3表示循环层神经元的偏置。循环层首先提取每个输入数据PI3的特征,然后对特征进行正则循环操作,具体步骤如下:
Figure BDA0003027133630000124
其中,
Figure BDA0003027133630000125
表示将输入数据投影到特征空间,P(C|W3)表示数据集C的似然函数,P(W3)是循环层权值参数W3的先验分布,||PI3||表示PI3的范数。然后用拉格朗日乘数法得到数据特征
Figure BDA0003027133630000126
Figure BDA0003027133630000127
然后在循环核上施加正则项
Figure BDA0003027133630000128
Figure BDA0003027133630000129
其中,λ为正则因子,||PI3||2表示2范数。循环施加δ次正则项来降低计算复杂度,δ为解析深度参数,从而得到循环层输出
Figure BDA0003027133630000131
循环层将结果传输至封装层。
在一些实施例中,封装层对得到的特征进行封装PO4=W4(W3,4PO3+B4),W4为封装层的权值,W3,4为循环层与封装层的连接权值,B4为封装层神经元的偏置。封装层将封装结果传输至输出层,输出层通过如下公式判断提取的特征是否为任务指定的用户信息特征:
Figure BDA0003027133630000132
其中,Y为任务指定的用户信息特征,ε为判别因子通过多次实验获得。若输出为1,则提取的特征为用户信息获取任务指定用户信息的特征,将提取的指定用户信息发送给解析存储单元505进行存储;若输出为0,则提取的特征不含有用户信息获取任务指定用户信息的特征。这样,根据报文格式树计算解析深度参数,报文解析神经网络模型通过激活、循环、封装完成报文特征提取,且在循环核上施加正则项,利用解析深度参数进行深度训练,得到精确的数据特征,使分类结果更加准确,无需所有数据全部传送完成便可获知当前报文是否含有任务指定的用户信息,从而加快任务完成时间,提高任务效率。
在一些实施例中,步骤S2进一步包括:步骤S21:根据应用名称和群组标识符找到并加入群组,通过监听相应的地址或端口,获取用户信息流量数据。具体实现方式如前文所述,在此不再赘述。
本公开实施例还提供了一种存储介质,存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行前述的网络数据采集方法。
图5是本公开实施例提供的另一网络数据采集系统的结构示意图。如图5所示,本公开实施例提供了一种网络数据采集系统,该系统包括:服务器、移动终端和中间代理服务端40,其中,服务器包括:任务下发模块和数据解析模块50;移动终端包括应用控制模块30。任务下发模块:创建用户信息获取任务;将用户信息获取任务下发至移动终端。移动终端:获取到用户信息获取任务后,激活中间代理服务端40信息获取功能,移动终端记录任务进程。中间代理服务端40:信息获取功能被激活后开始获取用户信息流量数据,将用户信息流量数据传输至数据解析模块50。数据解析模块50:将用户信息解析为待解析报文信息,构建神经网络模型,对待解析报文信息进行特征提取,判断待解析报文信息中是否包括指定用户信息并提取。具体的各端功能的实现和信息获取的方法如前文所述,在此不再赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种网络数据采集系统,其特征在于,包括服务器,所述服务器包括:
任务下发模块,用于创建用户信息获取任务,将所述用户信息获取任务分配至不同的任务池,计算任务池优先级,根据任务下发规则,得到并传输具有优先级参数的用户信息获取任务,其中,通过如下公式计算任务池优先级:
Figure FDA0003512512460000011
其中,Prii表示任务类别i的优先级参数,L表示任务类别i中共有L个任务,taskll表示任务类别i中第l个任务的创建顺序衡量值,ntaskl表示第l个任务相同内容发布过的次数,a,c均为常数值,由系统随机分配,a,c∈[0,1],bt-1表示时隙标识符,用于表示不同时间段之间的影响,bt=(a*bt-1)modc,taskpi表示任务类别i的映射值,用于区分不同任务池,任务池中任务越多映射值越大,
Figure FDA0003512512460000014
表示向下取整,nCI表示指示符补充值,用于在不同任务池对
Figure FDA0003512512460000012
取余运算时,对
Figure FDA0003512512460000013
进行补充,避免不同任务池的优先级相差过大,mod为取余运算;
数据解析模块,与所述任务下发模块数据连接,用于获取来自中间代理服务端的用户信息流量数据并将所述用户信息流量数据解析为待解析报文信息,所述数据解析模块构建报文解析神经网络模型,将所述待解析报文信息输入报文解析神经网络模型,判断所述待解析报文信息中是否包括指定用户信息并提取。
2.根据权利要求1所述的网络数据采集系统,其特征在于,所述任务下发模块,包括:
任务管理部分,用于所述用户信息获取任务的创建和下发;
任务空间部分,与所述数据解析模块和所述任务管理部分数据连接,所述任务空间部分包括至少一个任务池,所述任务空间部分用于计算任务池优先级、制定任务下发规则和对所述具有优先级参数的用户信息获取任务进行加密。
3.根据权利要求1或2所述的网络数据采集系统,其特征在于,所述数据解析模块,包括:
解析通信单元,用于获取并传输来自中间代理服务端的用户信息流量数据;
过滤单元,与所述解析通信单元数据连接,用于接收并过滤所述用户信息流量数据,所述过滤单元还用于传输过滤后用户信息流量数据;
结构解析单元,与所述过滤单元数据连接,用于获取所述过滤后用户信息流量数据,所述结构解析单元将所述过滤后用户信息流量数据以报文格式树的形式设置,得到待解析报文信息;
深度识别单元,与所述结构解析单元数据连接,所述深度识别单元用于构建报文解析神经网络模型,通过所述报文解析神经网络模型对所述待解析报文信息进行特征提取,判断所述待解析报文信息中是否包括指定用户信息并提取,传输提取的指定用户信息。
4.一种网络数据采集系统,其特征在于,包括移动终端,所述移动终端包括:
应用控制模块,用于获取来自服务器的具有优先级参数的用户信息获取任务,根据所述具有优先级参数的用户信息获取任务,发送激活指令至中间代理服务端,获取来自所述中间代理服务端反馈的激活答复,在所述中间代理服务端激活成功后将所述具有优先级参数的用户信息获取任务发送至所述中间代理服务端,其中,通过如下公式计算优先级参数:
Figure FDA0003512512460000021
其中,Prii表示任务类别i的优先级参数,L表示任务类别i中共有L个任务,taskll表示任务类别i中第l个任务的创建顺序衡量值,ntaskl表示第l个任务相同内容发布过的次数,a,c均为常数值,由系统随机分配,a,c∈[0,1],bt-1表示时隙标识符,用于表示不同时间段之间的影响,bt=(a*bt-1)modc,taskpi表示任务类别i的映射值,用于区分不同任务池,任务池中任务越多映射值越大,
Figure FDA0003512512460000022
表示向下取整,nCI表示指示符补充值,用于在不同任务池对
Figure FDA0003512512460000023
取余运算时,对
Figure FDA0003512512460000024
进行补充,避免不同任务池的优先级相差过大,mod为取余运算。
5.根据权利要求4所述的网络数据采集系统,其特征在于,所述应用控制模块,包括:
应用通信单元,用于获取、解密并传输所述具有优先级参数的用户信息获取任务,获取来自所述中间代理服务端反馈的激活成功答复后,将具有优先级参数的用户信息获取任务解密并发送至所述中间代理服务端;
应用激活单元,与所述应用通信单元数据连接,用于获取解密后的具有优先级参数的用户信息获取任务后,发送激活指令至所述中间代理服务端;
任务进程单元,与所述应用通信单元数据连接,用于记录所述解密且具有优先级参数的用户信息获取任务的进程,并将所述进程反馈至所述服务器。
6.一种网络数据采集系统,其特征在于,包括中间代理服务端,所述中间代理服务端包括:
中间代理服务模块,用于获取来自移动终端的激活指令并激活后,反馈激活成功答复至所述移动终端,获取来自所述移动终端的具有优先级参数的用户信息获取任务,根据所述具有优先级参数的用户信息获取任务获取用户信息流量数据,将所述用户信息流量数据发送至服务器,其中,通过如下公式计算优先级参数:
Figure FDA0003512512460000031
其中,Prii表示任务类别i的优先级参数,L表示任务类别i中共有L个任务,taskll表示任务类别i中第l个任务的创建顺序衡量值,ntaskl表示第l个任务相同内容发布过的次数,a,c均为常数值,由系统随机分配,a,c∈[0,1],bt-1表示时隙标识符,用于表示不同时间段之间的影响,bt=(a*bt-1)modc,taskpi表示任务类别i的映射值,用于区分不同任务池,任务池中任务越多映射值越大,
Figure FDA0003512512460000032
表示向下取整,nCI表示指示符补充值,用于在不同任务池对
Figure FDA0003512512460000033
取余运算时,对
Figure FDA0003512512460000034
进行补充,避免不同任务池的优先级相差过大,mod为取余运算。
7.一种网络数据采集方法,其特征在于,包括:
步骤S1:创建用户信息获取任务,所述用户信息获取任务包括:应用名称、群组标识符和待解析报文信息类型,根据所述应用名称对所述用户信息获取任务进行分类并计算任务优先级,根据任务下发规则,传输具有优先级参数的用户信息获取任务;
其中,所述步骤S1进一步包括:
步骤S11:通过如下公式计算任务优先级参数:
Figure FDA0003512512460000035
其中,Prii表示任务类别i的优先级参数,L表示任务类别i中共有L个任务,taskll表示任务类别i中第l个任务的创建顺序衡量值,ntaskl表示第l个任务相同内容发布过的次数,a,c均为常数值,由系统随机分配,a,c∈[0,1],bt-1表示时隙标识符,用于表示不同时间段之间的影响,bt=(a*bt-1)modc,taskpi表示任务类别i的映射值,用于区分不同任务池,任务池中任务越多映射值越大,
Figure FDA0003512512460000041
表示向下取整,nCI表示指示符补充值,用于在不同任务池对
Figure FDA0003512512460000042
取余运算时,对
Figure FDA0003512512460000043
进行补充,避免不同任务池的优先级相差过大,mod为取余运算;
步骤S2:根据所述具有优先级参数的用户信息获取任务,获取用户信息流量数据;
步骤S3:将所述用户信息流量数据解析为待解析报文信息,通过神经网络模型对所述待解析报文信息进行特征提取,判断所述待解析报文信息中是否包括指定用户信息并提取。
8.根据权利要求7所述的方法,其特征在于,所述步骤S3进一步包括:
步骤S31:将所述用户信息流量数据设置为报文格式树的形式,得到所述待解析报文信息,根据所述报文格式树确定解析深度参数;
步骤S32:所述神经网络模型对所述待解析报文信息通过激活、循环和封装进行特征提取,利用所述解析深度参数进行深度训练,判断所述待解析报文信息中是否包括指定用户信息并提取。
9.根据权利要求7所述的方法,其特征在于,所述步骤S2进一步包括:
步骤S21:根据所述应用名称和所述群组标识符找到并加入群组,通过监听相应的地址或端口,获取用户信息流量数据。
CN202110421317.2A 2021-04-19 2021-04-19 一种网络数据采集方法及系统 Active CN113132383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110421317.2A CN113132383B (zh) 2021-04-19 2021-04-19 一种网络数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110421317.2A CN113132383B (zh) 2021-04-19 2021-04-19 一种网络数据采集方法及系统

Publications (2)

Publication Number Publication Date
CN113132383A CN113132383A (zh) 2021-07-16
CN113132383B true CN113132383B (zh) 2022-03-25

Family

ID=76778269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110421317.2A Active CN113132383B (zh) 2021-04-19 2021-04-19 一种网络数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN113132383B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115225382A (zh) * 2022-07-20 2022-10-21 北京安点科技有限责任公司 基于2+1架构下工业网闸实现数据采集与转发的技术

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206667A1 (zh) * 2016-06-03 2017-12-07 中兴通讯股份有限公司 分布式部署Hadoop集群的方法及装置
CN107689968A (zh) * 2016-08-03 2018-02-13 阿里巴巴集团控股有限公司 任务的处理系统、方法及装置
CN111010351A (zh) * 2019-12-10 2020-04-14 新奥数能科技有限公司 一种物联网数据传输方法及系统
CN111753169A (zh) * 2020-06-29 2020-10-09 金电联行(北京)信息技术有限公司 一种基于互联网的数据采集系统
CN112257032A (zh) * 2019-10-21 2021-01-22 国家计算机网络与信息安全管理中心 一种确定app责任主体的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111049762A (zh) * 2019-12-23 2020-04-21 上海金仕达软件科技有限公司 数据采集方法、装置、存储介质及交换机

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206667A1 (zh) * 2016-06-03 2017-12-07 中兴通讯股份有限公司 分布式部署Hadoop集群的方法及装置
CN107689968A (zh) * 2016-08-03 2018-02-13 阿里巴巴集团控股有限公司 任务的处理系统、方法及装置
CN112257032A (zh) * 2019-10-21 2021-01-22 国家计算机网络与信息安全管理中心 一种确定app责任主体的方法及系统
CN111010351A (zh) * 2019-12-10 2020-04-14 新奥数能科技有限公司 一种物联网数据传输方法及系统
CN111753169A (zh) * 2020-06-29 2020-10-09 金电联行(北京)信息技术有限公司 一种基于互联网的数据采集系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于众包的社交网络数据采集模型设计与实现;高梦超等;《计算机工程》;20150415(第04期);全文 *

Also Published As

Publication number Publication date
CN113132383A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
US10452843B2 (en) Self-adaptive application programming interface level security monitoring
CN108306877B (zh) 基于node js的用户身份信息的验证方法、装置和存储介质
CN108768943B (zh) 一种检测异常账号的方法、装置及服务器
CN111768008A (zh) 联邦学习方法、装置、设备和存储介质
CN112035258A (zh) 数据处理方法、装置、电子设备及介质
EP3697042A1 (en) Traffic analysis method, public service traffic attribution method and corresponding computer system
CN108718298B (zh) 一种恶意外连流量检测方法及装置
CN111866016A (zh) 日志的分析方法及系统
CN112235266B (zh) 一种数据处理方法、装置、设备及存储介质
JP2017016650A (ja) コンピュータネットワーク上の資産を検出および識別するための方法およびシステム
CN113806110B (zh) 基于事件驱动的消息处理方法、装置、设备及存储介质
CN110648241B (zh) 一种基于微服务架构的理赔处理方法及装置
CN113132383B (zh) 一种网络数据采集方法及系统
US20240291854A1 (en) Inline detection of encrypted malicious network sessions
CN104765884B (zh) 一种https网页的指纹识别方法
CN109788349B (zh) 一种探测计算能力的方法及相关装置
CN110750749A (zh) 社群的维护方法、电子设备及计算机可读存储介质
US20170004026A1 (en) Monitoring method
CN114024904A (zh) 访问控制方法、装置、设备及存储介质
CN113630418A (zh) 一种网络服务识别方法、装置、设备及介质
CN111191738A (zh) 跨平台的数据处理方法、装置、设备及可读存储介质
CN111666509A (zh) 基于跨网络地理数据的云查询方法及系统
CN113778709B (zh) 接口调用方法、装置、服务器及存储介质
CN112688897A (zh) 一种流量识别的方法、装置、存储介质及电子设备
CN114567678B (zh) 一种云安全服务的资源调用方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant