CN106992872B - 一种信息处理的方法和系统 - Google Patents

一种信息处理的方法和系统 Download PDF

Info

Publication number
CN106992872B
CN106992872B CN201610041735.8A CN201610041735A CN106992872B CN 106992872 B CN106992872 B CN 106992872B CN 201610041735 A CN201610041735 A CN 201610041735A CN 106992872 B CN106992872 B CN 106992872B
Authority
CN
China
Prior art keywords
real
data
processing
time
offline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610041735.8A
Other languages
English (en)
Other versions
CN106992872A (zh
Inventor
邓展成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201610041735.8A priority Critical patent/CN106992872B/zh
Publication of CN106992872A publication Critical patent/CN106992872A/zh
Application granted granted Critical
Publication of CN106992872B publication Critical patent/CN106992872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Abstract

本发明实施例公开了一种信息处理的方法和系统,该方法可以包括:获取待处理的移动网络日志数据;根据已注册的实时处理模型实例对所述待处理的移动网络日志数据进行实时处理,获取实时处理结果;根据已注册的离线处理模型实例对所述待处理的移动网络日志数据,并结合所述中间数据进行预设的数据挖掘处理,获取离线处理结果;按照应用程序编程接口API的调用策略将所述实时处理结果和/或所述离线处理结果进行返回。能够将针对移动网络的DPI日志数据所进行的离线计算和实时计算进行结合,并且提高了对计算模型扩充的灵活度。

Description

一种信息处理的方法和系统
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种信息处理的方法和系统。
背景技术
随着移动互联网的不断发展,每天在运营商的管道上都会产生大量的各类移动网络的深层报文检测(DPI,Deep Packet Inspect)日志。这些DPI日志不仅包括了用户的通话记录,还包括用户对移动网络的使用日志;因此,这些DPI日志具有数据量大,实时性高等特点。这些日志蕴含着用户的使用习惯及需求信息,合理的对这些日志数据进行分析和挖掘能够为用户提供精细化及个性化服务提供良好的数据基础。
针对DPI日志数据量大,实时性高等特点,目前对移动网络的DPI日志进行分析和数据挖掘的系统,通常采用基于Twitter所提出的Lambda架构思想,该架构下把针对日志文件进行离线计算和实时计算统一起来。离线计算与实时计算分成了两个部分(即两种数据处理框架)进行实现:离线计算使用的是基于Hadoop MapReduce框架的离线处理平台,实时计算使用的是基于storm框架的实时处理平台,从而导致了两种数据处理框架的分离和孤立。
而且,由于两种孤立的数据处理框架,就使得Lambda架构对于计算模型是固定,当需要对计算模型进行扩充时,例如:离线计算模型中有MapReduce模型和BSP模型,HadoopMapreduce框架只支持MapReduce模型,如果对于某个特定的计算模型需要在BSP模型中运行,还需要在Lambda架构中开发出一个BSP系统并且单独运行,同样,对于实时计算模型也类似。因此,当前的Lambda架构无法灵活地对计算模型进行扩充。
发明内容
为解决上述技术问题,本发明实施例期望提供一种信息处理的方法和系统,能够将针对移动网络的DPI日志数据所进行的离线计算和实时计算进行结合,并且提高了对计算模型扩充的灵活度。
本发明的技术方案是这样实现的:
第一方面,本发明实施例提供了一种信息处理的方法,所述方法包括:
获取待处理的移动网络日志数据;
根据已注册的实时处理模型实例对所述待处理的移动网络日志数据进行实时处理,获取实时处理结果;其中,所述实时处理结果包括:最终数据和/或中间数据;
根据已注册的离线处理模型实例对所述待处理的移动网络日志数据,并结合所述中间数据进行预设的数据挖掘处理,获取离线处理结果;
按照应用程序编程接口API的调用策略将所述实时处理结果和/或所述离线处理结果进行返回。
在上述方案中,所述方法还包括:
对待注册的实时处理模型进行验证;
将验证通过的实时处理模型进行初始化;
为初始化成功的实时处理模型建立对应的实时处理模型实例。
在上述方案中,所述方法还包括:
对待注册的离线处理模型进行验证;
将验证通过的离线处理模型进行初始化;
为初始化成功的离线处理模型建立对应的离线处理模型实例。
在上述方案中,获取待处理的移动网络日志数据,具体包括:
接收移动网络日志原始数据;
对所述移动网络日志原始数据进行合法性验证,并将通过了合法性验证的移动网络日志原始数据中的敏感信息进行消除;
按照预设的过滤策略对消除了敏感信息后的移动网络日志数据进行过滤,获得待处理的移动网络日志数据。
在上述方案中,所述根据已注册的实时处理模型实例对所述待处理的移动网络日志数据进行实时处理,获取实时处理结果;具体包括:
按照已注册的实时处理模型对应的参数要求读取所述待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果。
在上述方案中,所述按照已注册的实时处理模型对应的参数要求读取所述待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果,具体包括:
从所述待处理的移动网络日志数据中,按照当前时间获取满足预设的时间范围的移动网络日志数据内容;
根据预设的热点内容排列算法从满足预设的时间范围的移动网络日志数据内容中获取热点内容;其中,所述预设的热点内容排列算法包括:词频/逆向文件频率TF/IDF算法,隐马尔可夫链算法、决策数算法、贝叶斯算法中的一项或多项的结合。
在上述方案中,所述根据已注册的离线处理模型实例对所述待处理的移动网络日志数据,并结合所述中间数据进行预设的数据挖掘处理,获取离线处理结果,具体包括:
按照已注册的离线处理模型对应的参数要求读取所述待处理的移动网络日志数据和/或所述中间数据,并按照已注册的离线处理模型实例进行数据挖掘处理,获得离线处理结果。
在上述方案中,所述按照应用程序编程接口API的调用策略将所述实时处理结果和/或所述离线处理结果进行返回,具体包括:
通过API接收处理请求;
按照所述处理请求相应的处理逻辑对所述实时处理结果和/或所述离线处理结果进行处理,并将所述处理请求对应的处理结果进行返回。
第二方面,本发明实施例提供了一种信息处理的系统,所述系统包括:日志获取模块、实时处理模块、离线处理模块和对外服务模块;其中,
所述日志获取模块,用于获取待处理的移动网络日志数据;
所述实时处理模块,用于根据已注册的实时处理模型实例对所述待处理的移动网络日志数据进行实时处理,获取实时处理结果;其中,所述实时处理结果包括:最终数据和/或中间数据;
所述离线处理模块,用于根据已注册的离线处理模型实例对所述待处理的移动网络日志数据,并结合所述中间数据进行预设的数据挖掘处理,获取离线处理结果;
所述对外服务模块,用于按照应用程序编程接口API的调用策略将所述实时处理结果和/或所述离线处理结果进行返回。
在上述方案中,所述系统还包括第一注册模块,用于:
对待注册的实时处理模型进行验证;
以及,将验证通过的实时处理模型进行初始化;
以及,将初始化后的实时处理模型分发至所述实时处理模块;
相应地,所述实时处理模块,还用于为初始化成功的实时处理模型建立对应的实时处理模型实例。
在上述方案中,所述系统还包括第二注册模块,用于:
对待注册的离线处理模型进行验证;
以及,将验证通过的离线处理模型进行初始化;
以及,将初始化后的离线处理模型分发至所述离线处理模块;
相应地,所述离线处理模块,还用于为初始化成功的离线处理模型建立对应的离线处理模型实例。
在上述方案中,所述日志获取模块具体包括:日志接收单元、验证单元、脱敏单元、过滤单元及日志传输单元;其中,
所述日志接收单元,用于接收移动网络日志原始数据;
所述验证单元,用于对所述移动网络日志原始数据进行合法性验证;
所述脱敏单元,用于将通过了合法性验证的移动网络日志原始数据中的敏感信息进行消除;
所述过滤单元,用于按照预设的过滤策略对消除了敏感信息后的移动网络日志数据进行过滤,获得待处理的移动网络日志数据;
所述日志传输单元,用于通过实时通道将待处理的移动网络日志数据传输至所述实时处理模块,以及通过离线通道将待处理的移动网络日志数据传输至所述离线处理模块。
在上述方案中,所述实时处理模块,具体用于:
按照已注册的实时处理模型对应的参数要求读取所述待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果。
在上述方案中,所述实时处理模块,具体用于:
从所述待处理的移动网络日志数据中,按照当前时间获取满足预设的时间范围的移动网络日志数据内容;
以及,根据预设的热点内容排列算法从满足预设的时间范围的移动网络日志数据内容中获取热点内容;其中,所述预设的热点内容排列算法包括:词频/逆向文件频率TF/IDF算法,隐马尔可夫链算法、决策数算法、贝叶斯算法中的一项或多项的结合。
在上述方案中,所述离线处理模块,具体用于:
按照已注册的离线处理模型对应的参数要求读取所述待处理的移动网络日志数据和/或所述中间数据,并按照已注册的离线处理模型实例进行数据挖掘处理,获得离线处理结果。
在上述方案中,所述对外服务模块,具体用于:
通过API接收处理请求;
以及,按照所述处理请求相应的处理逻辑对所述实时处理结果和/或所述离线处理结果进行处理,并将所述处理请求对应的处理结果进行返回。
本发明实施例提供了一种信息处理的方法和系统,通过将实时处理模型与离线处理模型通过注册实例的方式进行数据处理,能够将针对移动网络的DPI日志数据所进行的离线计算和实时计算进行结合,并且提高了对计算模型扩充的灵活度。
附图说明
图1为本发明实施例提供的一种信息处理的系统结构示意图;
图2为本发明实施例提供的另一种信息处理的系统结构示意图;
图3为本发明实施例提供的一种信息处理的方法流程示意图;
图4为本发明实施例提供的一种获取待处理的移动网络日志数据的流程示意图;
图5为本发明实施例提供的另一种获取待处理的移动网络日志数据的流程示意图;
图6为本发明实施例提供的一种获取实时处理结果的流程示意图;
图7为本发明实施例提供的一种获取离线处理结果的流程示意图;
图8为本发明实施例提供的另一种获取实时处理结果的流程示意图;
图9为本发明实施例提供的另一种获取离线处理结果的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例一
参见图1,其示出了本发明实施例提供的一种信息处理的系统10,如图1所示,该系统10可以包括:日志获取模块101、实时处理模块102、离线处理模块103和对外服务模块104;其中,
日志获取模块101,用于获取待处理的移动网络日志数据;
实时处理模块102,用于根据已注册的实时处理模型实例对待处理的移动网络日志数据进行实时处理,获取实时处理结果;其中,实时处理结果包括:最终数据和/或中间数据;
离线处理模块103,用于根据已注册的离线处理模型实例对待处理的移动网络日志数据,并结合中间数据进行预设的数据挖掘处理,获取离线处理结果;
对外服务模块104,用于按照应用程序编程接口(API,Application ProgrammingInterface)的调用策略将实时处理结果和/或离线处理结果进行返回。
示例性地,参见图2,系统10还可以包括第一注册模块105,用于:
对待注册的实时处理模型进行验证;
以及,将验证通过的实时处理模型进行初始化;
以及,将初始化后的实时处理模型分发至实时处理模块102;
相应地,实时处理模块102,还用于为初始化成功的实时处理模型建立对应的实时处理模型实例。
示例性地,参见图2,系统10还包括第二注册模块106,用于:
对待注册的离线处理模型进行验证;
以及,将验证通过的离线处理模型进行初始化;
以及,将初始化后的离线处理模型分发至离线处理模块103;
相应地,离线处理模块103,还用于为初始化成功的离线处理模型建立对应的离线处理模型实例。
可以理解地,通过上述针对实时处理模块和离线处理模块对于实时处理和离线处理的注册过程描述可以得出,两种处理计算可以通过一套逻辑代码进行实现,无需要针对不同的处理计算模型选用不同的框架,使得离线计算和实时计算进行结合,提高了对计算模型扩充的灵活度。
示例性地,参见图2,日志获取模块101具体包括:日志接收单元1011、验证单元1012、脱敏单元1013、过滤单元1014及日志传输单元1015;其中,日志接收单元1011,用于接收移动网络日志原始数据;在具体实施过程中,日志接收单元1011可以由客户端或者收发接口传输的特定的日志原始数据,具体可以是通过串行数据传输协议(SDTP,Serial DataTransport Protocol)进行传输;并且,特定的日志原始数据包含了后续实时处理模块102与离线处理模块103所需要的元数据,它们具体可以包括用户标识,访问时间,访问统一资源定位器(URL,Uniform Resoure Locator),访问途径Referrer,访问终端,访问操作系统,访问位置等;
验证单元1012,用于对移动网络日志原始数据进行合法性验证;并且可以将不合法的日志原始数据进行抛弃;
脱敏单元1013,用于将通过了合法性验证的移动网络日志原始数据中的敏感信息进行消除;在具体实施过程中,脱敏单元1013主要是对日志原始数据中用户数据进行加密转换或者直接抛弃;
过滤单元1014,用于按照预设的过滤策略对消除了敏感信息后的移动网络日志数据进行过滤,获得待处理的移动网络日志数据;需要说明的是,这个过滤策略可以将日志原始数据中对于后续处理无用的垃圾数据进行过滤,减轻后续功能模块的处理压力;
日志传输单元1015,用于通过实时通道将待处理的移动网络日志数据传输至实时处理模块102,以及通过离线通道将待处理的移动网络日志数据传输至离线处理模块103;可以理解地,当过滤完成后,日志传输单元1015会同时向两个通道,即实时通道和离线通道分别向实时处理模块102和离线处理模块103发送待处理的移动网络日志数据。
示例性地,实时处理模块102,可以用于:
按照已注册的实时处理模型对应的参数要求读取待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果。
需要说明的是,已注册的实时处理模型实例可以被配置为多种实时计算方法,例如实时用户摸索行为、搜索关键词排行、用户实时访问行为、实时热点内容排行等。
进一步地,实时处理模块102,可以用于:
从待处理的移动网络日志数据中,按照当前时间获取满足预设的时间范围的移动网络日志数据内容;
以及,根据预设的热点内容排列算法从满足预设的时间范围的移动网络日志数据内容中获取热点内容;其中,预设的热点内容排列算法包括:词频/逆向文件频率(TF/IDF,Term Frequency–Inverse Document Frequency)算法,隐马尔可夫链算法、决策数算法、贝叶斯算法中的一项或多项的结合。
可以理解地,当该系统10在正常的状态下,实时处理模块102将一直保持持续运行的,因此其各类实时处理模型示例会实时处理日志传输单元1015发送过来的日志数据。
示例性地,离线处理模块103,具体用于:
按照已注册的离线处理模型对应的参数要求读取待处理的移动网络日志数据和/或中间数据,并按照已注册的离线处理模型实例进行数据挖掘处理,获得离线处理结果。
需要说明的是,已注册的离线处理模型实例可以被配置为长周期计算方法,例如用户长期访问行为,用户兴趣等。
可以理解地,当该系统10在正常的状态下,离线处理模块103的运行方式可以是定时的、周期性的,或者也可以通过客户端或者相关接口主动触发运行。
示例性地,对外服务模块104,具体用于:
通过API接收处理请求;
以及,按照处理请求相应的处理逻辑对实时处理结果和/或离线处理结果进行处理,并将处理请求对应的处理结果进行返回。
在具体实施过程中,对外服务模块104可以接收外部发送的处理请求,并验证该请求的合法性,对于不合法的请求作好日志记录并返回异常;
当请求验证成功后,针对不同的请求对应的不同的数据处理逻辑对实时处理结果和/或离线处理结果进行处理;例如对实时处理结果和/或离线处理结果进行汇总、统计、分析、结构化等处理,并进行返回。
对于本实施例,还需要说明的是,实时处理模块102和离线处理模块103得到的处理结果,可以保存于单独的数据存储模块,存储的内容可以包括结构化数据和非结构化数据;其中,结构化数据有结果数据及中间数据等;非结构化数据有日志数据和网络爬虫数据等。采用的数据存储结构是采用分布式存储结构。
本实施例提供了一种信息处理的系统,通过将实时处理模型与离线处理模型通过注册实例的方式进行数据处理,能够将针对移动网络的DPI日志数据所进行的离线计算和实时计算进行结合,并且提高了对计算模型扩充的灵活度。
实施例二
基于上述实施例相同的技术构思,参见图3,其示出了本发明实施例提供的一种信息处理的方法,该方法可以应用于实施例一中所述的信息处理系统中,该方法可以包括:
S301:获取待处理的移动网络日志数据;
S302:根据已注册的实时处理模型实例对所述待处理的移动网络日志数据进行实时处理,获取实时处理结果;
其中,实时处理结果包括:最终数据和/或中间数据;
S303:根据已注册的离线处理模型实例对待处理的移动网络日志数据,并结合中间数据进行预设的数据挖掘处理,获取离线处理结果;
S304:按照应用程序编程接口API的调用策略将实时处理结果和/或离线处理结果进行返回。
优选地,该方法还包括:
对待注册的实时处理模型进行验证;
将验证通过的实时处理模型进行初始化;
为初始化成功的实时处理模型建立对应的实时处理模型实例。
优选地,该方法还包括:
对待注册的离线处理模型进行验证;
将验证通过的离线处理模型进行初始化;
为初始化成功的离线处理模型建立对应的离线处理模型实例。
示例性地,参见图4,步骤S301:获取待处理的移动网络日志数据,具体可以包括:
S3011:接收移动网络日志原始数据;
S3012:对移动网络日志原始数据进行合法性验证,并将通过了合法性验证的移动网络日志原始数据中的敏感信息进行消除;
S3013:按照预设的过滤策略对消除了敏感信息后的移动网络日志数据进行过滤,获得待处理的移动网络日志数据;
示例性地,根据已注册的实时处理模型实例对待处理的移动网络日志数据进行实时处理,获取实时处理结果;具体包括:
按照已注册的实时处理模型对应的参数要求读取待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果。
进一步地,以已注册的实时处理模型实例为热点内容排列为例,按照已注册的实时处理模型对应的参数要求读取待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果,具体可以包括:
从待处理的移动网络日志数据中,按照当前时间获取满足预设的时间范围的移动网络日志数据内容;
根据预设的热点内容排列算法从满足预设的时间范围的移动网络日志数据内容中获取热点内容;其中,预设的热点内容排列算法包括:词频/逆向文件频率TF/IDF算法,隐马尔可夫链算法、决策数算法、贝叶斯算法中的一项或多项的结合。
示例性地,根据已注册的离线处理模型实例对待处理的移动网络日志数据,并结合中间数据进行预设的数据挖掘处理,获取离线处理结果,具体包括:
按照已注册的离线处理模型对应的参数要求读取待处理的移动网络日志数据和/或中间数据,并按照已注册的离线处理模型实例进行数据挖掘处理,获得离线处理结果。
示例性地,按照应用程序编程接口API的调用策略将实时处理结果和/或离线处理结果进行返回,具体包括:
通过API接收处理请求;
按照处理请求相应的处理逻辑对实时处理结果和/或离线处理结果进行处理,并将处理请求对应的处理结果进行返回。
本实施例提供了一种信息处理的方法,通过将实时处理模型与离线处理模型通过注册实例的方式进行数据处理,能够将针对移动网络的DPI日志数据所进行的离线计算和实时计算进行结合,并且提高了对计算模型扩充的灵活度。
实施例三
结合实施例一中所描述的信息处理的系统结构,对实施例二所描述的信息处理方法进行具体实现过程的说明。
在本实施例所公开的具体实现过程中,日志获取模块可以包括:日志接收单元、验证单元、脱敏单元、过滤单元及日志传输单元;那么参见图5,对于图4所描述的获取待处理的移动网络日志数据这一步骤,具体结合实施例一所描述的系统结构,可以包括:
S501:日志接收单元接收由客户端或者收发接口传输的特定的移动网络日志原始数据;
S502:日志接收单元将移动网络日志原始数据传输至验证单元;
S503:验证单元对移动网络日志原始数据进行合法性验证;
S504:验证单元将通过了合法性验证的移动网络日志原始数据传输至脱敏单元;
S505:脱敏单元将通过了合法性验证的移动网络日志原始数据中的敏感信息进行消除;
S506:脱敏单元将消除了敏感信息后的移动网络日志数据传输至过滤单元;
S507:过滤单元按照预设的过滤策略对消除了敏感信息后的移动网络日志数据进行过滤,获得待处理的移动网络日志数据;
S508:日志传输单元通过实时通道将待处理的移动网络日志数据传输至实时处理模块,以及通过离线通道将待处理的移动网络日志数据传输至离线处理模块。
在本实施例所公开的具体实现过程中,对于第一注册模块和实时处理模块而言,参见图6,根据已注册的实时处理模型实例对待处理的移动网络日志数据进行实时处理,获取实时处理结果,具体可以包括:
S601:第一注册模块接收待注册的实时处理模型;
S602:第一注册模块对待注册的实时处理模型进行验证;
S603:第一注册模块将验证通过的实时处理模型进行初始化;
S604:第一注册模块将初始化后的实时处理模型分发至实时处理模块;
S605:实时处理模块为初始化成功的实时处理模型建立对应的实时处理模型实例;
S606:实时处理模块按照已注册的实时处理模型对应的参数要求读取待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果;
其中,实时处理结果包括:最终数据和/或中间数据。
需要说明的是,已注册的实时处理模型实例可以被配置为多种实时计算方法,例如实时用户摸索行为、搜索关键词排行、用户实时访问行为、实时热点内容排行等。
以实时热点内容排行为例,实时处理模块可以从待处理的移动网络日志数据中,按照当前时间获取满足预设的时间范围的移动网络日志数据内容;
随后,实时处理模块可以根据预设的热点内容排列算法从满足预设的时间范围的移动网络日志数据内容中获取热点内容;其中,预设的热点内容排列算法包括:词频/逆向文件频率(TF/IDF,Term Frequency–Inverse Document Frequency)算法,隐马尔可夫链算法、决策数算法、贝叶斯算法中的一项或多项的结合。
可以理解地,当信息处理的系统在正常的状态下,实时处理模块将一直保持持续运行的,因此其各类实时处理模型示例会实时处理日志传输单元发送过来的日志数据。
在本实施例所公开的具体实现过程中,对于第二注册模块和离线处理模块而言,参见图7,根据已注册的离线处理模型实例对待处理的移动网络日志数据,并结合中间数据进行预设的数据挖掘处理,获取离线处理结果,具体可以包括:
S701:第二注册模块接收待注册的离线处理模型;
S702:第二注册模块对待注册的离线处理模型进行验证;
S703:第二注册模块将验证通过的离线处理模型进行初始化;
S704:第二注册模块将初始化后的离线处理模型分发至离线处理模块;
S705:离线处理模块为初始化成功的离线处理模型建立对应的离线处理模型实例;
S706:离线处理模块按照已注册的离线处理模型对应的参数要求读取待处理的移动网络日志数据和/或中间数据,并按照已注册的离线处理模型实例进行数据挖掘处理,获得离线处理结果。
需要说明的是,已注册的离线处理模型实例可以被配置为多种长周期的计算方法,如用户长期访问行为,用户兴趣等。可以理解地,当信息处理的系统在正常的状态下,离线处理模块的运行方式可以是定时的、周期性的,或者也可以通过客户端或者相关接口主动触发运行。
综上,如图6及图7所示,从第一注册模块与实时处理模块和第二注册模块与离线处理模块分别针对实时处理模型和离线处理模型的注册和使用过程的描述可以得出,两种处理方法在流程上基本是一致的,将待注册的处理模型进行验证并初始化,随后进行模型的分发,当需要使用处理模型时,会建立其对应的实例,并启动模型实例进行计算。
因此,两种处理方法可以通过一套统一的逻辑代码进行实现,无需要针对不同的处理计算模型选用不同的框架,使得离线计算和实时计算进行结合,提高了对计算模型扩充的灵活度。
具体地,第一注册模块、第二注册模块、实时处理模块和离线处理模块的功能可以分布于信息处理的系统中的管理节点和工作节点;管理节点不仅维护着注册模型的状态管理,实时计算和离线计算的状态管理,同时还管理着工作节点的状态。那么,当第一注册模块、第二注册模块、实时处理模块和离线处理模块的功能分布于信息处理的系统中的管理节点和工作节点时,上述图6及图7所示的过程可以包括:
如图8所示,当用户通过客户端或相关接口申请注册实时计算模型时,管理节点的第一注册模块会接收该实时计算模型的元数据信息,并且将该实时计算模型验证通过后,传输至工作节点的第一注册模块;
工作节点的第一注册模块可以根据接收到模型注册请求,会对该实时计算模型进行初始化工作;
当实时计算模型注册成功后,管理节点的第一注册模块会向管理节点的实时处理模块发起运行实时处理模型任务的命令,管理节点的实时处理模块接收到运行实时处理模型任务后,会通过工作节点的实时处理模块启动实时处理模型实例。
如图9所示,当用户通过客户端或相关接口申请注册离线计算模型时,管理节点的第二注册模块会接收该离线计算模型的元数据信息,并且将该离线计算模型验证通过后,传输至工作节点的第二注册模块;
工作节点的第二注册模块可以根据接收到模型注册请求,会对该离线计算模型进行初始化工作;
用户可以通过管理节点的离线处理模块启动离线计算模型任务。当管理节点的离线处理模块接到离线计算模型任务,会向管理节点的第二注册模块请求计算模型元数据,并通过工作节点的离线处理模块发起运行离线计算模型命令,工作节点的离线处理模块根据模型元数据启动离线处理模型实例。
还需要说明的是,实时处理模块和离线处理模块得到的处理结果,可以保存于单独的数据存储模块,存储的内容可以包括结构化数据和非结构化数据;其中,结构化数据有结果数据及中间数据等;非结构化数据有日志数据和网络爬虫数据等。采用的数据存储结构是采用分布式存储结构。
本实施例提供了一种基于信息处理系统的信息处理方法的具体实现过程,通过将实时处理模型与离线处理模型通过注册实例的方式进行数据处理,能够将针对移动网络的DPI日志数据所进行的离线计算和实时计算进行结合,并且提高了对计算模型扩充的灵活度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (16)

1.一种信息处理的方法,其特征在于,所述方法包括:
获取待处理的移动网络日志数据;
根据已注册的实时处理模型实例对所述待处理的移动网络日志数据进行实时处理,获取实时处理结果;其中,所述实时处理结果包括:最终数据和/或中间数据;
根据已注册的离线处理模型实例对所述待处理的移动网络日志数据,并结合所述中间数据进行预设的数据挖掘处理,获取离线处理结果;
按照应用程序编程接口API的调用策略将所述实时处理结果和/或所述离线处理结果进行返回。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对待注册的实时处理模型进行验证;
将验证通过的实时处理模型进行初始化;
为初始化成功的实时处理模型建立对应的实时处理模型实例。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对待注册的离线处理模型进行验证;
将验证通过的离线处理模型进行初始化;
为初始化成功的离线处理模型建立对应的离线处理模型实例。
4.根据权利要求1所述的方法,其特征在于,获取待处理的移动网络日志数据,具体包括:
接收移动网络日志原始数据;
对所述移动网络日志原始数据进行合法性验证,并将通过了合法性验证的移动网络日志原始数据中的敏感信息进行消除;
按照预设的过滤策略对消除了敏感信息后的移动网络日志数据进行过滤,获得待处理的移动网络日志数据。
5.根据权利要求1所述的方法,其特征在于,所述根据已注册的实时处理模型实例对所述待处理的移动网络日志数据进行实时处理,获取实时处理结果;具体包括:
按照已注册的实时处理模型对应的参数要求读取所述待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果。
6.根据权利要求5所述的方法,其特征在于,所述按照已注册的实时处理模型对应的参数要求读取所述待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果,具体包括:
从所述待处理的移动网络日志数据中,按照当前时间获取满足预设的时间范围的移动网络日志数据内容;
根据预设的热点内容排列算法从满足预设的时间范围的移动网络日志数据内容中获取热点内容;其中,所述预设的热点内容排列算法包括:词频/逆向文件频率TF/IDF算法,隐马尔可夫链算法、决策数算法、贝叶斯算法中的一项或多项的结合。
7.根据权利要求1所述的方法,其特征在于,所述根据已注册的离线处理模型实例对所述待处理的移动网络日志数据,并结合所述中间数据进行预设的数据挖掘处理,获取离线处理结果,具体包括:
按照已注册的离线处理模型对应的参数要求读取所述待处理的移动网络日志数据和/或所述中间数据,并按照已注册的离线处理模型实例进行数据挖掘处理,获得离线处理结果。
8.根据权利要求1所述的方法,其特征在于,所述按照应用程序编程接口API的调用策略将所述实时处理结果和/或所述离线处理结果进行返回,具体包括:
通过API接收处理请求;
按照所述处理请求相应的处理逻辑对所述实时处理结果和/或所述离线处理结果进行处理,并将所述处理请求对应的处理结果进行返回。
9.一种信息处理的系统,其特征在于,所述系统包括:日志获取模块、实时处理模块、离线处理模块和对外服务模块;其中,
所述日志获取模块,用于获取待处理的移动网络日志数据;
所述实时处理模块,用于根据已注册的实时处理模型实例对所述待处理的移动网络日志数据进行实时处理,获取实时处理结果;其中,所述实时处理结果包括:最终数据和/或中间数据;
所述离线处理模块,用于根据已注册的离线处理模型实例对所述待处理的移动网络日志数据,并结合所述中间数据进行预设的数据挖掘处理,获取离线处理结果;
所述对外服务模块,用于按照应用程序编程接口API的调用策略将所述实时处理结果和/或所述离线处理结果进行返回。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括第一注册模块,用于:
对待注册的实时处理模型进行验证;
以及,将验证通过的实时处理模型进行初始化;
以及,将初始化后的实时处理模型分发至所述实时处理模块;
相应地,所述实时处理模块,还用于为初始化成功的实时处理模型建立对应的实时处理模型实例。
11.根据权利要求9所述的系统,其特征在于,所述系统还包括第二注册模块,用于:
对待注册的离线处理模型进行验证;
以及,将验证通过的离线处理模型进行初始化;
以及,将初始化后的离线处理模型分发至所述离线处理模块;
相应地,所述离线处理模块,还用于为初始化成功的离线处理模型建立对应的离线处理模型实例。
12.根据权利要求9所述的系统,其特征在于,所述日志获取模块具体包括:日志接收单元、验证单元、脱敏单元、过滤单元及日志传输单元;其中,
所述日志接收单元,用于接收移动网络日志原始数据;
所述验证单元,用于对所述移动网络日志原始数据进行合法性验证;
所述脱敏单元,用于将通过了合法性验证的移动网络日志原始数据中的敏感信息进行消除;
所述过滤单元,用于按照预设的过滤策略对消除了敏感信息后的移动网络日志数据进行过滤,获得待处理的移动网络日志数据;
所述日志传输单元,用于通过实时通道将待处理的移动网络日志数据传输至所述实时处理模块,以及通过离线通道将待处理的移动网络日志数据传输至所述离线处理模块。
13.根据权利要求9所述的系统,其特征在于,所述实时处理模块,具体用于:
按照已注册的实时处理模型对应的参数要求读取所述待处理的移动网络日志数据,并按照已注册的实时处理模型实例进行实时处理,获取实时处理结果。
14.根据权利要求13所述的系统,其特征在于,所述实时处理模块,具体用于:
从所述待处理的移动网络日志数据中,按照当前时间获取满足预设的时间范围的移动网络日志数据内容;
以及,根据预设的热点内容排列算法从满足预设的时间范围的移动网络日志数据内容中获取热点内容;其中,所述预设的热点内容排列算法包括:词频/逆向文件频率TF/IDF算法,隐马尔可夫链算法、决策数算法、贝叶斯算法中的一项或多项的结合。
15.根据权利要求9所述的系统,其特征在于,所述离线处理模块,具体用于:
按照已注册的离线处理模型对应的参数要求读取所述待处理的移动网络日志数据和/或所述中间数据,并按照已注册的离线处理模型实例进行数据挖掘处理,获得离线处理结果。
16.根据权利要求9所述的系统,其特征在于,所述对外服务模块,具体用于:
通过API接收处理请求;
以及,按照所述处理请求相应的处理逻辑对所述实时处理结果和/或所述离线处理结果进行处理,并将所述处理请求对应的处理结果进行返回。
CN201610041735.8A 2016-01-21 2016-01-21 一种信息处理的方法和系统 Active CN106992872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610041735.8A CN106992872B (zh) 2016-01-21 2016-01-21 一种信息处理的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610041735.8A CN106992872B (zh) 2016-01-21 2016-01-21 一种信息处理的方法和系统

Publications (2)

Publication Number Publication Date
CN106992872A CN106992872A (zh) 2017-07-28
CN106992872B true CN106992872B (zh) 2020-05-12

Family

ID=59413516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610041735.8A Active CN106992872B (zh) 2016-01-21 2016-01-21 一种信息处理的方法和系统

Country Status (1)

Country Link
CN (1) CN106992872B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754072B (zh) 2018-12-29 2020-06-23 中科寒武纪科技股份有限公司 网络离线模型的处理方法、人工智能处理装置及相关产品
CN110958218B (zh) * 2019-10-16 2022-01-28 平安国际智慧城市科技股份有限公司 基于多网通信的数据传输方法及相关设备
CN113141329B (zh) * 2020-01-16 2023-04-18 中移(上海)信息通信科技有限公司 大数据挖掘方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法
CN102902775A (zh) * 2012-09-27 2013-01-30 新浪网技术(中国)有限公司 互联网实时计算的方法和系统
CN103546514A (zh) * 2012-07-13 2014-01-29 阿里巴巴集团控股有限公司 一种处理延迟发送的日志数据的方法和系统
CN105207826A (zh) * 2015-10-26 2015-12-30 南京联成科技发展有限公司 一种基于Tachyou的Spark大数据平台的安全攻击告警定位系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9398022B2 (en) * 2007-06-01 2016-07-19 Teresa C. Piliouras Systems and methods for universal enhanced log-in, identity document verification, and dedicated survey participation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法
CN103546514A (zh) * 2012-07-13 2014-01-29 阿里巴巴集团控股有限公司 一种处理延迟发送的日志数据的方法和系统
CN102902775A (zh) * 2012-09-27 2013-01-30 新浪网技术(中国)有限公司 互联网实时计算的方法和系统
CN105207826A (zh) * 2015-10-26 2015-12-30 南京联成科技发展有限公司 一种基于Tachyou的Spark大数据平台的安全攻击告警定位系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
大规模网络异常流量云检测平台研究;李天枫;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151215;正文第三章节 *
李天枫.大规模网络异常流量云检测平台研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2015, *

Also Published As

Publication number Publication date
CN106992872A (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
US8175584B2 (en) System and method to facilitate downloading data at a mobile wireless device
CN105451087B (zh) 弹幕信息的推送方法、终端、历史数据服务器及系统
EP2688264A1 (en) Method and apparatus for privacy protected clustering of user interest profiles
CN104199863B (zh) 存储设备上的文件的查找方法、装置及路由器
CN106534268B (zh) 一种数据共享方法及装置
CN105897888B (zh) 一种客户端连接方法及系统
US8370908B2 (en) Decreasing login latency
CN106992872B (zh) 一种信息处理的方法和系统
US9948580B2 (en) Techniques to replicate data using uploads from messaging clients
CN104753922A (zh) 用于预加载的方法、服务端、客户端及系统
KR102013432B1 (ko) 사용자를 그룹과 연관 짓는 방법 및 기기
CN105335313A (zh) 一种基础数据的传输方法及装置
CN110929129A (zh) 一种信息检测方法、设备及机器可读存储介质
CN106250427B (zh) 一种容器镜像推荐信息的生成方法及系统
Hac Multimedia applications support for wireless ATM networks
JP6585192B2 (ja) キー付けされたデータベースを用いて維持されるキー付けされたデータの検索と取出し
EP3609120B1 (en) Distributed data storage
CN102780680A (zh) Sns平台数据回推方法及系统
CN103634348A (zh) 终端设备以及发布信息的方法
CN108769274B (zh) 一种对话式文件传输方法、装置和设备/终端/服务器
CN115202800A (zh) 边缘云业务数据处理方法、装置、计算机设备和存储介质
RU2632130C2 (ru) Способ и система предоставления пользователю контента, способ получения пользователем контента
CN107707383B (zh) 放通处理方法、装置、第一网元及第二网元
CN107094164B (zh) 一种信息传输方法及装置
KR102166211B1 (ko) 메신저 서비스 시스템, 그의 메신저 사용자 인증을 위한 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant