CN102685224B - 用户行为分析方法及相关设备和系统 - Google Patents

用户行为分析方法及相关设备和系统 Download PDF

Info

Publication number
CN102685224B
CN102685224B CN201210132715.3A CN201210132715A CN102685224B CN 102685224 B CN102685224 B CN 102685224B CN 201210132715 A CN201210132715 A CN 201210132715A CN 102685224 B CN102685224 B CN 102685224B
Authority
CN
China
Prior art keywords
uba
web content
cloud server
child node
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210132715.3A
Other languages
English (en)
Other versions
CN102685224A (zh
Inventor
唐东
张洪丁
周韡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210132715.3A priority Critical patent/CN102685224B/zh
Publication of CN102685224A publication Critical patent/CN102685224A/zh
Priority to EP12875668.1A priority patent/EP2830283B1/en
Priority to CA2871698A priority patent/CA2871698C/en
Priority to PCT/CN2012/085046 priority patent/WO2013159512A1/zh
Application granted granted Critical
Publication of CN102685224B publication Critical patent/CN102685224B/zh
Priority to US14/524,530 priority patent/US9589275B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了用户行为分析方法及相关设备和系统。其中,一种用户行为分析方法,应用于包括至少1个UBA云服务器的UBA云,UBA云服务器处于所在网络的分析决策层,可方法包括:UBA云服务器接收第一UBA子节点上报的无法识别的网络内容标识;获取网络内容标识对应的网络内容;从网络内容中提取出关键词;利用提取出的关键词更新行为知识库;UBA云服务器向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容;其中UBA子节点集至少包括第二UBA子节点和第一UBA子节点,第二UBA子节点和第一UBA子节点处于所在网络的探针层。本发明实施例的方案有利于提高用户行为分析能力,减少重复分析问题。

Description

用户行为分析方法及相关设备和系统
技术领域
本发明涉及通信技术领域,具体涉及用户行为分析方法及相关设备和系统。
背景技术
随着全网网际互联协议(IP,Internet Protoco1)化进程的推进,丰富的业务给运营商带来机遇的同时也带来了挑战。业务流量呈爆炸式增长,为了更好地运营网络,为用户提供更好的体验,有必要分析用户上网行为,进而获知用户的兴趣所在、整网应用情况和应用趋势等,以便更好的为用户提供个性化服务和优化网络。
用户行为分析(UBA,User Behavior Analysis)不仅可用于精细化运营规划和网络规划,还可用于精准广告推送等业务,运营商可据此运营高价值的(如广告推送业务)等增值业务。据统计,2007年国际互联网广告的业务额为440亿美元(连续3年增长超过44%),中国为103亿人民币,预计2012年中国可达703亿人民币。
现有常见UBA设备部署架构可如图1-a和图1-b所示,不同的区域分别部署不同的UBA设备。UBA设备需对用户访问内容进行分析,而每天用户访问量通常很大,网络每天新增的内容可能也比较多,实践发现,现有架构中的UBA设备分析能力有限,且不同UBA设备之间经常出现重复分析问题,进一步影响有效性能。
发明内容
本发明实施例提供用户行为分析方法及相关设备和系统,以提高用户行为分析能力,减少重复分析问题。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面还一种用户行为分析方法,应用于包括至少一个用户行为分析UBA云服务器的UBA云,其中,所述UBA云服务器处于所在网络的分析决策层,所述方法包括:所述方法包括:
UBA云服务器接收第一UBA子节点上报的无法识别的网络内容标识;
所述UBA云服务器获取所述网络内容标识对应的网络内容;
所述UBA云服务器从所述网络内容中提取出关键词;
所述UBA云服务器利用提取出的所述关键词更新行为知识库;
所述UBA云服务器向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容;其中,所述UBA子节点集至少包括第二UBA子节点和所述第一UBA子节点,所述第二UBA子节点和第一UBA子节点处于所在网络的探针层。
本发明实施例另一方面还提供一种用户行为分析方法,应用于包括至少一个用户行为分析UBA云服务器的UBA云,其中,所述UBA云服务器处于所在网络的分析决策层,所述方法包括:
UBA云服务器接收第一UBA子节点上报的无法识别的网络内容标识;
所述UBA云服务器利用所述网络内容标识,在行为知识库查找与所述网络内容标识匹配的行为记录;
若在所述行为知识库查找到与所述网络内容标识匹配的行为记录,则所述UBA云服务器向所述第一UBA子节点下发与所述网络内容标识匹配的行为记录中包含的,所述网络内容标识对应的内容分类信息,其中,所述第一UBA子节点处于所在网络的探针层。
本发明实施例另一方面还提供一种用户行为分析方法,包括:
一种用户行为分析方法,其特征在于,包括:
第一用户行为分析UBA子节点收集用户上网信息;
第一UBA子节点从收集的所述用户上网信息中提取上网关键信息,所述上网关键信息包含网络内容标识;
第一UBA子节点利用所述上网关键信息,在本地行为知识库中查找与所述上网关键信息匹配的行为记录;
若在所述本地行为知识库中未查找到与所述上网关键信息匹配的行为记录,则第一UBA子节点向UBA云服务器上报所述上网关键信息中的网络内容标识;若在所述本地行为知识库中查找到与所述上网关键信息匹配的行为记录,则第一UBA子节点根据匹配的行为记录生成用户访问日志,根据生成的用户访问日志进行用户行为建模,其中,所述UBA云服务器处于所在网络的分析决策层,所述第一UBA子节点处于所在网络的探针层。
本发明实施例另一方面还提供一种用户行为分析UBA云服务器,包括:
接收模块,用于接收第一UBA子节点上报的无法识别的网络内容标识;
获取模块,用于获取所述网络内容标识对应的网络内容;
提取模块,用于从所述获取模块获取的网络内容中提取出关键词;
库更新模块,用于利用所述提取模块提取出的所述关键词更新行为知识库;
下发模块,用于向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容;其中,所述UBA子节点集至少包括第二UBA子节点和所述第一UBA子节点,其中,所述UBA云服务器处于所在网络的分析决策层,所述第一UBA子节点和第二UBA子节点处于所在网络的探针层。
本发明实施例另一方面还提供一种用户行为分析UBA云服务器,包括:
接收模块,用于接收第一UBA子节点上报的无法识别的网络内容标识;
查询模块,用于利用所述接收模块接收的网络内容标识,在行为知识库查找匹配的行为记录;
下发模块,用于若所述查询模块在所述行为知识库查找到与所述网络内容标识匹配的行为记录,则向所述第一UBA子节点下发与所述网络内容标识匹配的行为记录中包含的,所述网络内容标识对应的内容分类信息;其中,所述UBA云服务器处于所在网络的分析决策层,所述第一UBA子节点处于所在网络的探针层。
本发明实施例另一方面还提供一种用户行为分析UBA子节点,包括:
收集模块,用于收集用户上网信息;
提取模块,用于从所述收集模块收集的所述用户上网信息中提取上网关键信息,其中,所述上网关键信息包括网络内容标识;
查找模块,用于利用所述提取模块提取的上网关键信息在本地行为知识库中查找匹配的行为记录;
上报模块,用于若所述查找模块在所述本地行为知识库中未查找到与所述上网关键信息匹配的行为记录,则向UBA云服务器上报所述上网关键信息中的网络内容标识;
生成模块,用于若所述查找模块在所述本地行为知识库中查找到与所述上网关键信息匹配的行为记录,则根据与所述上网关键信息匹配的行为记录生成用户访问日志,根据生成的用户访问日志进行用户行为建模;其中,所述UBA云服务器处于所在网络的分析决策层,所述UBA子节点处于所在网络的探针层。
本发明实施例另一方面还提供一种用户行为分析UBA云,包括:
至少一个如上述实施例所述的用户行为分析UBA云服务器。
本发明实施例另一方面还提供一种用户行为分析UBA系统,包括:
如上述实施例所述的用户行为分析UBA云和至少一个如上述实施例所述的UBA子节点,其中,所述UBA子节点和所述UBA云中的UBA云服务器以可通信方式连接。
由上可见,本发明实施例中UBA云下部署多个UBA子节点,UBA云包括至少一个UBA云服务器,UBA云服务器处于所在网络的分析决策层,UBA子节点处于所在网络的探针层,当UBA云服务器接收第一UBA子节点上报的其无法识别的网络内容标识后;UBA云服务器获取该网络内容标识对应的网络内容;从该网络内容中提取关键词;利用提取的该关键词更新行为知识库;向UBA子节点集下发更新的行为知识库或行为知识库的更新内容;其中,UBA子节点集包括第二UBA子节点和第一UBA子节点。由于采用云技术的UBA云具有比UBA子节点更强的分析处理能力,因此由UBA云服务器来分析识别UBA子节点无法识别的网络内容标识,有利于提高UBA系统的用户行为分析能力,并且由UBA云服务器进行一次分析识别后,向UBA子节点集下发UBA云服务器据此更新的UBA云行为知识库或UBA云行为知识库的更新内容,使得UBA子节点集中的所有UBA子节点都可据此更新其本地行为知识库,这样有利于避免UBA子节点对例如新网络内容的重复分析问题,进而有利于提升用户行为分析的时效性,减少资源消耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1-a是现有技术的一种UBA设备部署示意图;
图1-b是现有技术的另一种UBA设备部署示意图;
图2是本发明实施例提供的一种UBA系统架构示意图;
图3是本发明实施例提供的一种用户行为分析方法的流程示意图;
图4是本发明实施例提供的另一种用户行为分析方法的流程示意图;
图5是本发明实施例提供的一种UBA子节点的模块示意图;
图6是本发明实施例提供的一种UBA云服务器的模块示意图;
图7是本发明实施例提供的另一种用户行为分析方法的流程示意图;
图8是本发明实施例提供的一种UBA云更新行为知识库的流程示意图;
图9是本发明实施例提供的一种UBA云下发行为知识库的流程示意图;
图10是本发明实施例提供的一种UBA子节点进行用户行为建模的流程示意图;
图11是本发明实施例提供的一种广告推送架构示意图;
图12-a是本发明实施例提供的另一种UBA云服务器的示意图;
图12-b是本发明实施例提供的另一种UBA云服务器的示意图;
图12-c是本发明实施例提供的另一种UBA云服务器的示意图;
图13是本发明实施例提供的另一种UBA云服务器的示意图;
图14-a是本发明实施例提供的另一种UBA子节点的示意图;
图14-b是本发明实施例提供的另一种UBA子节点的示意图;
图15是本发明实施例提供的另一种UBA云服务器的示意图;
图16是本发明实施例提供的UBA云的示意图;
图17是本发明实施例提供的UBA系统的示意图。
具体实施方式
本发明实施例提供用户行为分析方法及相关设备和系统,以提高用户行为分析能力,减少重复分析问题。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下分别进行详细说明。
参见图2,本发明实施例提供一种UBA系统架构,可包括:
UBA云和多个UBA子节点,UBA云包括一个或多个UBA云服务器(如2中以UBA云包括多个UBA云服务器为例);本发明实施例中,UBA云服务器所处网络层级高于UBA子节点所处网络层级,例如UBA云服务器可处于所在网络的分析决策层,而UBA子节点可处于处于所在网络的探针层,UBA云服务器具有比UBA子节点更大的辐射范围。UBA子节点和UBA云服务器以可通信方式连接。
例如,在电信移动网中,UBA云服务器可处于所在网络的核心层(此处将核心层看做是分析决策层),而UBA子节点可处于所在网络的接入层(此处将接入层看做探针层);或者在电信运营网中,UBA云服务器可处于所在网络的汇聚层(此处将汇聚层看做分析决策层),UBA子节点可处于所在网络的边缘网络(此处将边缘网络看做探针层);或在服务提供/内容提供(SP/CP)网络中,UBA云服务器可处于所在网络的核心互联网数据中心(此处将核心互联网数据中心(IDC,Internet Data Center)看做分析决策层),而UBA子节点可处于所在网络的区域IDC(此处将区域IDC看做探针层),对于其它类型的网络则可以此类推。
其中,本发明实施例的下述方案可基于图2所示架构的UBA系统或其变形架构来具体实施。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示的或否则描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
本发明用户行为分析方法的一个实施例,可应用于包括至少一个UBA云服务器的UBA云,其中,UBA云服务器处于所在网络的分析决策层,该方法可包括:UBA云服务器接收第一UBA子节点上报的其无法识别的网络内容标识;该UBA云服务器获取该网络内容标识对应的网络内容;该UBA云服务器从该网络内容中提取关键词;该UBA云服务器利用提取的该关键词更新行为知识库;该UBA云服务器向UBA子节点集下发更新的行为知识库或行为知识库的更新内容;其中,UBA子节点集至少包括第二UBA子节点和第一UBA子节点,第二UBA子节点和第一UBA子节点处于所在网络的探针层。
参见图3、本发明一个实施例提供的一种用户行为分析方法,可包括:
301、UBA云服务器接收第一UBA子节点上报的其无法识别的网络内容标识;
其中,本发明实施例中提及的网络内容标识例如可为网络文件名、或统一资源定位符(URL,Uniform/Universal Resource Locator)等等能够标识网络内容的信息。其中,当UBA云下部署的多个UBA子节点中的其中某个UBA子节点(为便于引述,下面可称第一UBA子节点)遇到无法识别的某网络内容标识时,第一UBA子节点可向UBA云服务器上报该无法识别的网络内容标识。UBA云服务器具有比UBA子节点更广的辐射面,UBA云服务器更容易识别该网络内容标识。其中,UBA子节点和UBA云服务器以可通信方式连接。
在本发明的一些实施例中,与UBA云中的UBA云服务器互联的各UBA子节点可采用以下几种方式来部署:串联或并联到传输网络中的独立设备、依附于某个网关或路由器设备、依附于某个平台(如移动梦网平台等)或采用与现有UAB设备类似的其它部署形式。
在实际应用中,若UBA云包括多个UBA云服务器,则某个UBA云服务器接收到待处理数据(例如某UBA子节点(如第一UBA子节点)上报的其无法识别的网络内容标识)后,该某个UBA云服务器可以自行进行相关处理,或者也可随机或非随机的将UBA子节点上报的其无法识别的网络内容标识,转发给UBA云中的其它UBA云服务器进行处理,例如,若该某个UBA云服务器当前的处理负荷大于某设定阈值(或大于UBA云的平均处理负荷),则该某个UBA云服务器可将UBA子节点上报的其无法识别的网络内容标识,转发给UBA云中当前处理负荷最小(或当前处理负荷小于UBA云的平均处理负荷)的UBA云服务器处理,或者转发给其随机选择的UBA云中其它某UBA云服务器处理,当然UBA云还可按照其它方式进行负载均衡。
302、UBA云服务器获取上述网络内容标识对应的网络内容;
在本发明的一些实施例中,UBA云服务器还可进一步爬取上述网络内容中的网络内容标识对应的网络内容。其中,UBA云服务器例如可进一步通过如下机制来限制网络内容爬取深度。例如,UBA云服务器可先判断当前对该网络内容标识的爬取深度是否超过设定的爬取深度上限(该爬取深度上限可根据具体需要具体设定),若是则UBA云服务器可停止爬取当前爬取到的该网络内容中包含的网络内容标识所对应的网络内容;若否则UBA云服务器可爬取当前爬取到的该网络内容中包含的网络内容标识所对应的网络内容。
303、UBA云服务器从上述获取的网络内容中提取关键词;
其中,关键词例如可包括:Host、标题、URL或其它关键词等信息中其中一种或多种。
可以理解的是,从网络内容中提取关键词,可能是直接从网络内容中提取到所有关键词(即网络内容中包含所有关键词),也可能是利用从网络内容中提取到的信息转化得到关键词(即网络内容中未直接包含所有关键词,部分或全部关键词是利用从网络内容中提取到的信息转化得到的)。
在本发明的一些实施例中,UBA云服务器可通过如下举例方式来从网络内容中提取出关键词。举例来说,UBA云服务器对网络内容进行去噪处理(当然也可省略此步骤);对去噪处理后网络内容进行切词处理得到若干个词;根据根据关键词参考参数从若干个词中提取出关键词,其中,该关键词参考参数例如可包括:词的词性、词频、权重和所处位置(词所处位置,可能指词在句子中所处位置,也可能指词在整个版面中所处位置)等,当然还可包括相关自定义词库等其它关键词参考参数,当然UBA云服务器还可基于现有其它关键词提取技术来从从网络内容中提取出关键词。
304、UBA云服务器利用提取的上述关键词更新行为知识库;
在本发明的一些实施例中,UBA云服务器例如可根据提取的关键词得到内容分类信息(当然还可得到如应用名信息等);UBA云服务器可基于该内容分类信息和关键词生成行为记录,并可将生成的该行为记录添加到UBA云的行为知识库。
305、UBA云服务器向UBA子节点集下发更新的行为知识库或行为知识库的更新内容;其中,UBA子节点集至少包括:第二UBA子节点和第一UBA子节点等。
可以理解,若UBA云包括多个UBA云服务器,则各UBA云服务器可共同维护行为知识库,各UBA云服务器都可更新UBA云的行为知识库,各UBA云服务器也可向UBA子节点下发行为知识库。
在本发明的一些实施例中,UBA云服务器例如可主动(如周期性或非周期性的)或者根据UBA子节点的请求,向UBA子节点集下发UBA云更新的行为知识库、行为知识库的(部分或全部)更新内容(其中可包括上述网络内容标识对应的内容分类信息,当然还可包括该网络内容标识对应的标题、关键词等信息)、或最新的行为知识库。如此,UBA子节点集中的各UBA子节点在接收到UBA云服务器下发的更新的行为知识库、行为知识库的更新内容或最新的行为知识库后,可利用UBA云服务器下发的上述信息来更新各个UBA子节点的本地行为知识库。基于此机制,对于某UBA子节点无法识别的网络内容标识(如当前新出网络内容对应的网络内容标识,可能与UBA云服务器关联的其它很多UBA子节点都无法识别该网络内容标识),由UBA云服务器进行一次分析识别后,向UBA子节点集下发UBA云服务器据此更新的行为知识库、行为知识库的更新内容或最新的行为知识库,进而可让UBA子节点集中的所有UBA子节点都可识别,这样有利于避免各UBA子节点重复分析。
由上可见,本实施例中UBA云下部署多个UBA子节点,UBA云包括至少一个UBA云服务器,其中,UBA云服务器处于所在网络的分析决策层,UBA子节点处于所在网络的探针层,当UBA云服务器接收第一UBA子节点上报的其无法识别的网络内容标识后;UBA云服务器获取该网络内容标识对应的网络内容;从该网络内容中提取关键词;利用提取的该关键词更新行为知识库;向UBA子节点集下发更新的行为知识库或行为知识库的更新内容;UBA子节点集包括第二UBA子节点和第一UBA子节点。由于采用云技术的UBA云具有比UBA子节点更强的分析处理能力,因此由UBA云服务器来分析识别UBA子节点无法识别的网络内容标识,有利于提高UBA系统的用户行为分析能力,并且由UBA云服务器进行一次分析识别后,向UBA子节点集下发UBA云服务器据此更新的UBA云行为知识库或UBA云行为知识库的更新内容,使得UBA子节点集中的所有UBA子节点都可据此更新其本地行为知识库,这样就有利于避免多个UBA子节点对例如新网络内容的重复分析问题,进而有利于提升用户行为分析的时效性,减少资源消耗。
在本发明的一些实施例中,UBA云服务器服务器接收第一UBA子节点上报的其无法识别的网络内容标识后,可先利用该网络内容标识(例如可以以该网络内容标识作为索引,或,可以以该网络内容标识变换得到的信息作为索引),在行为知识库查找匹配的行为记录;若在行为知识库中查找到与该网络内容标识匹配的行为记录,则UBA云服务器可向第一UBA子节点下发该与该网络内容标识匹配的行为记录中包含的与该网络内容标识对应的内容分类信息(当然,UBA云服务器还可向第一UBA子节点下发该与该网络内容标识匹配的行为记录中包含的该网络内容标识对应的标题、关键词等信息,甚至还可向第一UBA子节点下发该与该网络内容标识匹配的行为记录包含的全部信息);若在行为知识库中未查找到与该网络内容标识匹配的行为记录,则UBA云服务器可通知第一UBA子节点识别失败,或者,UBA云服务器可获取上述网络内容标识对应的网络内容;从该网络内容中提取关键词;利用提取的该关键词更新行为知识库;向UBA子节点集下发更新的行为知识库、或行为知识库的(部分或全部)更新内容(其中可包括上述网络内容标识对应的内容分类信息,当然还可包括该网络内容标识对应的标题、关键词等等信息),其中,UBA子节点集至少包括第二UBA子节点和第一UBA子节点等。
在本发明的另一实施例中,UBA云服务器还可基于其它机制来更新其行为知识库,并可向UBA子节点集下发UBA云服务器更新的行为知识库、UBA云服务器的行为知识库的更新内容或最新的行为知识库。
在本发明的一些实施例中,UBA云服务器例如可通过如下机制来限制网络内容爬取深度。UBA云服务器爬取上述网络内容标识对应的网络内容之后,还可判断当前对该网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则UBA云服务器可停止爬取该网络内容标识对应的网络内容中包含的子网络内容标识(其中,子网络内容标识是相对而言的,子网络内容标识包含在某网络内容标识对应的网络内容中,例如,某网络内容标识对应的网络内容中包含的若个网络内容标识,而这若干个网络内容标识则可看成是该某网络内容标识的子网络内容标识,而该子网络内容标识对应的网络内容中包含的网络内容标识,又可看成是该子网络内容标识的子网络内容标识,以此类推)所对应的网络内容;若否,则UBA云服务器可进一步爬取该网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;并可进步一步从爬取到的该网络内容中包含的子网络内容标识所对应的网络内容中提取出关键词;利用提取出的该关键词更新行为知识库;并可向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。基于上述限制网络内容爬取深度的机制,UBA云服务器可根据需要来进行可控深度的内容爬取,有利于更好的平衡资源占用和需求。
此外,UBA云服务器还可获取UBA子节点集生成的用户行为分析报表(如对应一个或多个用户的用户访问兴趣排名报表等)或网络行为分析报表(如对应多个网站或资源的网络访问排名报表等);汇总获取的该用户行为分析报表或网络行为分析报表,得到汇总的用户行为分析报表(如对应一个或多个用户的用户访问兴趣排名报表等)或网络行为分析报表(如对应多个网站或资源的网络访问排名报表等)。后续,运营商便可据此进行例如精准广告推送业务等高附加值业务。
本发明用户行为分析方法的另一个实施例,可应用于包括至少一个UBA云服务器的UBA云,其中,UBA云服务器处于所在网络的分析决策层,该方法可包括以下内容:UBA云服务器接收第一UBA子节点上报的无法识别的网络内容标识;UBA云服务器利用该网络内容标识在行为知识库查找与该网络内容标识匹配的行为记录;若在该行为知识库查找到与该网络内容标识匹配的行为记录,则UBA云服务器可向第一UBA子节点下发最新的行为知识库,或该与该网络内容标识匹配的行为记录中包含的该网络内容标识对应的内容分类信息(当然,UBA云服务器还可向第一UBA子节点下发该与该网络内容标识匹配的行为记录中包含的该网络内容标识对应的标题、关键词等信息,UBA云服务器甚至可向第一UBA子节点下发该与该网络内容标识匹配的行为记录包含的全部信息)。此外,若UBA云服务器该行为知识库未查找到与该网络内容标识匹配的行为记录,则UBA云服务器可获取该网络内容标识对应的网络内容;UBA云服务器从该网络内容中提取关键词;UBA云服务器利用提取的该关键词更新行为知识库;UBA云服务器向UBA子节点集下发更新的行为知识库或行为知识库的更新内容;其中,UBA子节点集至少包括第二UBA子节点和第一UBA子节点,第二UBA子节点和第一UBA子节点处于所在网络的探针层。相应的,而第一UBA子节点(和第二UBA子节点)可利用UBA云服务器下发的上述信息来更新本地行为知识库。
本发明用户行为分析方法的另一个实施例,方法可包括:第一UBA子节点收集用户上网信息;第一UBA子节点从收集的该用户上网信息中提取上网关键信息,其中,上网关键信息包含网络内容标识;第一UBA子节点利用该上网关键信息在本地行为知识库中查找与该上网关键信息匹配的行为记录;若在本地行为知识库中未查找到与该上网关键信息匹配的行为记录,则第一UBA子节点向UBA云服务器上报该上网关键信息中的网络内容标识,其中,UBA云服务器处于所在网络的分析决策层,第一UBA子节点处于所在网络的探针层;若在本地行为知识库中查找到与该上网关键信息匹配的行为记录,则第一UBA子节点根据匹配成功的本地行为知识库中的记录生成用户访问日志,根据生成的用户访问日志进行用户行为建模。
参见图4、本发明另一实施例提供的一种用户行为分析方法可包括:
401、第一UBA子节点收集用户上网信息;
在本发明的一些实施例中,与UBA云服务器关联的各UBA子节点可采用以下几种方式来部署:串联或并联到传输网络中的独立设备、依附于某个网关或路由器设备、依附于某个平台(如移动梦网平台等)或采用与现有UAB设备类似的其它部署形式,其中,UBA云服务器处于所在网络的分析决策层,第一UBA子节点处于所在网络的探针层。
402、第一UBA子节点从收集的用户上网信息中提取上网关键信息;
其中,第一UBA子节点提取的上网关键信息例如可包括如下信息的一种多种多种:用户名、代理终端(user-agent)信息、网络内容标识(如URL)、时间信息、域名信息、响应码、其它现有业务参数等。
可以理解的是,第一UBA子节点从用户上网信息中提取上网关键信息,可能是直接从用户上网信息中提取到所有上网关键信息(即,用户上网信息中包含所有上网关键信息),也可能是利用从用户上网信息中提取到的信息转化得到上网关键信息(即网络内容中未直接包含所有上网关键信息,部分或全部上网关键信息是利用从网络内容中提取到的信息转化得到的)。
403、第一UBA子节点利用提取的上网关键信息在本地行为知识库中查找与该上网关键信息匹配的行为记录;
若在本地行为知识库中未查找到与该上网关键信息匹配的行为记录(表示没有记录能够与该提取的上网关键信息相匹配,此时,可认为第一UBA子节点无法识别该上网关键信息中的网络内容标识),则执行步骤404,若在本地行为知识库中查找到与该上网关键信息匹配的行为记录(表示有记录能够与提取的上网关键信息匹配,匹配成功则可认为第一UBA子节点能够识别该上网关键信息中的网络内容标识),则执行步骤405;
404、第一UBA子节点向UBA云服务器上报提取的上网关键信息中的网络内容标识(当然,还可向UBA云服务器上报上网关键信息中的其它信息,例如时间信息、域名信息、用户名等);
405、第一UBA子节点根据查找到的与该上网关键信息匹配行为记录生成用户访问日志,根据生成的用户访问日志进行用户行为建模。进一步的,第一UBA子节点还可根据建模结果生成用户行为分析报表(如对应一个或多个用户的用户访问兴趣排名报表等)或网络行为分析报表(如对应多个网站或资源的网络访问排名报表等)。
由上可见,本发明实施例中UBA云下部署的UBA子节点可收集用户上网信息;从收集的该用户上网信息中提取上网关键信息;利用该上网关键信息匹配本地行为知识库中的记录;若匹配失败,则向UBA云服务器上报该上网关键信息中的网络内容标识,这就为UBA云服务器来分析识别该UBA子节点无法识别的网络内容标识奠定了基础,由于采用云技术的UBA云服务器具有比UBA子节点更强的分析处理能力,其中,UBA云服务器处于所在网络的分析决策层,UBA子节点处于所在网络的探针层,因此若由UBA云服务器来分析识别UBA子节点无法识别的网络内容标识,有利于提高UBA系统用户行为分析能力,且由UBA云服务器进行一次分析识别后,还可向多个UBA子节点下发UBA云服务器据此更新的行为知识库或行为知识库的更新内容,使得各UBA子节点都可据此更新其本地行为知识库,这样就有利于避免UBA子节点对例如新网络内容的重复分析问题,进而有利于提升用户行为分析的时效性,相对减少资源消耗。
此外,第一UBA子节点还可主动(周期性或非周期性)向UBA云服务器上报其生成的用户行为分析报表(例如,对应一个或多个用户的用户访问兴趣排名报表等)或网络行为分析报表(例如,对应多个网站或资源的网络访问排名报表等),或者第一UBA子节点也可在UBA云服务器的指令下,向UBA云服务器上报其生成的用户行为分析报表(如对应一个或多个用户的用户访问兴趣排名报表等)或网络行为分析报表(如对应多个网站或资源的网络访问排名报表等)。而UBA云服务器可汇总与其关联的多个UBA子节点上报的用户行为分析报表或网络行为分析报表,得到汇总的用户行为分析报表或网络行为分析报表。后续,运营商便可据此进行例如精准广告推送业务等高附加值业务。
在本发明的一些实施例中,第一UBA子节点可接收UBA云服务器下发的UBA云服务器最新的行为知识库、更新的行为知识库、行为知识库的更新内容或第一UBA子节点无法识别的网络内容标识对应的内容分类信息、甚至该网络内容标识对应的标题、关键词等信息。其中。第一UBA子节点可接收UBA云服务器主动下发的上述信息,或第一UBA子节点也可向UBA云服务器发送行为知识库更新请求,而后接收UBA云服务器在接收到该行为知识库更新请求后下发的上述信息;第一UBA子节点可利用UBA云服务器下发的上述信息,来更新第一UBA子节点的本地行为知识库。当然,与UBA云下部署的其它各个UBA子节点均可按照上述方式更新其本地行为知识库。
本发明实施例还提供一种网络内容爬取方法,可包括以下内容:UBA云服务器或UBA子节点爬取第二网络内容标识(其中,第二网络内容标识可能是配置在UBA云服务器中的,也可能是UBA云服务器获取的某个网络内容中包含的,也可能是UBA子节点上报的对应的网络内容标识);判断当前对该第二网络内容标识的爬取深度是否超过设定的爬取深度上限(其中,爬取深度上限例如可设定为5、6、7、8、9或其它值),若是则停止爬取当前爬取到的该网络内容中包含的子网络内容标识所对应的网络内容;若否则爬取当前爬取到的该网络内容中包含的子网络内容标识所对应的网络内容。可以理解,基于上述网络内容爬取深度控制机制,UBA云服务器或UBA子节点可根据需要来进行可控深度的内容爬取,有利于更好的平衡资源占用和需求。
为便于更好的理解和实施本发明实施例的上述方案,下面举例几个应用场景来进行具体说明。
下面主要以基于如图2所示的UBA系统架构为例。
其中,UBA系统架构可包括UAB云和多个UBA子节点。
在本发明的一些实施例中,UBA云下部署的各UBA子节点可采用以下几种方式来部署:串联或并联到传输网络中的独立设备、依附于某个网关或路由器设备、依附于某个平台(如移动梦网平台等)或采用与现有UAB设备类似的其它部署形式。其中,UAB云包括一个多个UBA云服务器,UBA云服务器处于汇聚网络,UBA子节点处于边缘网络。
其中,每个UBA子节点例如可主要完成以下功能:
Ws1、该UBA子节点所辐射区域内的用户行为分析;
Ws2、向UAB云上报无法识别的网络内容标识。
在一种应用场景下,参见图5,UBA子节点可包括:收集模块501、筛选模块502、筛选规则库503、行为识别模块504、本地行为知识库505、库升级模块506、上报模块507、建模模块508、建模结果库509、服务模块510。
其中,收集模块501可用于采集用户上网信息(如用户上网日志信息),该用户上网信息可包括如下信息的一种或多种:网络内容标识(如URL)、时间信息、用户名、域名信息、响应码、user-agent等。
筛选模块502,用于去除收集模块501采集到的非法用户上网信息,筛选模块502例如可对用户上网信息中的URL的长度进行合法性校验,去除URL长度超过阈值的用户上网信息。
筛选规则库503中可包括若干条筛选规则,而筛选模块502则可根据筛选规则库503中的一条或多条筛选规则,来对收集模块501采集到的用户上网信息进行筛选。
其中,筛选规则库503中的一条筛选规则记录的示例例如可如表1:
表1
字段 意义
域名 从用户上网记录中提取出来的各种字段名,例如URL
规则类型 可以有长度,类型等类别,例如长度
具体的值,比如URL的最大长度不超过2083
…… ……
UBA子节点的本地行为知识库505中可包括若干条行为记录。其中,UBA子节点本地行为知识库中的一条行为记录示例例如可如表2:
表2
行为识别模块504,用于从收集模块501收集的用户上网信息中提取上网关键信息,利用提取的上网关键信息在其本地行为知识库中查找匹配的行为记录。例如,可根据上网关键信息中的URL(或其它信息)通过哈希算法(或其它算法)计算出索引标识,而本地行为知识库中的每条记录都包括至少1个索引标识(记录中的该索引标识当然也是根据该记录中的URL(或其它信息)通过哈希算法(或其它算法)计算得到的),行为识别模块504利用上网关键信息得到索引标识,利用该索引标识在本地行为知识库中查找匹配行为记录,若查找到匹配行为记录,则表示上网关键信息中的URL能够识别,也表示该上网关键信息能够识别,对应的用户上网行为能够识别;若未查找到匹配行为记录,则表示该上网关键信息中的URL不能够识别,也表示该上网关键信息不能识别,对应的用户上网行为也不能够识别,以此类推。
上报模块507,用于向UBA云服务器上报行为识别模块504无法识别的上网关键信息中的网络内容标识(如URL),当然,上报模块507还可一并上报该上网关键信息中的时间信息、域名信息、user-agent信息等。
建模模块508,用于根据行为识别模块504匹配出的本地行为记录进行用户行为建模,例如可采取频度算法、SVN或其它现有建模算法来进行用户行为建模。
建模结果库509,用于记录建模模块508的用户行为建模结果。
其中,建模结果库509中的一条建模结果记录示例例如可如表3:
表3
字段 意义
用户ID 唯一标识一个用户的ID,比如手机号码
兴趣分类 该用户感兴趣的分类,可多于一个。
…… ……
库升级模块506,用于主动获取或被动接收UBA云服务器的行为知识库,并基于UBA云服务器的行为知识库更新本地行为知识库505。
服务模块510,用于提供包括但不限于以下的服务,查询用户兴趣、查询对某类兴趣词感兴趣的用户群等。
其中,UBA云服务器例如可主要完成以下功能:
Wy1、分析整网的网络行为、
Wy2、完成整网行为知识库的建立、
Wy3、提供人工审计接口、
Wy4、提供获取最新行为知识库的服务接口。
在一种应用场景下,参见图6,UBA云服务器可包括:
爬取模块601、解析模块602、审计接口603、行为知识库604、远程库升级模块605、UBA子节点认证模块606、爬取列表607、本地初始爬取列表608、爬取列表配置模块609、服务模块610、汇总分析模块611。
其中,爬取模块601,用于获取网络内容标识(如URL)所对应的网络内容;其中,爬取模块601用来爬取网络内容的网络内容标识可能来自二个方面,一个是由UBA子节点上报,一个是UBA云服务器本地配置本区域内比较活跃的网站等。
解析模块602,用于解析爬取模块601获取的网络内容,以从网络内容中的提取关键词(例如标题或其它关键词等信息),根据该关键词通过聚类算法(如SVN算法等)得出内容分类信息,生成行为记录并将生成的行为记录添加到行为知识库604中。
行为知识库604中可包括若干条行为记录;
其中,UBA云服务器维护的行为知识库中的一条行为记录示例例如可如表4:
表4
审计接口603:提供查看或修正内容分类信息的接口;
爬取列表本地配置模块609,可用于按活跃程度等来配置本地初始爬取列表608,例如新闻门户类网站,每天都会有大量更新的内容,将其配置在本地初始爬取列表608。
其中,本地初始爬取列表608中的一条爬取记录示例例如可如表5:
表5
爬取列表607,记录UBA子节点上报的网络内容标识,及爬取模块601爬取的网络内容中包含的网络内容标识;
其中,爬取列表607中的一条爬取记录示例例如可如表6:
表3
字段 意义
网络ID 唯一标识一个网络内部,可通过URL通过Hash计算得来
网络标识符 唯一标识一个网络内容的统一标识符,即URL
递归次数 用于终止该种子URL的爬取次数,可配置。
…… ……
远程库升级模块605,用于向UBA子节点下发最新的行为知识库。
汇总分析模块611,用于收集各UBA子节点生成的用户行为分析报表(如对应一个或多个用户的用户访问兴趣排名报表等)或网络行为分析报表(如对应多个网站或资源的网络访问排名报表等)分析结果,汇总分析得到汇总的用户行为分析报表(如对应一个或多个用户的用户访问兴趣排名报表等)或网络行为分析报表(如对应多个网站或资源的网络访问排名报表等)。
服务模块610,用于提供获取用户行为分析报表或网络行为分析报表的服务接口。
UBA子节点认证模块606,用于对UBA子节点进行鉴权认证,认证通过后的UBA子节点与UBA云服务器关联成功。
可以理解的是,上述举例提供的UBA子节点和UBA云服务器所包括的部分模块可以省略,且其中的多个模块也可集成为一个模块,其中的某个模块也可能拆分为多个模块,或某模块的功能可集成到其它一个或多个模块中。
下面举例包含UBA云服务器更新UBA子节点的本地行为知识库过程的一种用户行为分析方法的流程示例。
参见图7、具体流程可包括:
701、UBA子节点A1收集用户u1的用户上网信息;
702、UBA子节点A1从用户u1的用户上网信息中提取上网关键信息,利用该上网关键信息在本地行为知识库中查找与该上网关键信息匹配的行为记录;
此处假设在本地行为知识库中未查找到与该上网关键信息匹配的行为记录(即UBA子节点A1无法识别该上网关键信息中的网络内容标识),UBA子节点A1点向UBA云服务器上报该上网关键信息中的网络内容标识;
703、UBA云服务器获取UBA子节点A1上报的无法识别的网络内容标识对应的网络内容;从该网络内容中提取关键词;利用提取的该关键词更新行为知识库;UBA云服务器向UBA子节点集下发更新的行为知识库或行为知识库的更新内容;
其中,该UBA子节点集包括与UBA云服务器下部署的UBA子节点A1和UBA子节点A2。UBA子节点A1和UBA子节点A2利用UBA云服务器下发更新的行为知识库或行为知识库的更新内容,来更新UBA子节点A1和UBA子节点A2的本地行为知识库。
UBA子节点A1利用提取的上网关键信息,在更新后的本地行为知识库中查找匹配的行为记录(此处便可查找到匹配的行为记录);根据查找到的匹配行为记录生成用户访问日志,UBA子节点A1根据生成的用户访问日志进行用户行为建模,UBA子节点A1根据建模结果生成用户行为分析报表或网络行为分析报表。
704、UBA子节点A2收集用户u2的用户上网信息,此处假设用户u2访问与用户u1相同的网站或资源。
705、UBA子节点A2从收集的该用户上网信息中提取上网关键信息;
利用该上网关键信息在本地行为知识库中查找与该上网关键信息匹配的行为记录(由于UBA子节点A2更新了本地行为知识库,因此可识别),UBA子节点A2可根据匹配的行为记录生成用户访问日志,UBA子节点A2根据生成的用户访问日志进行用户行为建模,UBA子节点A2根据建模结果生成用户行为分析报表或网络行为分析报表。
下面举例一种UBA云服务器更新行为知识库的流程示例。
参见图8、具体流程可包括:
801、UBA云服务器设当前爬取深度m=1;
802、UBA云服务器爬取URL对应的网页内容;
其中,步骤802中的URL可能配置在UBA云服务器中,也可能是UBA云服务器获取的某个网络内容中包含的,也可能是UBA子节点上报的。
803、m=m+1;
804、UBA云服务器判断当前爬取深度m是否超过设定的爬取深度上限M0;
若否,则执行步骤805;若是,则执行步骤807;
805、UBA云服务器解析当前爬取的网页内容以获得网页内容中的URL;
806、UBA云服务器爬取当前获得的URL对应的网页内容,返回步骤803;
807、UBA云服务器从爬取的网页内容中提取关键词(例如Host、标题或其它关键词等);
808、UBA云服务器根据提取的关键词通过聚类算法得到内容分类信息;
809、UBA云服务器基于上述内容分类信息和关键词生成行为记录;
810、UBA云服务器将生成的行为记录添加到行为知识库。
由上可见,UBA云服务器可根据需要来限制爬取深度,有利于更好的平衡资源占用和需求。
下面举例一种UBA云服务器下发行为知识库的流程示例。
参见图9,具体步骤可包括:
901、UBA云服务器接收UBA子节点发送的认证消息;
902、UBA云服务器对该认证消息进行认证;
若认证通过,则执行步骤903,若认证失败,则执行步骤904
903、UBA云服务器向UBA子节点下发最新的行为知识库;UBA子节点利用该最新的行为知识库来更新其本地行为知识库。
904、UBA云服务器通知UBA子节点认证失败。
由上可见,引入认证机制后有利于提高UBA系统的安全可靠性。
下面举例一种UBA子节点进行用户行为建模的流程示例。
参见图10,具体步骤可包括:
1001、UBA子节点收集用户上网信息;
其中,UBA子节点收集的用户上网信息可如下信息的一种或多种:
用户名、时间、URL、域名信息、User-Agent、响应码、其它业务参数等信息。
1002、UBA子节点从用户上网信息中提取上网关键信息;
其中,UBA子节点提取的上网关键信息可如下信息的一种或多种:
用户名、时间、URL、域名信息、User-Agent等信息;
1003、UBA子节点按照筛选规则筛选出合法的用户上网信息;
例如UBA子节点选出的合法用户上网信息为,网关键信息中的URL的长度在2083Bytes以内的。
1004、UBA子节点利用合法关键信息中的URL计算出索引标识。
1005、UBA子节点根据索引标识在本地行为知识库查找匹配行为记录;
其中,本地行为知识库的记录中包括但不限于网站、应用名、分类等信息;
若未查找到匹配行为记录,则将网关键信息中的URL上报给UBA云服务器;
若查找到匹配行为记录,则执行步骤1006。
1006、UBA子节点根据查找到的匹配行为记录生成用户访问日志,并可将生成用户访问日志添加到用户行为日志表;
1007、UBA子节点根据用户行为日志表进行用户行为建模;
UBA子节点例如可基于SVN、统计频度等算法来进行用户行为建模。
1008、UBA子节点根据用户行为用户行为建模结构生成用户行为分析报表或网络行为分析报表。
此外,UBA云服务器可收集各UBA子节点生成的用户行为分析报表或网络行为分析报表,比如TOP N网站报表、TOP N流量报表等。UBA云服务器可汇总各UBA生成的用户行为分析报表或网络行为分析报表,得到汇总的用户行为分析报表或网络行为分析报表,比如将各UBA子节点生成的TOP N网站报表合并后可得到整网的TOP N网站报表。
下面举例一个UBA云服务器协助路由器完成精准广告推送业务的示例。
例如图11所示,UBA云服务器从路由器获取用户上网信息(该用户上网信息包括用户名,URL,域名等);UBA云服务器根据用户上网信息建模出用户行为模型;当用户访问到某内容提供网页或服务提供网页时,路由器通过广告平台向UBA云服务器查询该用户的访问兴趣爱好,广告平台根据兴趣爱好找到对应的广告,广告平台指示网络代理(Webproxy)添加相应的广告到用户所访问的网页内容中去,实现精准广告推送业务。
下面再举例一个具体应用场景。
S01、用户A访问http://www.tingroom.com/radio/1334.html;
用户A上网信息被UBA子节点A3收集到,UBA子节点A3收集到的用户A上网信息包括但不限于:
user-a,http://www.tingroom.com/radio/1334.html、
2012-3-109:30:00、Mozilla/4.0、www.tingroom.com。
S02、UBA子节点A3根据http://www.tingroom.com/radio/1334.html在本地行为知识库中无法找到匹配的行为记录;
UBA子节点A3上报信息给云UBA,此处上报的信息包括但不限于:
http://www.tingroom.com/radio/1334.html、
2012-3-109:30:00、Mozilla/4.0、www.tingroom.com。
S03、UBA云服务器接收到UBA子节点A3上报的信息后,
根据http://www.tingroom.com/radio/1334.html在云端的行为知识库中查找是否存在匹配的行为记录,如果查找到匹配行为记录,执行步骤1308;如果未查找到匹配行为记录,则执行步骤1304。
S04、UBA云服务器根据http://www.tingroom.com/radio/1334.html向Internet发出网页获取请求;
S05、Internet返回对应网页给UBA云服务器;
S06、UBA云服务器从获取到网页中提练出如下但不限于关键信息:BBC和英语等;
UBA云服务器根据关键信息生成行为记录并添加到行为知识库中:
如:http://www.tingroom.com/radio/1334.html,英语学习,BBC,英语。
S07、云UBA向UBA子节点A3和UBA子节点A4下发生成的行为记录;
下属UBA子节点A3和UBA子节点A4据此更新本地行为知识库。
S08、用户B访问http://www.tingroom.com/radio/1334.html,
用户B上网信息被UBA子节点A4收集到,UBA子节点A3收集到的用户A上网信息包括但不限于:
user-b,http://www.tingroom.com/radio/1334.html、
2012-3-10 9:35:00、Mozilla/4.0、www.tingroom.com。
S09、UBA子节点A4根据http://www.tingroom.com/radio/1334.html在本地行为知识库中找到了匹配的行为记录:
如:http://www.tingroom.com/radio/1334.html,英语学习,BBC,英语UBA子节点A4生成用户B上网日志记录:
user-b,http://www.tingroom.com/radio/1334.html,2012-3-10 9:35:00,Mozilla/4.0,www.tingroom.com,英语学习,BBC,英语。
S11、与UBA云服务器关联的各UBA子节点定时为本地用户行为建模。
假定用户A每天访问实例网页100次,体育NBA网页间断访问少于10次;
假定用户B每天访问实例网页100次,新闻网页间断访问少于10次。
那么,UBA子节点A3的用户A行为建模结果可为:
用户名 长期兴趣分类 短期兴趣
User-a 英语学习 NBA
... ... ...
UBA子节点A3生成的的用户A的TOP2报表举例可为:
UBA子节点A4的用户B行为建模结果可为:
用户名 长期兴趣分类 短期兴趣
User-b 英语学习 新闻
... ... ...
UBA子节点A4生成的用户B的TOP2报表举例可为:
S12、UBA云服务器定期或不定期向各UBA子节点收集信息,收集的信息包括但不限于用户兴趣表,TOP2报表等。
S14、UBA云服务器进行整网建模。
UBA云服务器的整网建模结果例如可为:
用户名 长期兴趣分类 短期兴趣
User-b 英语学习 新闻
User-a 英语学习 Nike
... ... ...
UBA云服务器汇总的网络访问TOPN报表举例可为:
后续广告平台可向UBA云服务器查询该用户的访问兴趣爱好,广告平台根据兴趣爱好找到对应的广告,广告平台可指示网络代理添加相应的广告到用户所访问的网页内容中去,实现精准广告推送业务。
可以理解的是,上述举例仅为说明本发明实施例方案思想,不同应用场景下可基于需要灵活变换,不限于上述举例形式。
由上可见,本实施例中的UBA云下部署的UBA子节点可收集用户上网信息;从收集的该用户上网信息中提取上网关键信息;利用该上网关键信息匹配本地行为知识库中的记录;若匹配失败,则向UBA云服务器上报该上网关键信息中的网络内容标识,这就为UBA云服务器来分析识别该UBA子节点无法识别的网络内容标识奠定了基础,由于采用云技术的UBA云服务器具有比UBA子节点更强的分析处理能力,UBA云服务器处于所在网络的分析决策层,UBA子节点处于所在网络的探针层,因此若由UBA云服务器来分析识别UBA子节点无法识别的网络内容标识,有利于提高UBA系统用户行为分析能力,且由UBA云服务器进行一次分析识别后,还可向多个UBA子节点下发UBA云服务器据此更新的行为知识库或行为知识库的更新内容,使得各UBA子节点都可据此更新其本地行为知识库,这样有利于避免UBA子节点对例如新网络内容的重复分析问题,进而有利于提升用户行为分析的时效性,减少资源消耗。进一步的,通过UBA云服务器有利于支撑复杂场景处理能力,同时通过UBA子节点实现了接入端设备的高性能;采用云计算方式有利于支持业务无损升级,保证业务的连续性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
参见图12-a、本发明实施例提供的一种UBA云服务器1200,可包括:
接收模块1201、获取模块1202、提取模块1203、库更新模块1204和下发模块1205。
其中,接收模块1201,用于接收第一UBA子节点上报的无法识别的网络内容标识;
获取模块1202,用于获取接收模块1201接收的网络内容标识对应的网络内容;
提取模块1203,用于从获取模块1202获取的网络内容中提取关键词;
可以理解的是,提取模块1203从网络内容中提取关键词,可能是直接从网络内容中提取到所有关键词(即网络内容中包含所有关键词),也可能是利用从网络内容中提取到的信息转化得到关键词(即网络内容中未直接包含所有关键词,部分或全部关键词是利用从网络内容中提取到的信息转化得到的)。
在本发明的一些实施例中,提取模块1203可通过如下举例方式来从网络内容中提取出关键词。举例来说,提取模块1203可对网络内容进行去噪处理(当然也可省略此步骤);对去噪处理后网络内容进行切词处理得到若干个词;根据根据关键词参考参数从若干个词中提取出关键词,其中,该关键词参考参数例如可包括:词的词性、词频、权重和所处位置(词所处位置,可能指词在句子中所处位置,也可能指词在整个版面中所处位置)等,当然还可包括相关自定义词库等其它关键词参考参数,当然提取模块1203还可基于现有其它关键词提取技术来从从网络内容中提取出关键词。
库更新模块1204,用于利用提取的提取模块1203提取的关键词更新行为知识库;
下发模块1205,用于向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容;其中,UBA子节点集至少包括第二UBA子节点和第一UBA子节点。其中,UBA云服务器1200处于所在网络的分析决策层,第二UBA子节点和第一UBA子节点处于所在网络的探针层。
例如,在电信移动网中,UBA云服务器1200可处于所在网络的核心层(此处将核心层看做是分析决策层),而UBA子节点可处于所在网络的接入层(此处将接入层看做探针层);或者在电信运营网中,UBA云服务器1200可处于所在网络的汇聚层(此处将汇聚层看做分析决策层),UBA子节点可处于所在网络的边缘网络(此处将边缘网络看做探针层);或在SP/CP网络中,UBA云服务器1200可处于所在网络的核心互联网数据中心(此处将核心互联网数据中心IDC看做分析决策层),而UBA子节点可处于所在网络的区域IDC(此处将区域IDC看做探针层),对于其它类型的网络则可以此类推。
参见图12-b,在本发明的一些实施例中,UBA云服务器1200还可包括:
查找模块1206,用于利用接收模块1201接收到的网络内容标识在行为知识库查找与网络内容标识匹配的行为记录;
下发模块1205还可用于,若查找模块1206在行为知识库中查找到与网络内容标识匹配的行为记录,则向第一UBA子节点下发与网络内容标识匹配的行为记录中包含的,与该网络内容标识对应的内容分类信息;
获取模块1202具体用于,若查找模块1206在行为知识库中未查找到与网络内容标识匹配的行为记录,则获取上述网络内容标识对应的网络内容。
参见图12-c,在本发明的一些实施例中,UBA云服务器1200还可包括:
控制爬取模块1210,用于判断当前对上述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则停止爬取该网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则控制获取模块1202进一步爬取该网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;
获取模块1202还用于,爬取上述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;
提取模块1203还可用于,从获取模块1202爬取到的上述子网络内容标识所对应的网络内容中提取出关键词;
库更新模块1204还用于,利用提取模块1203提取出的上述关键词更新行为知识库;
库更新模块1205还用于,向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
可以理解的是,本实施例中的UBA云服务器1200可如上述方法实施例中的UBA云服务器,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再一一赘述。
参见图13、本发明实施例提供的一种UBA云服务器1300,可包括:
接收模块1301,用于接收第一UBA子节点上报的无法识别的网络内容标识;
查询模块1302,用于利用接收模块1301接收的网络内容标识,在行为知识库查找匹配的行为记录;
下发模块1303,用于若查询模块1302在行为知识库查找到与网络内容标识匹配的行为记录,则向第一UBA子节点下发与网络内容标识匹配的行为记录中包含的上述网络内容标识对应的内容分类信息,其中,UBA云服务器1300处于所在网络的分析决策层,第一UBA子节点处于所在网络的探针层。
例如,在电信移动网中,UBA云服务器1300可处于所在网络的核心层(此处将核心层看做是分析决策层),而UBA子节点可处于所在网络的接入层(此处将接入层看做探针层);或者在电信运营网中,UBA云服务器1300可处于所在网络的汇聚层(此处将汇聚层看做分析决策层),UBA子节点可处于所在网络的边缘网络(此处将边缘网络看做探针层);或在SP/CP网络中,UBA云服务器1300可处于所在网络的核心互联网数据中心(此处将核心互联网数据中心(IDC)看做分析决策层),而UBA子节点可处于所在网络的区域IDC(此处将区域IDC看做探针层),对于其它类型的网络则可以此类推。
可以理解的是,本实施例中的UBA云服务器1300可如上述方法实施例中的UBA云服务器,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再一一赘述。
参见图14-a、本发明实施例提供的一种UBA子节点1400,可包括:
收集模块1401,用于收集用户上网信息;
提取模块1402,用于从收集模块1401收集的用户上网信息中提取上网关键信息,其中,上网关键信息中包含网络内容标识;
可以理解的是,提取模块1402从用户上网信息中提取上网关键信息,可能是直接从用户上网信息中提取到所有上网关键信息(即,用户上网信息中包含所有上网关键信息),也可能是利用从用户上网信息中提取到的信息转化得到上网关键信息(即网络内容中未直接包含所有上网关键信息,部分或全部上网关键信息是利用从网络内容中提取到的信息转化得到的)。
查找模块1403,用于利用提取模块1402提取的上网关键信息在本地行为知识库中查找匹配的行为记录;
上报模块1404,用于若查找模块1403在本地行为知识库中未查找到与上述上网关键信息匹配的行为记录,则UBA云服务器上报上网关键信息中的网络内容标识,其中,UBA云服务器处于所在网络的分析决策层,UBA子节点1400处于所在网络的探针层;
例如,在电信移动网中,UBA云服务器可处于所在网络的核心层(此处将核心层看做是分析决策层),而UBA子节点1400可处于所在网络的接入层(此处将接入层看做探针层);或者在电信运营网中,UBA云服务器可处于所在网络的汇聚层(此处将汇聚层看做分析决策层),UBA子节点1400可处于所在网络的边缘网络(此处将边缘网络看做探针层);或在SP/CP网络中,UBA云服务器可处于所在网络的核心互联网数据中心(此处,将核心IDC看做分析决策层),而UBA子节点1400可处于所在网络的区域IDC(此处将区域IDC看做探针层),对于其它类型的网络则可以此类推。
生成模块1405,用于若查找模块1403在本地行为知识库1408中查找到匹配的行为记录,则根据匹配的行为记录生成用户访问日志,根据生成的用户访问日志进行用户行为建模。
参见图14-b、在本发明的一些实施例中,UBA子节点1400还可包括:
获取模块1406,用于接收UBA云服务器下发的行为知识库、行为知识库的更新内容或上述网络内容标识对应的内容分类信息;
库更新模块1407,用于利用UBA云服务器下发的行为知识库、行为知识库的更新内容或上述网络内容标识对应的内容分类信息,更新UBA子节点1400的本地行为知识库1408;
本地行为知识库1408,用于存储若干条行为记录。其中,UBA子节点1400本地行为知识库中的一条行为记录示例例如可如表2:
表2
当然,本地行为知识库1408中记录的行为记录不限于表2格式。
可以理解的是,本实施例中介绍的UBA子节点1400可如上述方法实施例中的UBA子节点,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再一一赘述。
参见图15、本发明实施例还提供一种UBA云服务器1500,可包括:
控制爬取模块1510和爬取模块1520;
爬取模块1520,用于爬取网络内容标识对应的网络内容;
控制爬取模块1510,用于判断当前对网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则停止爬取网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则控制爬取模块1520进一步爬取该网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;
爬取模块1520还用于,爬取网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容。
可以理解的是,本实施例中介绍的UBA云服务器1500可如上述方法实施例中的UBA云服务器,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再一一赘述。
参见图16、本发明实施例还提供一种UBA云1600,包括:
至少一个UBA云服务器1610(其中,图16中以包括多个UBA云服务器1610为例);其中,UBA云服务器1610处于所在网络的分析决策层。
其中,UBA云服务器1600例如可具有上述实施例中的UBA云服务器1200或UBA云服务器1300或UBA云服务器1500的部分或全部功能。
参见图17、本发明实施例还提供一种用户行为分析系统,可包括:
UBA云1600和至少一个UBA子节点1400。
其中,UBA云1600中UBA云服务器和UBA子节点1400以可通信方式连接。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
综上,本发明实施例中实施例中UBA云下部署多个UBA子节点,UBA云包括至少一个UBA云服务器,其中,UBA云服务器处于所在网络的分析决策层,UBA子节点处于所在网络的探针层,当UBA云服务器接收第一UBA子节点上报的其无法识别的网络内容标识后;UBA云服务器获取该网络内容标识对应的网络内容;从该网络内容中提取关键词;利用提取的该关键词更新行为知识库;向UBA子节点集下发更新的行为知识库或行为知识库的更新内容;UBA子节点集包括第二UBA子节点和第一UBA子节点。由于采用云技术的UBA云具有比UBA子节点更强的分析处理能力,因此由UBA云服务器来分析识别UBA子节点无法识别的网络内容标识,有利于提高UBA系统的用户行为分析能力,并且由UBA云服务器进行一次分析识别后,向UBA子节点集下发UBA云服务器据此更新的UBA云行为知识库或UBA云行为知识库的更新内容,使得UBA子节点集中的所有UBA子节点都可据此更新其本地行为知识库,这样就有利于避免多个UBA子节点对例如新网络内容的重复分析问题,进而有利于提升用户行为分析的时效性,减少资源消耗。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质例如可以包括:只读存储器、随机存储器、磁盘或光盘等。
以上对本发明实施例所提供的用户行为分析方法及相关设备和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (44)

1.一种用户行为分析方法,其特征在于,应用于包括至少一个用户行为分析UBA云服务器的UBA云,其中,所述UBA云服务器处于所在网络的分析决策层,所述方法包括:
UBA云服务器接收第一UBA子节点上报的无法识别的网络内容标识;
所述UBA云服务器获取所述网络内容标识对应的网络内容;
所述UBA云服务器从所述网络内容中提取出关键词;
所述UBA云服务器利用提取出的所述关键词更新行为知识库;
所述UBA云服务器向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容;其中,所述UBA子节点集至少包括第二UBA子节点和所述第一UBA子节点,所述第二UBA子节点和第一UBA子节点处于所在网络的探针层。
2.根据权利要求1所述的方法,其特征在于,所述UBA云服务器利用提取出的所述关键词更新行为知识库,包括:
所述UBA云服务器根据提取的所述关键词得到内容分类信息;
所述UBA云服务器基于所述内容分类信息和关键词生成行为记录;
所述UBA云服务器将生成的所述行为记录添加到行为知识库。
3.根据权利要求1或2所述的方法,其特征在于,
所述从所述网络内容中提取出关键词,包括:
对所述网络内容进行去噪处理;对去噪处理后所述网络内容进行切词处理得到若干个词;根据关键词参考参数从所述若干个词中提取出关键词,所述关键词参考参数包括:词的词性、词频、权重和所处位置。
4.根据权利要求1至2任一项所述的方法,其特征在于,
所述方法还包括:
所述UBA云服务器利用所述网络内容标识,在行为知识库查找与所述网络内容标识匹配的行为记录;若在所述行为知识库中未查找到与所述网络内容标识匹配的行为记录,则执行如下步骤:所述UBA云服务器获取所述网络内容标识对应的网络内容;从所述网络内容中提取出关键词;利用提取出的所述关键词更新所述行为知识库;并向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
5.根据权利要求3所述的方法,其特征在于,
所述方法还包括:
所述UBA云服务器利用所述网络内容标识,在行为知识库查找与所述网络内容标识匹配的行为记录;若在所述行为知识库中未查找到与所述网络内容标识匹配的行为记录,则执行如下步骤:所述UBA云服务器获取所述网络内容标识对应的网络内容;从所述网络内容中提取出关键词;利用提取出的所述关键词更新所述行为知识库;并向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
6.根据权利要求1至2任一项所述的方法,其特征在于,
所述方法还包括:
所述UBA云服务器获取所述UBA子节点集生成的用户行为分析报表或网络行为分析报表;汇总获取的所述用户行为分析报表或网络行为分析报表,得到汇总的用户行为分析报表或网络行为分析报表。
7.根据权利要求3所述的方法,其特征在于,
所述方法还包括:
所述UBA云服务器获取所述UBA子节点集生成的用户行为分析报表或网络行为分析报表;汇总获取的所述用户行为分析报表或网络行为分析报表,得到汇总的用户行为分析报表或网络行为分析报表。
8.根据权利要求4所述的方法,其特征在于,
所述方法还包括:
所述UBA云服务器获取所述UBA子节点集生成的用户行为分析报表或网络行为分析报表;汇总获取的所述用户行为分析报表或网络行为分析报表,得到汇总的用户行为分析报表或网络行为分析报表。
9.根据权利要求5所述的方法,其特征在于,
所述方法还包括:
所述UBA云服务器获取所述UBA子节点集生成的用户行为分析报表或网络行为分析报表;汇总获取的所述用户行为分析报表或网络行为分析报表,得到汇总的用户行为分析报表或网络行为分析报表。
10.根据权利要求1至2任一项所述的方法,其特征在于,
所述获取所述网络内容标识对应的网络内容具体为:爬取所述网络内容标识对应的网络内容;
所述爬取所述网络内容标识对应的网络内容之后,还包括:
所述UBA云服务器判断当前对所述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则所述UBA云服务器停止爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则所述UBA云服务器进一步爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容,从爬取到的所述网络内容中包含的子网络内容标识所对应的网络内容中提取出关键词;利用提取出的该关键词更新行为知识库;并向所述UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
11.根据权利要求3所述的方法,其特征在于,
所述获取所述网络内容标识对应的网络内容具体为:爬取所述网络内容标识对应的网络内容;
所述爬取所述网络内容标识对应的网络内容之后,还包括:
所述UBA云服务器判断当前对所述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则所述UBA云服务器停止爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则所述UBA云服务器进一步爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容,从爬取到的所述网络内容中包含的子网络内容标识所对应的网络内容中提取出关键词;利用提取出的该关键词更新行为知识库;并向所述UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
12.根据权利要求4所述的方法,其特征在于,
所述获取所述网络内容标识对应的网络内容具体为:爬取所述网络内容标识对应的网络内容;
所述爬取所述网络内容标识对应的网络内容之后,还包括:
所述UBA云服务器判断当前对所述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则所述UBA云服务器停止爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则所述UBA云服务器进一步爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容,从爬取到的所述网络内容中包含的子网络内容标识所对应的网络内容中提取出关键词;利用提取出的该关键词更新行为知识库;并向所述UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
13.根据权利要求5所述的方法,其特征在于,
所述获取所述网络内容标识对应的网络内容具体为:爬取所述网络内容标识对应的网络内容;
所述爬取所述网络内容标识对应的网络内容之后,还包括:
所述UBA云服务器判断当前对所述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则所述UBA云服务器停止爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则所述UBA云服务器进一步爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容,从爬取到的所述网络内容中包含的子网络内容标识所对应的网络内容中提取出关键词;利用提取出的该关键词更新行为知识库;并向所述UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
14.根据权利要求6所述的方法,其特征在于,
所述获取所述网络内容标识对应的网络内容具体为:爬取所述网络内容标识对应的网络内容;
所述爬取所述网络内容标识对应的网络内容之后,还包括:
所述UBA云服务器判断当前对所述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则所述UBA云服务器停止爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则所述UBA云服务器进一步爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容,从爬取到的所述网络内容中包含的子网络内容标识所对应的网络内容中提取出关键词;利用提取出的该关键词更新行为知识库;并向所述UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
15.根据权利要求7所述的方法,其特征在于,
所述获取所述网络内容标识对应的网络内容具体为:爬取所述网络内容标识对应的网络内容;
所述爬取所述网络内容标识对应的网络内容之后,还包括:
所述UBA云服务器判断当前对所述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则所述UBA云服务器停止爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则所述UBA云服务器进一步爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容,从爬取到的所述网络内容中包含的子网络内容标识所对应的网络内容中提取出关键词;利用提取出的该关键词更新行为知识库;并向所述UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
16.根据权利要求8所述的方法,其特征在于,
所述获取所述网络内容标识对应的网络内容具体为:爬取所述网络内容标识对应的网络内容;
所述爬取所述网络内容标识对应的网络内容之后,还包括:
所述UBA云服务器判断当前对所述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则所述UBA云服务器停止爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则所述UBA云服务器进一步爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容,从爬取到的所述网络内容中包含的子网络内容标识所对应的网络内容中提取出关键词;利用提取出的该关键词更新行为知识库;并向所述UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
17.根据权利要求9所述的方法,其特征在于,
所述获取所述网络内容标识对应的网络内容具体为:爬取所述网络内容标识对应的网络内容;
所述爬取所述网络内容标识对应的网络内容之后,还包括:
所述UBA云服务器判断当前对所述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则所述UBA云服务器停止爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则所述UBA云服务器进一步爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容,从爬取到的所述网络内容中包含的子网络内容标识所对应的网络内容中提取出关键词;利用提取出的该关键词更新行为知识库;并向所述UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
18.根据权利要求1至2任一项所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
19.根据权利要求3所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
20.根据权利要求4所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
21.根据权利要求5所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
22.根据权利要求6所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
23.根据权利要求7所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
24.根据权利要求8所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
25.根据权利要求9所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
26.根据权利要求10所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
27.根据权利要求11所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
28.根据权利要求12所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
29.根据权利要求13所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
30.根据权利要求14所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
31.根据权利要求15所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
32.根据权利要求16所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
33.根据权利要求17所述的方法,其特征在于,
所述UBA云服务器处于所在网络的核心层,所述UBA子节点处于所在网络的接入层;或者,所述UBA云服务器处于所在网络的汇聚层,所述UBA子节点处于所在网络的边缘网络;或者,所述UBA云服务器处于所在网络的核心互联网数据中心IDC,所述UBA子节点处于所在网络的区域IDC。
34.一种用户行为分析方法,其特征在于,应用于包括至少一个用户行为分析UBA云服务器的UBA云,其中,所述UBA云服务器处于所在网络的分析决策层,所述方法包括:
UBA云服务器接收第一UBA子节点上报的无法识别的网络内容标识;
所述UBA云服务器利用所述网络内容标识,在行为知识库查找与所述网络内容标识匹配的行为记录;
若在所述行为知识库查找到与所述网络内容标识匹配的行为记录,则所述UBA云服务器向所述第一UBA子节点下发与所述网络内容标识匹配的行为记录中包含的,所述网络内容标识对应的内容分类信息,其中,所述第一UBA子节点处于所在网络的探针层。
35.一种用户行为分析方法,其特征在于,包括:
第一用户行为分析UBA子节点收集用户上网信息;
第一UBA子节点从收集的所述用户上网信息中提取上网关键信息,所述上网关键信息包含网络内容标识;
第一UBA子节点利用所述上网关键信息,在本地行为知识库中查找与所述上网关键信息匹配的行为记录;
若在所述本地行为知识库中未查找到与所述上网关键信息匹配的行为记录,则第一UBA子节点向UBA云服务器上报所述上网关键信息中的网络内容标识;若在所述本地行为知识库中查找到与所述上网关键信息匹配的行为记录,则第一UBA子节点根据匹配的行为记录生成用户访问日志,根据生成的用户访问日志进行用户行为建模,其中,所述UBA云服务器处于所在网络的分析决策层,所述第一UBA子节点处于所在网络的探针层。
36.根据权利要求35所述的方法,其特征在于,
所述方法还包括:
第一UBA子节点接收所述UBA云服务器下发的行为知识库、行为知识库的更新内容或所述网络内容标识对应的内容分类信息;第一UBA子节点利用所述UBA云服务器下发的行为知识库、行为知识库的更新内容或所述网络内容标识对应的内容分类信息,更新第一UBA子节点的本地行为知识库。
37.一种用户行为分析UBA云服务器,其特征在于,包括:
接收模块,用于接收第一UBA子节点上报的无法识别的网络内容标识;
获取模块,用于获取所述网络内容标识对应的网络内容;
提取模块,用于从所述获取模块获取的网络内容中提取出关键词;
库更新模块,用于利用所述提取模块提取出的所述关键词更新行为知识库;
下发模块,用于向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容;其中,所述UBA子节点集至少包括第二UBA子节点和所述第一UBA子节点,其中,所述UBA云服务器处于所在网络的分析决策层,所述第一UBA子节点和第二UBA子节点处于所在网络的探针层。
38.根据权利要求37所述的UBA云服务器,其特征在于,
所述UBA云服务器还包括:
查找模块,用于利用所述接收模块接收到的网络内容标识在行为知识库查找与所述网络内容标识匹配的行为记录;
所述获取模块具体用于,若所述查找模块在所述行为知识库中未查找到与所述网络内容标识匹配的行为记录,获取所述网络内容标识对应的网络内容。
39.根据权利要求37或38所述的UBA云服务器,其特征在于,
所述获取模块具体用于,爬取所述网络内容标识对应的网络内容;
所述UBA云服务器还包括:
控制爬取模块,用于判断当前对所述网络内容标识的爬取深度是否超过设定的爬取深度上限,若是,则停止爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;若否,则控制所述获取模块进一步爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;
所述获取模块还用于,爬取所述网络内容标识对应的网络内容中包含的子网络内容标识所对应的网络内容;
所述提取模块还用于,从所述获取模块爬取到的所述子网络内容标识所对应的网络内容中提取出关键词;
所述库更新模块还用于,利用所述提取模块提取出的所述关键词更新行为知识库;
所述下发模块还用于,向UBA子节点集下发更新的行为知识库或者行为知识库的更新内容。
40.一种用户行为分析UBA云服务器,其特征在于,包括:
接收模块,用于接收第一UBA子节点上报的无法识别的网络内容标识;
查询模块,用于利用所述接收模块接收的网络内容标识,在行为知识库查找匹配的行为记录;
下发模块,用于若所述查询模块在所述行为知识库查找到与所述网络内容标识匹配的行为记录,则向所述第一UBA子节点下发与所述网络内容标识匹配的行为记录中包含的,所述网络内容标识对应的内容分类信息;其中,所述UBA云服务器处于所在网络的分析决策层,所述第一UBA子节点处于所在网络的探针层。
41.一种用户行为分析UBA子节点,其特征在于,包括:
收集模块,用于收集用户上网信息;
提取模块,用于从所述收集模块收集的所述用户上网信息中提取上网关键信息,其中,所述上网关键信息包括网络内容标识;
查找模块,用于利用所述提取模块提取的上网关键信息在本地行为知识库中查找匹配的行为记录;
上报模块,用于若所述查找模块在所述本地行为知识库中未查找到与所述上网关键信息匹配的行为记录,则向UBA云服务器上报所述上网关键信息中的网络内容标识;
生成模块,用于若所述查找模块在所述本地行为知识库中查找到与所述上网关键信息匹配的行为记录,则根据与所述上网关键信息匹配的行为记录生成用户访问日志,根据生成的用户访问日志进行用户行为建模;其中,所述UBA云服务器处于所在网络的分析决策层,所述UBA子节点处于所在网络的探针层。
42.根据权利要求41所述的UBA子节点,其特征在于,
所述UBA子节点还包括:
获取模块,用于接收UBA云服务器下发的行为知识库、行为知识库的更新内容或所述网络内容标识对应的内容分类信息;
库更新模块,用于利用所述UBA云服务器下发的行为知识库、行为知识库的更新内容或所述网络内容标识对应的内容分类信息,更新所述UBA子节点的本地行为知识库。
43.一种用户行为分析UBA云,其特征在于,包括:
至少一个如权利要求37至40任一项所述的用户行为分析UBA云服务器。
44.一种用户行为分析UBA系统,其特征在于,包括:
如权利要求43所述的用户行为分析UBA云和至少一个如权利要求41~42任一项所述的UBA子节点,其中,所述UBA子节点和所述UBA云中的UBA云服务器以可通信方式连接。
CN201210132715.3A 2012-04-28 2012-04-28 用户行为分析方法及相关设备和系统 Active CN102685224B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201210132715.3A CN102685224B (zh) 2012-04-28 2012-04-28 用户行为分析方法及相关设备和系统
EP12875668.1A EP2830283B1 (en) 2012-04-28 2012-11-22 User behavior analysis method, and related equipment and system
CA2871698A CA2871698C (en) 2012-04-28 2012-11-22 User behavior analysis method, and related device and system
PCT/CN2012/085046 WO2013159512A1 (zh) 2012-04-28 2012-11-22 用户行为分析方法及相关设备和系统
US14/524,530 US9589275B2 (en) 2012-04-28 2014-10-27 User behavior analysis method, and related device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210132715.3A CN102685224B (zh) 2012-04-28 2012-04-28 用户行为分析方法及相关设备和系统

Publications (2)

Publication Number Publication Date
CN102685224A CN102685224A (zh) 2012-09-19
CN102685224B true CN102685224B (zh) 2014-10-08

Family

ID=46816577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210132715.3A Active CN102685224B (zh) 2012-04-28 2012-04-28 用户行为分析方法及相关设备和系统

Country Status (5)

Country Link
US (1) US9589275B2 (zh)
EP (1) EP2830283B1 (zh)
CN (1) CN102685224B (zh)
CA (1) CA2871698C (zh)
WO (1) WO2013159512A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685224B (zh) 2012-04-28 2014-10-08 华为技术有限公司 用户行为分析方法及相关设备和系统
CN102984751B (zh) * 2012-11-07 2018-02-13 中兴通讯股份有限公司 业务控制方法及装置
CN103905266A (zh) * 2012-12-27 2014-07-02 中国移动通信集团公司 一种分布式互联网行为分析方法、装置及系统
CN103248677B (zh) * 2013-04-24 2016-01-27 深圳天源迪科信息技术股份有限公司 互联网行为分析系统及其工作方法
CN103646119A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 用户行为记录的生成方法及装置
CN106155563B (zh) * 2015-03-30 2019-11-15 浙江大华技术股份有限公司 一种磁盘访问控制方法及装置
CN107734534B (zh) * 2016-08-10 2020-10-30 中国移动通信集团黑龙江有限公司 一种网络负荷评估方法及装置
CN108073303B (zh) * 2016-11-17 2021-11-30 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN107426231B (zh) * 2017-08-03 2020-05-01 奇安信科技集团股份有限公司 一种识别用户行为的方法及装置
CN109033281B (zh) * 2018-07-11 2019-12-13 国网技术学院 一种知识资源库的智能推送系统
CN109087132B (zh) * 2018-07-18 2021-07-30 国家电网有限公司 一种基于知识图谱的用户问题推送方法及装置
CN109040058B (zh) * 2018-08-01 2020-12-11 安徽大学 一种验证标签可更新的安全云审计方法及其系统
WO2020118531A1 (zh) * 2018-12-11 2020-06-18 西门子股份公司 提供云服务的方法、装置、电子设备、计算机介质以及产品
CN109756563B (zh) * 2018-12-17 2022-09-30 平安科技(深圳)有限公司 信息推送方法、装置、计算机设备和存储介质
CN112699327B (zh) * 2020-11-06 2024-04-19 的卢技术有限公司 一种基于云计算的前端导航栏推荐方法及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001027760A3 (de) * 1999-10-15 2002-07-11 Joachim Schlafke Verfahren zur analyse des benutzerverhaltens in computernetzen zur optimierung der web-präsenz
CN101105795A (zh) * 2006-10-27 2008-01-16 北京搜神网络技术有限责任公司 基于网络行为的个性化推荐方法和系统
CN102307315A (zh) * 2011-04-22 2012-01-04 赛特斯网络科技(南京)有限责任公司 Iptv系统中用户行为分析装置及实现分析应用的系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7284008B2 (en) * 2000-08-30 2007-10-16 Kontera Technologies, Inc. Dynamic document context mark-up technique implemented over a computer network
US6910071B2 (en) * 2001-04-02 2005-06-21 The Aerospace Corporation Surveillance monitoring and automated reporting method for detecting data changes
US20030225763A1 (en) * 2002-04-15 2003-12-04 Microsoft Corporation Self-improving system and method for classifying pages on the world wide web
US20050149507A1 (en) * 2003-02-05 2005-07-07 Nye Timothy G. Systems and methods for identifying an internet resource address
US20060036966A1 (en) * 2004-08-10 2006-02-16 Slava Yevdayev Method and system for presenting links associated with a requested website
WO2011008771A1 (en) * 2009-07-14 2011-01-20 Vibrant Media, Inc. Systems and methods for providing keyword related search results in augmented content for text on a web page
US20110082850A1 (en) * 2009-10-05 2011-04-07 Tynt Multimedia Inc. Network resource interaction detection systems and methods
US8682811B2 (en) * 2009-12-30 2014-03-25 Microsoft Corporation User-driven index selection
CN101901245A (zh) 2010-01-15 2010-12-01 莱克斯科技(北京)有限公司 一种基于云语义库的网页审计方法
US20120173341A1 (en) * 2010-12-31 2012-07-05 Kun Li Information publishing method, apparatus and system
US8577842B1 (en) * 2011-09-19 2013-11-05 Amazon Technologies, Inc. Distributed computer system snapshots and instantiation thereof
US8826426B1 (en) * 2011-05-05 2014-09-02 Symantec Corporation Systems and methods for generating reputation-based ratings for uniform resource locators
CN102185927A (zh) 2011-05-31 2011-09-14 北京亿赞普网络技术有限公司 一种知识即服务云计算平台
US8538949B2 (en) * 2011-06-17 2013-09-17 Microsoft Corporation Interactive web crawler
US20150249926A1 (en) * 2012-04-11 2015-09-03 Takashi Shono Method and apparatus for managing dynamic sharing of spectrum services
CN102685224B (zh) * 2012-04-28 2014-10-08 华为技术有限公司 用户行为分析方法及相关设备和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001027760A3 (de) * 1999-10-15 2002-07-11 Joachim Schlafke Verfahren zur analyse des benutzerverhaltens in computernetzen zur optimierung der web-präsenz
CN101105795A (zh) * 2006-10-27 2008-01-16 北京搜神网络技术有限责任公司 基于网络行为的个性化推荐方法和系统
CN102307315A (zh) * 2011-04-22 2012-01-04 赛特斯网络科技(南京)有限责任公司 Iptv系统中用户行为分析装置及实现分析应用的系统

Also Published As

Publication number Publication date
EP2830283A1 (en) 2015-01-28
CA2871698C (en) 2017-12-19
US20150066589A1 (en) 2015-03-05
EP2830283B1 (en) 2016-09-07
EP2830283A4 (en) 2015-05-06
US9589275B2 (en) 2017-03-07
WO2013159512A1 (zh) 2013-10-31
CN102685224A (zh) 2012-09-19
CA2871698A1 (en) 2013-10-31

Similar Documents

Publication Publication Date Title
CN102685224B (zh) 用户行为分析方法及相关设备和系统
US11321214B1 (en) Detection of anomalous computer behavior
Cherubin et al. Online website fingerprinting: Evaluating website fingerprinting attacks on tor in the real world
CN103051725B (zh) 应用识别方法、数据挖掘方法、装置及系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN102710795B (zh) 热点聚合方法及装置
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN109905288B (zh) 一种应用服务分类方法及装置
Cai et al. Towards an AS-to-organization Map
Noor et al. CSCE: a crawler engine for cloud services discovery on the world wide web
CN102130933A (zh) 一种基于移动互联网的推荐方法、系统和设备
CN102315952A (zh) 一种用于社区网络中检测垃圾帖子的方法与设备
CN107809383A (zh) 一种基于mvc的路径映射方法及装置
Chen et al. Ai@ ntiphish—machine learning mechanisms for cyber-phishing attack
CN101355587A (zh) Url信息获取方法和装置及搜索引擎实现方法及系统
Bhargav et al. Pattern discovery and users classification through web usage mining
CN108073693A (zh) 一种基于Hadoop的分布式网络爬虫系统
CN102315953A (zh) 基于帖子的出现规律来检测垃圾帖子的方法及设备
RU2701040C1 (ru) Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN111131493A (zh) 一种数据获取、用户画像生成方法、装置
Tongaonkar A look at the mobile app identification landscape
Wang et al. Smart devices information extraction in home wi‐fi networks
CN102571922A (zh) 一种数据流处理方法及装置
CN102833282A (zh) 信息的推送方法及网元、系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant