CN105824884A - 一种用户上网信息处理方法及装置 - Google Patents
一种用户上网信息处理方法及装置 Download PDFInfo
- Publication number
- CN105824884A CN105824884A CN201610136426.9A CN201610136426A CN105824884A CN 105824884 A CN105824884 A CN 105824884A CN 201610136426 A CN201610136426 A CN 201610136426A CN 105824884 A CN105824884 A CN 105824884A
- Authority
- CN
- China
- Prior art keywords
- url
- webpage
- packet
- server
- webpage corresponding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供一种用户上网信息处理方法及装置,涉及通信领域,能够对用户访问的网页的正文内容进行分析,获取用户的上网行为。包括:服务器接收网关发送的数据包,数据包包括URL,URL为用户访问的网页的地址;根据URL获取URL对应的网页的HTML源码;解析URL对应的网页的HTML源码,得到URL对应的网页的关键词和正文文本;根据URL对应的网页的关键词确定URL对应的网页的主题。用于分析用户访问的网页的正文内容。
Description
技术领域
本发明涉及通信领域,尤其涉及一种用户上网信息处理方法及装置。
背景技术
随着互联网技术的发展,越来越多的用户可以使用终端设备访问互联网,进行资料查询或观看视频等业务。在用户数出现迅猛的增长的同时,用户对互联网的要求也越来越高。随着业务的多元化,分析用户的群体构成及其习惯爱好等用户上网行为,向用户提供更具个性化的服务,已经成为一个重要的研究方向,也是网络的规划、设计和管理的重要依据。
现有技术中,从服务器存储的日志中采集用户上网信息,通过分析用户上网信息获取用户上网轨迹,但日志所提供的数据有限,只能提供用户标识、用户IP和用户访问的网页时的统一资源定位符(英文全称:UniformResourceLocator,英文简称:URL)等,并不能获取到用户访问的网页的具体内容,也就是web正文。
进一步的,根据采集到的URL将网页进行分类。例如,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出用户所浏览的网页的类别,在网页分类的基础上对用户的上网习惯进行分析,得出用户行为分析结果。但是,这样也仅仅对网页进行了分类,并没有对用户访问的网页的内容进行更深层次的分析和挖掘。
发明内容
本发明实施例提供一种用户上网信息处理方法及装置,能够对用户访问的网页的正文内容进行分析,获取用户的上网行为。
为达到上述目的,本发明实施例采用的技术方案是:
第一方面,提供一种用户上网信息处理方法,包括:
服务器接收网关发送的数据包,所述数据包包括统一资源定位符URL,所述URL为用户访问的网页的地址;
所述服务器根据所述URL获取所述URL对应的网页的超级文本标记语言HTML源码;
解析所述URL对应的网页的HTML源码,得所述服务器到所述URL对应的网页的关键词和正文文本;
所述服务器根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
上述第一方面提供的用户上网信息分析方法,首先,根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
第二方面,提供一种用户上网信息处理方法,包括:
网关获取统一资源定位符URL,所述URL为用户访问的网页的地址;
所述网关向服务器发送数据包,所述数据包包括解析标识、用户标识、用户IP地址、数据包的包长和所述URL。
上述第二方面提供的用户上网信息处理方法,网关获取URL后,向服务器发送包括该URL的数据包,使得服务器根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
第三方面,提供一种服务器,包括:
接收单元,用于接收网关发送的数据包,所述数据包包括统一资源定位符URL,所述URL为用户访问的网页的地址;
所述接收单元,还用于接收所述URL对应的网页的超级文本标记语言HTML源码;
处理单元,用于解析所述URL对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本;
所述处理单元,用于根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
上述第三方面提供的服务器,首先,根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
第四方面,提供一种网关,包括:
处理单元,用于获取统一资源定位符URL,所述URL为用户访问的网页的地址;
发送单元,用于向服务器发送数据包,所述数据包包括解析标识、用户标识、用户IP地址、数据包的包长和所述URL。
上述第四方面提供的网关,获取URL后,向服务器发送包括该URL的数据包,使得服务器根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
需要说明的是,上述第三方面和第四方面所述功能模块可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。例如,通信接口,用于完成接收单元和发送单元的功能,处理器,用于完成处理单元的功能,存储器,用于存储音量阈值。处理器、通信接口和存储器通过总线连接并完成相互间的通信。具体的,可以参考第一方面提供的用户上网信息处理方法中服务器的行为的功能,以及第二方面提供的用户上网信息处理方法中网关的行为的功能。
本发明中,服务器和网关的名字对设备本身不构成限定,在实际实现中,这些设备可以以其他名称出现。只要各个设备的功能和本发明类似,属于本发明权利要求及其等同技术的范围之内。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用户上网信息处理方法流程图;
图2为本发明实施例提供的另一种用户上网信息处理方法流程图;
图3为本发明实施例提供的又一种用户上网信息处理方法流程图;
图4为本发明实施例提供的一种服务器结构示意图;
图5为本发明实施例提供的一种网关结构示意图;
图6为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基本原理在于:根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
实施例1
本发明实施例提供一种用户上网信息处理方法,如图1所示,包括:
步骤101、网关获取URL。
URL为用户访问的网页的地址。URL对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。基本URL包含协议(或模式)、服务器名称(或IP地址)、路径和文件名,例如,协议://授权/路径?查询。模式或协议规定浏览器如何处理将要打开的文件。最常用的模式是超级文本标记语言(英文全称:HyperTextMarkupLanguage,英文简称:HTML),这个协议可以用来访问网络。本发明即使用HTML协议。
用户通过终端设备进行上网浏览网页,终端设备通常连接网关,用户访问的网页的网址(URL)通过网关向服务器发出请求,服务器响应所述请求后,然后,用户的终端设备接收用户访问的网页的页面下载响应。网关即可以是家庭网关,家庭网关可以作为所有外部接入网连接到家庭内部,同时将家庭内部网络连接到外部的一种物理接口。
通常,网关有路由器和交换机的功能,在加载有Openwrt系统的路由器功能的网关上配置Privoxy代理功能和相应文件,privoxy会重定向所有要进行超文本传输协议(英文全称:HyperTextTransferProtocol,英文简称:HTTP)服务请求到Privoxy代理,使终端设备向远程服务器发出的每一个请求都经过代理功能,从而保证从远程服务器返回的HTML源码是经过Privoxy处理后再发给终端设备的。从远程服务器返回的每个HTML文件经过Privoxy代理处理后都嵌入特定JavaScript脚本。用户浏览器执行JavaScript脚本,将用户实时访问的URL传送到网关。
步骤102、网关向服务器发送数据包。
所述数据包包括解析标识、用户标识、用户IP地址和所述URL。需要说明的是,解析标识可以用0或1表示,当解析标识为0时,用于指示服务器不解析数据包,解析标识为1时,用于指示服务器解析数据包。
步骤103、服务器接收网关发送的数据包。
所述数据包包括解析标识、用户标识、用户IP地址和所述URL。
步骤104、服务器根据URL获取所述URL对应的网页的HTML源码。
服务器从数据包中获取URL,根据URL来找到Web文本,读取Web文本的内容。具体的,通过HTTP协议的GET方法向提供Web文本的网络服务器请求URL对应的网页的HTML源码。GET是HTTP协议中一种向服务器发送客户端请求的方法,发出请求前按规定填好请求的主机名、协议版本等内容,服务器便返回请求的内容。
步骤105、服务器解析URL对应的网页的HTML源码,得到URL对应的网页的关键词和正文文本。
步骤106、服务器根据URL对应的网页的关键词确定URL对应的网页的主题。
这样一来,首先,根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
具体的,如图2所示,步骤105中服务器解析URL对应的网页的HTML源码,得到URL对应的网页的关键词和正文文本的详细步骤如下所述:
步骤1051、服务器解析URL对应的网页的HTML源码,获取所述URL对应的网页的HTML源码的正文文本。
Web文本包含了大量的HTML标记、文本、图像、客户脚本,在提取URL对应的网页的HTML源码的同时应对Web文本进行预处理,除掉的HTML标记、图像、客户脚本,最后只留下纯净的文本文字。具体的,可以对HTML源码进行解析,得到处理后的utf-8字符集,对处理后的utf-8字符集采用基于文本密度分布函数的多特征算法提取正文文本。
步骤1052、服务器根据词频位置权重公式和TF-IDF算法,从所述URL对应的网页的HTML源码的正文文本中获取所述URL对应的网页的HTML源码的关键词。
所述词频位置权重公式为:
f(w)=a*fr(w)+b*fk(w)+c*ft(w)+d*fc(w)
其中,a表示URL,b表示URL对应的网页的关键词节点,c表示URL对应的网页的标题,d表示正文,且a>b>c>d,fr(w)、fk(w)、ft(w)和fc(w)分别表示文字w在a、b、c和d中出现的频率。
然后,采用TF-IDF算法计算出每个词的权重,筛选出排序靠前的词作为关键词。需要说明的是,关键词没有个数要求,根据需要选择个数,可以是3个或5个。
TF-IDF(termfrequency–inversedocumentfrequency)算法是一种用于信息检索与数据挖掘的常用加权技术,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
示例的,一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率(IDF)的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是log(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。
步骤106中服务器根据所述URL对应的网页的关键词确定所述URL对应的网页的主题的详细步骤如下所述:
步骤1061、服务器通过VSM,计算所述URL对应的网页的关键词向量与主题样本中类向量间的欧式距离。
VSM是一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型。关键词向量可以是关键词的权重。主题样本中类向量可以是主题样本中的关键词向量。服务器之前已经训练出了各个主题的类向量并保存在数据库中,所谓类向量就是每个主题大类下的各个特征词及对应的权重值。如经济主题的类向量:财经(0.043)、股票(0.036)、金融(0.021)、股市(0.016)。
进一步的,服务器还可以统计关键词的词性。例如,服务器将关键词归类为名词、形容词以及动词,进行情感词典查阅后统计各词情感极性。例如,可以采用词性加权公式Dw=dw*fw计算各词情感极性值,其中,dw表示单词w的情感极性值,fw表示由词频位置权重公式计算得到的位置加权词频。根据情感极性值与预设阈值比较,得出情感倾向判断,偏离事先设定的阈值越大说明该web情感极端。情感词典可以是中国台湾大学NTUSD情感极性词典,分为正面和负面情感词集,评价词集和程度级别词集。服务器预先存储在服务器数据库中。例如,今天天气非常好。“非常”属于第一级别程度,“好”出现在正面评价集合中。
步骤1062、服务器将与所述URL对应的网页的关键词向量的欧式距离最短的主题向量的主题,确定为所述URL对应的网页的主题。
进一步的,如图3所示,在网关向服务器发送数据包,例如,步骤102之前,所述方法还包括:
步骤107、网关判断该网关是否存储该URL。
当所述网关判断未存储所述URL,执行步骤108。
当所述网关判断已存储所述URL,执行步骤102。
步骤108、网关获取URL的数据包。执行步骤102。
网关可以采用snort抓包程序获取所述URL的数据包,可以获取到数据包的包长,网关向服务器发送数据包的包括包长。
服务器根据所述URL获取所述URL对应的网页的超级文本标记语言HTML源码,例如步骤104之前,所述方法还包括:
步骤109、服务器根据解析标识判断是否解析数据包。
若解析标识为1,服务器判断解析数据包,执行步骤104和步骤110,即服务器确定URL对应的网页的主题和类型,即服务器获取到的数据包是没有经过解析的数据包,此时可以采用一个线程确定URL对应的网页的主题,采用另一个线程确定URL对应的网页的类型。
若解析标识为0,服务器判断不解析数据包,说明服务器已经解析过数据包,保存了URL对应的网页的主题,此时只需要采用一个线程确定URL对应的网页的类型,直接执行步骤110。
步骤110、服务器根据用户标识和用户IP地址获取用户标识对应的上行数据包和下行数据包。
所述上行数据包为所述网关发送至所述服务器的数据包,所述下行数据包为所述服务器发送至所述网关的数据包。
步骤111、服务器根据上行数据包和下行数据包,判断流量比小于或等于流量阈值时,确定数据包的内容为文字类型。
步骤112、服务器根据上行数据包和下行数据包,判断流量比大于流量阈值时,确定数据包的内容为视频类型。
流量比为单位时间内下行数据包的包长与上行数据包的包长之比。服务器可以启动流量统计定时器,统计单位时间内下行数据包的包长与上行数据包的包长。
需要说明的是,在确定数据包的内容为文字类型时,需要执行步骤104。在确定数据包的内容为视频类型时,无需执行步骤104。
步骤113、服务器保存URL对应的网页的主题和类型。
需要说明的是,服务器可以以结构化保存URL对应的网页的主题和类型。
所谓结构化就是将提取到的所有信息按照一定的格式保存到数据库。
示例的,可以按下面格式保存:
用户标识:005056C0
浏览网址:http://www.sdjfkjs.com
网站关键词:篮球、后卫、冠军
网站正文:xxxxxxx
网站主题:体育类
网站情感:积极正面
步骤114、服务器向网关发送URL对应的网页的主题和类型。
步骤115、网关接收服务器发送的URL对应的网页的主题和类型。
网关更新所述URL对应的网页的主题和类型。
实施例2
本发明实施例提供的一种服务器20,如图4所示,包括:
接收单元201,用于接收网关发送的数据包,所述数据包包括统一资源定位符URL,所述URL为用户访问的网页的地址;
所述接收单元201,还用于接收所述URL对应的网页的超级文本标记语言HTML源码;
处理单元202,用于解析所述URL对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本;
所述处理单元202,用于根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
这样一来,首先,根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
实施例3
本发明实施例提供的一种网关30,如图5所示,包括:
处理单元301,用于获取统一资源定位符URL,所述URL为用户访问的网页的地址;
发送单元302,用于向服务器发送数据包,所述数据包包括解析标识、用户标识、用户IP地址、数据包的包长和所述URL。
这样一来,网关获取URL后,向服务器发送包括该URL的数据包,使得服务器根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
本发明实施例提供的一种通信系统,包括:如实施例2所述的服务器和实施例3所述的网关。
需要说明的是,图6所示为本发明实施例提供的计算机设备40的结构示意图。计算机设备40包括至少一个处理器401,通信总线402,存储器403以及至少一个通信接口404。具体的,计算机设备40的结构可以是实施例2所述的服务器的结构或实施例3所述的网关的结构。
处理器401可以是一个处理器,也可以是多个处理元件的统称,用于完成处理单元所执行的方案。例如,处理器401可以是一个通用中央处理器(英文全称:CentralProcessingUnit,英文简称:CPU),也可以是特定应用集成电路(英文全称:application-specificintegratedcircuit,英文简称:ASIC),或一个或多个用于控制本发明方案程序执行的集成电路,例如:一个或多个微处理器(英文全称:digitalsignalprocessor,英文简称:DSP),或,一个或者多个现场可编程门阵列(英文全称:FieldProgrammableGateArray,英文简称:FPGA)。
在具体实现中,作为一种实施例,处理器401可以包括一个或多个CPU,例如图6中的CPU0和CPU1。
在具体实现中,作为一种实施例,服务器40可以包括多个处理器,例如图6中的处理器401和处理器405。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
通信总线402可以是工业标准体系结构(英文全称:IndustryStandardArchitecture,英文简称:ISA)总线、外部设备互连(英文全称:PeripheralComponent,英文简称:PCI)总线或扩展工业标准体系结构(英文全称:ExtendedIndustryStandardArchitecture,英文简称:EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器403可以是只读存储器(英文全称:read-onlymemory,英文简称:ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(英文全称:randomaccessmemory,英文简称:RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(英文全称:ElectricallyErasableProgrammableRead-OnlyMemory,英文简称:EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,所述存储器403用于存储执行本发明方案的应用程序代码,并由处理器401来控制执行。所述处理器401用于执行所述存储器403中存储的应用程序代码。
所述通信接口404,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(英文全称:WirelessLocalAreaNetworks,英文简称:WLAN)等。通信接口404可以包括接收单元实现接收功能,以及发送单元实现发送功能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种用户上网信息处理方法,其特征在于,包括:
服务器接收网关发送的数据包,所述数据包包括统一资源定位符URL;
所述服务器接收所述URL对应的网页的超级文本标记语言HTML源码;
所述服务器解析所述URL对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本;
所述服务器根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
2.根据权利要求1所述的方法,其特征在于,所述服务器解析所述URL对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本包括:
所述服务器解析所述URL对应的网页的HTML源码,获取所述URL对应的网页的HTML源码的正文文本;
所述服务器根据词频位置权重公式和TF-IDF算法,从所述URL对应的网页的HTML源码的正文文本中获取所述URL对应的网页的HTML源码的关键词;
所述词频位置权重公式为:
f(w)=a*fr(w)+b*fk(w)+c*ft(w)+d*fc(w)
其中,a表示URL,b表示URL对应的网页的关键词节点,c表示URL对应的网页的标题,d表示正文,且a>b>c>d,fr(w)、fk(w)、ft(w)和fc(w)分别表示文字w在a、b、c和d中出现的频率。
3.根据权利要求2所述的方法,其特征在于,所述服务器根据所述URL对应的网页的关键词确定所述URL对应的网页的主题包括:
所述服务器通过空间向量模型VSM,计算所述URL对应的网页的关键词向量与主题样本中类向量间的欧式距离;
所述服务器将与所述URL对应的网页的关键词向量的欧式距离最短的类向量的主题,确定为所述URL对应的网页的主题。
4.根据权利要求3所述的方法,其特征在于,所述数据包还包括用户标识、用户IP地址和数据包的包长,在所述服务器根据所述URL获取所述URL对应的网页的超级文本标记语言HTML源码之前,所述方法还包括:
所述服务器根据所述用户标识和所述用户IP地址获取所述用户标识对应的上行数据包和下行数据包,所述上行数据包为所述网关发送至所述服务器的数据包,所述下行数据包为所述服务器发送至所述网关的数据包;
所述服务器根据所述上行数据包和所述下行数据包,判断流量比小于或等于流量阈值时,确定所述数据包的内容为文字类型,所述流量比为单位时间内下行数据包的包长与上行数据包的包长之比。
5.根据权利要求4所述的方法,其特征在于,所述数据包还包括解析标识,在所述服务器根据所述用户标识和所述用户IP地址获取所述用户标识对应的上行数据包和下行数据包之前,所述方法还包括:
所述服务器根据所述解析标识判断解析所述数据包,确定所述URL对应的网页的主题和类型。
6.一种用户上网信息处理方法,其特征在于,包括:
网关获取统一资源定位符URL;
所述网关向服务器发送数据包,所述数据包包括解析标识、用户标识、用户IP地址、数据包的包长和所述URL。
7.根据权利要求6所述的方法,其特征在于,包括:
当所述网关判断已存储所述URL,所述解析标识用于指示所述服务器不解析所述数据包;
当所述网关判断未存储所述URL,所述解析标识用于指示所述服务器解析所述数据包。
8.一种服务器,其特征在于,包括:
接收单元,用于接收网关发送的数据包,所述数据包包括统一资源定位符URL,所述URL为用户访问的网页的地址;
所述接收单元,还用于接收所述URL对应的网页的超级文本标记语言HTML源码;
处理单元,用于解析所述URL对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本;
所述处理单元,用于根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
9.根据权利要求8所述的服务器,其特征在于,所述处理单元,具体用于:
解析所述URL对应的网页的HTML源码,获取所述URL对应的网页的HTML源码的正文文本;
根据词频位置权重公式和TF-IDF算法,从所述URL对应的网页的HTML源码的正文文本中获取所述URL对应的网页的HTML源码的关键词;
所述词频位置权重公式为:
f(w)=a*fr(w)+b*fk(w)+c*ft(w)+d*fc(w)
其中,a表示URL,b表示URL对应的网页的关键词节点,c表示URL对应的网页的标题,d表示正文,且a>b>c>d,fr(w)、fk(w)、ft(w)和fc(w)分别表示文字w在a、b、c和d中出现的频率。
10.根据权利要求9所述的服务器,其特征在于,所述处理单元,具体用于:
通过空间向量模型VSM,计算所述URL对应的网页的关键词向量与主题样本中类向量间的欧式距离;
将与所述URL对应的网页的关键词向量的欧式距离最短的类向量的主题,确定为所述URL对应的网页的主题。
11.根据权利要求10所述的服务器,其特征在于,所述数据包还包括用户标识、用户IP地址和数据包的包长,
所述接收单元,根据所述用户标识和所述用户IP地址接收所述用户标识对应的上行数据包,所述上行数据包为所述网关发送至所述服务器的数据包;
所述处理单元,还用于:根据所述用户标识和所述用户IP地址获取所述用户标识对应的下行数据包,所述下行数据包为所述服务器发送至所述网关的数据包;
所述处理单元,还用于根据所述上行数据包和所述下行数据包,判断流量比小于或等于流量阈值时,确定所述数据包的内容为文字类型,所述流量比为单位时间内下行数据包的包长与上行数据包的包长之比。
12.一种网关,其特征在于,包括:
处理单元,用于获取统一资源定位符URL,所述URL为用户访问的网页的地址;
发送单元,用于向服务器发送数据包,所述数据包包括解析标识、用户标识、用户IP地址、数据包的包长和所述URL。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610136426.9A CN105824884A (zh) | 2016-03-10 | 2016-03-10 | 一种用户上网信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610136426.9A CN105824884A (zh) | 2016-03-10 | 2016-03-10 | 一种用户上网信息处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105824884A true CN105824884A (zh) | 2016-08-03 |
Family
ID=56987544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610136426.9A Pending CN105824884A (zh) | 2016-03-10 | 2016-03-10 | 一种用户上网信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105824884A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109246002A (zh) * | 2018-09-17 | 2019-01-18 | 武汉思普崚技术有限公司 | 一种深度安全网关与网元设备 |
CN110895593A (zh) * | 2018-09-12 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及电子设备 |
CN111427880A (zh) * | 2020-03-26 | 2020-07-17 | 中国工商银行股份有限公司 | 数据处理的方法、装置、计算设备以及介质 |
CN112055020A (zh) * | 2020-09-04 | 2020-12-08 | 北京明朝万达科技股份有限公司 | 报文筛选方法、装置及数据传输系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102143224A (zh) * | 2011-01-25 | 2011-08-03 | 张金海 | 基于手机上网用户行为的分析方法和装置 |
CN101593200B (zh) * | 2009-06-19 | 2012-10-03 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN102955807A (zh) * | 2011-08-26 | 2013-03-06 | 华为软件技术有限公司 | 一种关联信息的检索方法及装置 |
CN103235823A (zh) * | 2013-05-06 | 2013-08-07 | 上海河广信息科技有限公司 | 根据相关网页和当前行为确定用户当前兴趣的方法和系统 |
CN105138558A (zh) * | 2015-07-22 | 2015-12-09 | 山东大学 | 基于用户访问内容的实时个性化信息采集方法 |
-
2016
- 2016-03-10 CN CN201610136426.9A patent/CN105824884A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593200B (zh) * | 2009-06-19 | 2012-10-03 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN102143224A (zh) * | 2011-01-25 | 2011-08-03 | 张金海 | 基于手机上网用户行为的分析方法和装置 |
CN102955807A (zh) * | 2011-08-26 | 2013-03-06 | 华为软件技术有限公司 | 一种关联信息的检索方法及装置 |
CN103235823A (zh) * | 2013-05-06 | 2013-08-07 | 上海河广信息科技有限公司 | 根据相关网页和当前行为确定用户当前兴趣的方法和系统 |
CN105138558A (zh) * | 2015-07-22 | 2015-12-09 | 山东大学 | 基于用户访问内容的实时个性化信息采集方法 |
Non-Patent Citations (2)
Title |
---|
张莉: "《大学计算机教程》", 31 May 2015 * |
肖朝晖等: "《计算机网络基础》", 31 March 2011 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110895593A (zh) * | 2018-09-12 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及电子设备 |
CN110895593B (zh) * | 2018-09-12 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及电子设备 |
CN109246002A (zh) * | 2018-09-17 | 2019-01-18 | 武汉思普崚技术有限公司 | 一种深度安全网关与网元设备 |
CN109246002B (zh) * | 2018-09-17 | 2020-10-30 | 武汉思普崚技术有限公司 | 一种深度安全网关与网元设备 |
CN111427880A (zh) * | 2020-03-26 | 2020-07-17 | 中国工商银行股份有限公司 | 数据处理的方法、装置、计算设备以及介质 |
CN111427880B (zh) * | 2020-03-26 | 2023-09-05 | 中国工商银行股份有限公司 | 数据处理的方法、装置、计算设备以及介质 |
CN112055020A (zh) * | 2020-09-04 | 2020-12-08 | 北京明朝万达科技股份有限公司 | 报文筛选方法、装置及数据传输系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2865187C (en) | Method and system relating to salient content extraction for electronic content | |
CN107590169B (zh) | 一种运营商网关数据的预处理方法及系统 | |
US20140279751A1 (en) | Aggregation and analysis of media content information | |
WO2014180130A1 (en) | Method and system for recommending contents | |
CN104125209A (zh) | 恶意网址提示方法和路由器 | |
CN103744856A (zh) | 联动性扩展搜索方法及装置、系统 | |
CN102004770A (zh) | 一种网页审计方法及装置 | |
US20140331142A1 (en) | Method and system for recommending contents | |
CN105824884A (zh) | 一种用户上网信息处理方法及装置 | |
CN101853300A (zh) | 一种视频下载服务网站的识别、评估方法及系统 | |
CN104023046B (zh) | 移动终端识别方法和装置 | |
US10303747B2 (en) | Method, apparatus and system for controlling address input | |
Dongo et al. | A qualitative and quantitative comparison between Web scraping and API methods for Twitter credibility analysis | |
WO2015044934A1 (en) | A method for adaptively classifying sentiment of document snippets | |
CN105893584A (zh) | 一种显示收藏夹网址标签的方法、客户端和系统 | |
US20110099134A1 (en) | Method and System for Agent Based Summarization | |
CN104965902A (zh) | 一种富集化url的识别方法和装置 | |
KR102169143B1 (ko) | 유해 콘텐츠 웹 페이지 url 필터링 장치 | |
CN110633408B (zh) | 智能商业资讯的推荐方法和系统 | |
US20080010271A1 (en) | Methods for characterizing the content of a web page using textual analysis | |
CN111814068A (zh) | 一种ZeroNet博客及论坛文本抓取及分析方法 | |
KR101499685B1 (ko) | 키워드 트리 제공 방법 | |
KR101746594B1 (ko) | 웹 크롤러 기반 사용자 검색이력 추종 학습형 사용자 맞춤 검색정보 푸쉬 제공시스템 | |
CN104484417B (zh) | 一种收藏夹信息的生成方法和装置 | |
US11669588B2 (en) | Advanced data collection block identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160803 |
|
RJ01 | Rejection of invention patent application after publication |