CN102855248A - 一种用户特征信息的确定方法、装置及系统 - Google Patents
一种用户特征信息的确定方法、装置及系统 Download PDFInfo
- Publication number
- CN102855248A CN102855248A CN2011101802523A CN201110180252A CN102855248A CN 102855248 A CN102855248 A CN 102855248A CN 2011101802523 A CN2011101802523 A CN 2011101802523A CN 201110180252 A CN201110180252 A CN 201110180252A CN 102855248 A CN102855248 A CN 102855248A
- Authority
- CN
- China
- Prior art keywords
- url
- user
- web crawlers
- crawl
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种用户特征信息的确定方法、装置及系统,包括:确定用户使用用户终端已访问的网页的URL;并生成与确定的该URL对应的网络爬虫抓取任务;并执行生成的该网络爬虫抓取任务,抓取网页的页面内容;并对抓取的该页面内容进行分析,得到表征用户网络行为特征的第一类信息;以及根据得到的该第一类信息,确定该用户的特征信息。采用本发明实施例提供的方案,使得基于用户网络行为分析所确定的用户特征信息更全面。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种用户特征信息的确定方法、装置及系统。
背景技术
目前针对于移动用户使用用户终端享有网络服务行为的分析,主要包括基于用户通信行为的分析和用户消费行为的分析,并根据两者的分析结果确定用户的特征信息。例如,基于通信行为的分析得到的分析结果可以包括通话时长、主叫时长、上行短信量、入网时长等,基于消费行为的分析得到的分析结果可以包括总费用、数据业务费用、通话费等。相应的,基于这些分析结果确定出用户的特征信息,例如,可以包括用户消费能力信息、用户倾向的网络服务类型信息、用户享有网络服务的趋势等。在确定用户特征信息的基础上,可以基于用户的这些特征信息,有针对性的进行营销。
然而,随着3G时代的到来,用户可享有的网络服务更加丰富,所以传统的针对用户通信行为以及用户消费行为的分析,已经不足以全面的反应用户的网络行为习惯,从而所确定的用户特征信息也不能够全面的表征用户的特征。
发明内容
本发明实施例提供一种用户特征信息的确定方法、装置及系统,用以使得基于用户网络行为分析所确定的用户特征信息更全面。
本发明实施例提供一种用户特征信息的确定方法,包括:
确定用户使用用户终端已访问的网页的统一资源定位符URL;
生成与确定的所述URL对应的网络爬虫抓取任务;
执行生成的所述网络爬虫抓取任务,抓取网页的页面内容;
对抓取的所述页面内容进行分析,得到表征用户网络行为特征的第一类信息;
根据得到的所述第一类信息,确定所述用户的特征信息。
本发明实施例还提供一种用户特征信息的确定装置,包括:
第一确定单元,用于确定用户使用用户终端已访问的网页的统一资源定位符URL;
生成单元,用于生成与确定的所述URL对应的网络爬虫抓取任务;
执行单元,用于执行生成的所述网络爬虫抓取任务,抓取所述URL对应网页的页面内容;
分析单元,用于对抓取的所述页面内容进行分析,得到表征用户网络行为特征的第一类信息;
第二确定单元,用于根据得到的所述第一类信息,确定所述用户的特征信息。
本发明实施例提供的方法中,首先确定用户使用用户终端已访问的网页的统一资源定位符(URL,Uniform Resource Locator),并生成与确定的该URL对应的网络爬虫抓取任务,执行生成的该网络爬虫抓取任务,抓取网页的页面内容,并对抓取的页面内容进行分析,得到表征用户网络行为特征的第一类信息,以及根据得到的该第一类信息,确定用户的特征信息。由于上述方案中得到的表征用户网络行为特征的第一类信息,是通过对用户已访问网页的页面内容的分析得到的,所以该第一类信息不同于现有技术通过对用户通信行为和用户消费行为进行分析得到的信息,所以,根据得到的该第一类信息所确定的用户特征信息,也不同于现有技术中得到的用户特征信息,因此,采用本发明实施例提供的方案,能够使得基于用户网络行为分析所确定的用户特征信息更全面。
附图说明
图1为本发明实施例提供的用户特征信息的确定方法的流程图;
图2为本发明实施例1中提供的用户特征信息的确定方法的流程图;
图3为本发明实施例2中提供的用户特征信息的确定装置的结构示意图;
图4为本发明实施例3中提供的用户特征信息的确定系统的结构示意图。
具体实施方式
为了给出使得基于用户网络行为分析所确定的用户特征信息更全面的实现方案,本发明实施例提供了一种用户特征信息的确定方法、装置及系统,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种用户特征信息的确定方法,如图1所示,包括:
步骤S101、确定用户使用用户终端已访问的网页的URL。
步骤S102、生成与确定的该URL对应的网络爬虫抓取任务。
步骤S103、执行生成的该网络爬虫抓取任务,抓取网页的页面内容。
步骤S104、对抓取的该页面内容进行分析,得到表征用户网络行为特征的第一类信息。
步骤S105、根据得到的该第一类信息,确定该用户的特征信息。
下面结合附图,用具体实施例对本发明提供的方法及装置和相应系统进行详细描述。
实施例1:
本实施例1提供一种用户特征信息的确定方法,如图2所示,具体包括如下步骤:
步骤S201、用户使用用户终端能够访问网络,针对用户访问网络的这一行为,本步骤中,确定出用户使用用户终端已访问的网页的URL。
由于用户终端在访问网络时,将在网关留下用户访问日志文件,对于移动用户,是在无线应用协议(WAP,Wireless Application Protocol)网关留下用户访问日志文件,用户访问日志文件中则存在用户信息及对应用户已访问的网页的URL,所以,本实施例具体可以采用如下方式:
首先获取网关保存的用户访问日志文件,然后对获取的该用户访问日志文件的内容进行分析,提取其中的用户信息,并从该用户访问日志文件的内容中,确定提取的该用户信息对应的用户已访问的网页的URL。
步骤S202、本步骤对已确定出的用户已访问的网页的URL进行过滤处理,具体的过滤策略可根据实际需要进行设置。例如,当后续对抓取的页面内容进行分析是进行文本分析时,则可在此设置过滤策略为:保留本文类网页对应的URL,丢弃非文本类网页的URL。
较佳的,本实施例1中,在后续生成URL对应的网络爬虫抓取任务后,还可保存已对应生成网络爬虫抓取任务的URL,并在本步骤的URL过滤处理中,保留未对应生成过网络爬虫抓取任务的URL,丢弃已对应生成过网络爬虫抓取任务的URL。但对于这类已对应生成过网络爬虫抓取任务的URL,可直接获取对应的网络爬虫抓取任务的执行结果,以便进行后续处理,或者也可以直接获取针对该对应的网络爬虫抓取任务所得到的表征用户网络行为特征的第一类信息,或者所确定的用户的特征信息。
执行本步骤S202的目的是为了后续有选择的生成网络爬虫抓取任务,以便提高本实施例1方案的处理效率,所以,本步骤S202为可选步骤,当不执行本步骤时,可在执行完上述步骤S201后直接进入后续步骤S203。
步骤S203、在确定出用户已访问的网页的URL后,即可对应该用户,生成与确定的该URL对应的网络爬虫抓取任务。
如果方案中包括上述步骤S202中的过滤处理步骤,则相应的,生成与过滤处理后保留的URL对应的网络爬虫抓取任务,例如,生成与保留的文本类网页对应的URL对应的网络爬虫抓取任务。
步骤S204、在生成网络爬虫抓取任务后,即可执行生成的网络爬虫抓取任务,抓取网页的页面内容。目前现有技术中,分布式爬虫系统多采用基于二级散列映射的任务分割调度策略,主要是基于均匀分配的策略进行爬虫任务的分配,没有考虑爬虫任务优先级的影响和执行爬虫任务的爬虫服务器的负载情况,从而使得爬虫系统的爬虫任务调度不合理,进而导致整个爬虫系统处理爬虫任务的效率较低。
本实施例1中,为解决这一问题,在上述步骤S203中生成网络爬虫抓取任务后,在本步骤S204中还确定生成的网络爬虫抓取任务的优先级,具体可基于URL的页面重要性指标值、抓取频率指标值和页面深度指标值这三个指标值之一,或三个指标值中的任意组合,确定生成的该网络爬虫抓取任务的优先级。
优先级设置策略为:当其它指标值相同时,页面重要性指标值越大,所设置的优先级越高;当其它指标值相同时,抓取频率指标值越大,所设置的优先级越高;当其它指标值相同时,页面深度指标值越小,所设置的优先级越高。较佳的,具体可采用如下方式确定:
确定网络爬虫抓取任务的优先级权重值为URL的页面重要性评价因子、抓取频率评价因子和页面深度评价因子的负数中至少两项的和值,优先级权重值越大,该URL对应的网络爬虫抓取任务的优先级越高;
其中,页面重要性评价因子采用如下公式计算:
其中,αi为当前已生成且未执行的各网络爬虫抓取任务分别对应的各URL中第i个URL的页面重要性评价因子,该各URL可保存在URL队列中,PRi为第i个URL的页面重要性指标值,min(PR)为队列中各URL的页面重要性指标值中的最小值,max(PR)为队列中各URL的页面重要性指标值中的最大值。本实施例中,URL页面重要性指标值,即pagerank值可采用现有技术中的基于网络拓扑的PageRank算法确定,在此不再进行详细描述。
抓取频率评价因子采用如下公式计算:
本实施例中,URL的页面抓取频率是对应于URL的抓取策略的指标值,内容分析为了保持对URL对应网页更新的追踪,需要按照一定频率对URL进行重新抓取,上述抓取频率指标值即当前重新抓取该URL的抓取频率,具体可采用如下公式计算Fi:
Fi=FB*fi(T),其中,Fi为第i个URL的当前抓取频率指标值,FB为预设的基准抓取频率,fi(T)为在上一个抓取频率调整周期T内第i个URL对应网页存在更新的比率统计,即在上一个抓取频率调整周期T内,采用上一个抓取频率抓取该第i个URL时对应网页发生更新的次数与抓取该第i个URL的总次数的比值。本实施例中,抓取频率调整周期T和基准抓取频率FB可根据实际需要进行设置。
通过实际验证,发现抓取频率较另外两个指标值而言,其取值的分布差异较大,存在分布不均的情况,如果单采用上述计算βi的公式做线性归一化处理,可能会造成衰减过急而使得到的βi成为决定性因子的问题。因此,较佳的,本实施例1中可基于线性归一化函数处理后得到结果,然后经过Sigmoid函数处理,以使得βi的分布区间更平滑,具体如下:
页面深度评价因子采用如下公式计算:
本实施例中,当第i个URL为一级URL时,即该第i个URL不包含子目录结构,且非其他网页中的导航组件所指向的目标页面对应的URL,Di取值为0;
当第i个URL为非一级URL时,分两种情况确定Di,其中,第一种情况是第i个URL包含子目录结构,此时Di为第i个URL中子目录的层数;第二种情况是第i个URL不包含子目录结构,但为其他网页中的导航组件所指向的目标页面对应的URL,假设第i个URL对应的网页是由其他网页中的导航组件经过N次指向后的页面,则此时Di可取N值,但由于实际中N值难以确定,所以,本实施例可根据当前实际网络拓扑的特点,Di取设定值,例如,取值为3。
在采用上述公式计算出αi、βi和γi后,第i个URL对应网络爬虫抓取任务的优先级权重值Qi为:Qi=αi+βi-γi,Qi值越大,对应的网络爬虫抓取任务的优先级越高。
步骤S205、通过上述步骤S204中的方案确定出当前已生成且未执行的各网络爬虫抓取任务的优先级后,即可按照优先级从高到低的顺序,执行已生成的网络爬虫抓取任务,例如,从队列中优先提取优先级高的网路爬虫抓取任务,分配给执行任务的爬虫服务器。
为了提高网络爬虫抓取任务的处理效率,本实施例1中采用分布式爬虫系统,即使用多个爬虫服务器组成一组爬虫服务器,并行的处理网络爬虫抓取任务。
本步骤中,可采用加权最小连接调度算法分配网络爬虫抓取任务,即在将已生成的各网络爬虫抓取任务分配给这多个爬虫服务器时,可基于各爬虫服务器的当前负载情况和执行网络爬虫抓取任务与网络的连接情况,选择一个爬虫服务器,并将当前待分配的网络爬虫抓取任务分配给选择的该爬虫服务器,由该爬虫服务器执行该网络爬虫抓取任务,具体方案如下:
采用如下公式计算用于执行网络爬虫抓取任务的一组爬虫服务器中各爬虫服务器的调度参考值:
从各爬虫服务器中选择调度参考值最小的爬虫服务器,执行当前待分配的网络爬虫抓取任务。
本步骤中,爬虫服务器执行分配到的网络爬虫抓取任务,具体可以为:确定该网络爬虫抓取任务对应的URL,该URL也可称作种子URL,然后访问该种子URL对应的网页,从网页中抓取页面内容,并根据抓取的内容解析出其中包含的URL链接,再访问包含的该URL链接对应的网页,从网页中抓取页面内容,依次类推,并可将所抓取的页面内容进行保存,以便后续进行分析。
本实施例中,在执行网络爬虫抓取任务的过程中,可预先设置任务终止执行的条件,例如,可在抓取的页面所对应的URL相比种子URL的深度值达到设定最大值时,终止该网络爬虫抓取任务的执行;或者,当抓取的页面内容未包含URL链接时,即可停止该网络爬虫抓取任务的执行;或者,考虑到抓取页面内容的目的是在后续步骤S104中对其进行分析,并得到表征用户网络行为特征的信息,所以,只需要抓取的页面内容足够用于后续得到用户网络行为特征的信息即可,如抓取的页面内容满足设定内容数量即可。
本实施例1中,可将通过执行网络爬虫抓取任务所抓取到的网页的页面内容进行存储,用于后续对其进行分析时使用。
步骤S206、对上述步骤S205中抓取的页面内容进行分析,得到表征用户网络行为特征的信息(为描述方便,将得到的该类信息称作第一类信息)。
具体的,本步骤中可以对抓取的页面内容进行文本分析,例如采用分词、关键词挖掘等文本分析技术进行分析,具体如下:
获取抓取的页面内容,并对页面内容中包括的头文件区域(html语法head区域)、页面标题区域(html语法title标签)、正文区域(html语法body区域或手工配置模板获取的指定内容区域)、网页导航区、交互区(搜索框、登录框等)、广告区(页面投放各类广告的区域)等进行识别,并对选定区域所包含的文本内容进行分词分析,即按照设定词过滤策略过滤掉干扰词,如去除采用JS语法、CSS语法或系统定义的干扰词,并利用词语映射表规则、语义结构表对文本内容进行量化,得到各词语,并通过关键词挖掘技术区分出网页的主题信息和关键词,最后与本地训练的知识库匹配,标注出该页面内容对应网页的内容特征信息,将该内容特征信息作为表征用户网络行为特征的第一类信息。
例如,通过执行网路爬虫抓取任务得到的页面内容所包含的网页头文件中,包含“<meta http-equiv=″Content-Type″content=″text/html;charset=gb2312″>”信息,说明这是简体中文类内容,需要以分析中文内容为主。若网页标题为“菜贱伤农,菜贵伤民”,同时正文区域内容中出现一定频率的“蔬菜滞销”、“农民损失”等词语,则将该页面内容特征信息确定为“民生时事类”;若正文区域内容中出现较多体育类词语,可将该页面内容特征信息确定为“体育竞技类”,其中“民生时事类”和“体育竞技类”可为预先设置的信息集合所包括的特征信息,该页面内容特征信息一定程度上表征了该用户所关注的网页内容类别信息,所以该页面内容特征信息可以作为表征用户网络行为特征的信息。
步骤S207、根据得到的上述第一类信息,确定该用户的特征信息。
较简单的,可将上述得到的第一类信息,直接确定为该用户的特征信息,例如,将上述步骤S206中页面内容特征信息,确定为该用户所关注的网页内容类别信息。
还可以根据上述第一类信息,间接确定出该用户的特征信息,例如,确定出用户的网站偏好信息、内容偏好信息、上网时段偏好信息等。
较佳的,本步骤中,还可以获取表征用户的通信行为特征的第二类信息,以及表征用户的消费行为特征的第三类信息,以及用户的身份信息,并将这三种信息之一或者这三种信息中任意至少两种信息的组合,与上述步骤S206中得到的第一类信息相结合,确定出用户的特征信息。
其中,表征用户的通信行为特征的第二类信息具体可以包括:通话时长、主叫时长、短信量、上行点对点短信量、GPRS流量等信息;表征用户的消费行为特征的第三类信息具体可以包括:总费用、固定费用、通话费用、点对点短信费、数据业务费等;用户的身份信息具体可以包括:用户性别、年龄、以及用户所使用用户终端的终端类型等。
将这三种信息与第一类信息相结合,确定出用户的特征信息,具体可以包括用户消费能力信息、用户倾向的网络服务类型信息、用户享有网络服务的趋势等。
本发明上述实施例1提供的用户特征信息确定方法中,由于所确定的表征用户网络行为特征的第一类信息,是通过对用户已访问网页的页面内容的分析得到的,所以该第一类信息不同于现有技术通过对用户通信行为和用户消费行为进行分析得到的信息,所以,根据得到的该第一类信息所确定的用户特征信息,也不同于现有技术中得到的用户特征信息,因此,采用本发明实施例提供的方案,能够使得基于用户网络行为分析所确定的用户特征信息更全面。
并且,对于生成的网络爬虫抓取任务,基于URL的页面重要性指标值、抓取频率指标值和/或页面深度指标值,确定了对应的优先级,相应的,按照优先级从高到低的顺序,执行已生成的网络爬虫抓取任务,从而使得爬虫系统的爬虫任务调度更合理,进而提高了处理爬虫任务的效率。
并且,在执行网络爬虫抓取任务时,基于分布式爬虫系统,并采用上述加权最小连接调度算法,为各爬虫服务器分配网络爬虫抓取任务,因此进一步提高了处理爬虫任务的效率。
实施例2:
基于同一发明构思,根据本发明上述实施例提供的用户特征信息的确定方法,相应地,本发明实施例2还提供了一种用户特征信息的确定装置,其结构示意图如图3所示,具体包括:
第一确定单元301,用于确定用户使用用户终端已访问的网页的统一资源定位符URL;
生成单元302,用于生成与确定的所述URL对应的网络爬虫抓取任务;
执行单元303,用于执行生成的所述网络爬虫抓取任务,抓取所述URL对应网页的页面内容;
分析单元304,用于对抓取的所述页面内容进行分析,得到表征用户网络行为特征的第一类信息;
第二确定单元305,用于根据得到的所述第一类信息,确定所述用户的特征信息。
较佳的,生成单元302,还用于基于所述URL的页面重要性指标值、抓取频率指标值和页面深度指标值中的至少一种指标值,确定生成的所述网络爬虫抓取任务的优先级;
所述执行单元303,具体用于按照所述优先级从高到低的顺序,执行生成的所述网络爬虫抓取任务。
较佳的,生成单元302,具体用于确定所述网络爬虫抓取任务的优先级权重值为所述URL的页面重要性评价因子、抓取频率评价因子和页面深度评价因子的负数中至少两项的和值,所述优先级权重值越大,所述URL对应的网络爬虫抓取任务的优先级越高;
其中,所述页面重要性评价因子采用如下公式计算:
其中,αi为当前已生成且未执行的各网络爬虫抓取任务分别对应的各URL中第i个URL的页面重要性评价因子,PRi为所述第i个URL的页面重要性指标值,min(PR)为所述各URL的页面重要性指标值中的最小值,max(PR)为所述各URL的页面重要性指标值中的最大值;
所述抓取频率评价因子采用如下公式计算:
或其中,βi为当前已生成且未执行的各网络爬虫抓取任务分别对应的各URL中第i个URL的抓取频率评价因子,Fi为所述第i个URL的抓取频率指标值,min(F)为所述各URL的抓取频率指标值中的最小值,max(F)为所述各URL的抓取频率指标值中的最大值,a基于βi所需的取值范围进行确定;
所述页面深度评价因子采用如下公式计算:
其中,γi为当前已生成且未执行的各网络爬虫抓取任务分别对应的各URL中第i个URL的页面深度评价因子,Di为所述第i个URL的页面深度指标值,min(D)为所述各URL的页面重要性指标值中的最小值,max(D)为所述各URL的页面重要性指标值中的最大值。
较佳的,所述执行单元303,具体用于采用如下公式计算用于执行网络爬虫抓取任务的一组爬虫服务器中各爬虫服务器的调度参考值,并从所述各爬虫服务器中选择所述调度参考值最小的爬虫服务器,执行当前待分配的网络爬虫抓取任务:
较佳的,第二确定单元305,具体用于将得到的所述第一类信息,确定为所述用户的特征信息;或者将表征所述用户的通信行为特征的第二类信息、表征所述用户的消费行为特征的第三类信息和/或所述用户的身份信息,与得到的所述第一类信息相结合,确定所述用户的特征信息。
较佳的,分析单元304,具体用于对抓取的所述页面内容进行文本分析。
较佳的,生成单元302,还用于在生成单元302生成与确定的所述URL对应的网络爬虫抓取任务前,对确定的所述URL进行过滤,保留文本类网页对应的URL;并具体用于生成与保留的文本类网页对应的URL对应的网络爬虫抓取任务。
第一确定单元301,具体用于获取网关保存的用户访问日志文件;并对所述用户访问日志文件的内容进行分析,提取用户信息;以及从所述用户访问日志文件的内容中,确定所述用户信息对应的用户已访问的网页的URL。
实施例3:
基于同一发明构思,根据本发明上述实施例提供的用户特征信息的确定方法,相应地,本发明实施例2还提供了一种用户特征信息的确定系统,其结构示意图如图4所示,具体包括:分析服务器401和爬虫服务器402,其中:
分析服务器401,用于确定用户使用用户终端已访问的网页的统一资源定位符URL;并生成与确定的所述URL对应的网络爬虫抓取任务;以及对爬虫服务器402执行所述网络爬虫抓取任务后抓取的页面内容进行分析,得到表征用户网络行为特征的第一类信息;并根据得到的所述第一类信息,确定所述用户的特征信息;
爬虫服务器402,用于执行分析服务器401生成的所述网络爬虫抓取任务,抓取所述URL对应网页的所述页面内容。
较佳的,上述系统,还包括:ETL(Extraction-Transformation-Loading,数据提取、转换和加载)调度中心403;
ETL调度中心403,用于获取无线应用协议WAP网关保存的用户访问日志文件;
数据库服务器404,用于存储ETL调度中心403获取的所述用户访问日志文件;还可以用于存储爬虫服务器402抓取的页面内容,以及还可以存储确定的用户的特征信息。
分析服务器401,具体用于对数据库服务器404中存储的所述用户访问日志文件的内容进行分析,提取用户信息;并从所述用户访问日志文件的内容中,确定所述用户信息对应用户已访问的网页的URL。
较佳的,分析服务器401,具体用于将得到的所述第一类信息,确定为所述用户的特征信息;或者将表征所述用户的通信行为特征的第二类信息、表征所述用户的消费行为特征的第三类信息和/或所述用户的身份信息,与得到的所述第一类信息相结合,确定所述用户的特征信息。
较佳的,分析服务器401,具体用于对抓取的所述页面内容进行文本分析。
较佳的,分析服务器401,还用于在生成与确定的所述URL对应的网络爬虫抓取任务前,对确定的所述URL进行过滤,保留文本类网页对应的URL,丢弃非文本类网页对应的URL;并具体用于生成与保留的文本类网页对应的URL对应的网络爬虫抓取任务。
较佳的,分析服务器401,还用于在生成与确定的所述URL对应的网络爬虫抓取任务后,基于所述URL的页面重要性指标值、抓取频率指标值和/或页面深度指标值,确定生成的所述网络爬虫抓取任务的优先级,所述页面重要性指标值和所述抓取频率指标值越大,所述优先级越高,所述页面深度指标值越小,所述优先级越高;并按照所述优先级从高到低的顺序,将网络爬虫抓取任务分配给所述爬虫服务器。
较佳的,分析服务器401,具体用于确定所述网络爬虫抓取任务的优先级权重值为所述URL的页面重要性评价因子、抓取频率评价因子和页面深度评价因子的负数中至少两项的和值,所述优先级权重值越大,所述URL对应的网络爬虫抓取任务的优先级越高;
其中,所述页面重要性评价因子采用如下公式计算:
其中,αi为当前已生成且未执行的各网络爬虫抓取任务分别对应的各URL中第i个URL的页面重要性评价因子,PRi为所述第i个URL的页面重要性指标值,min(PR)为所述各URL的页面重要性指标值中的最小值,max(PR)为所述各URL的页面重要性指标值中的最大值;
所述抓取频率评价因子采用如下公式计算:
或其中,βi为当前已生成且未执行的各网络爬虫抓取任务分别对应的各URL中第i个URL的抓取频率评价因子,Fi为所述第i个URL的抓取频率指标值,min(F)为所述各URL的抓取频率指标值中的最小值,max(F)为所述各URL的抓取频率指标值中的最大值,a基于βi所需的取值范围进行确定;
所述页面深度评价因子采用如下公式计算:
其中,γi为当前已生成且未执行的各网络爬虫抓取任务分别对应的各URL中第i个URL的页面深度评价因子,Di为所述第i个URL的页面深度指标值,min(D)为所述各URL的页面重要性指标值中的最小值,max(D)为所述各URL的页面重要性指标值中的最大值。
较佳的,分析服务器401,具体用于采用如下公式计算用于执行网络爬虫抓取任务的一爬虫组服务器中各爬虫服务器的调度参考值:
从所述各爬虫服务器中选择所述调度参考值最小的爬虫服务器,将当前待分配的网络爬虫抓取任务分配给选择的该爬虫服务器。
较佳的,上述系统,还包括:
WEB服务器405,用于展示确定的用户的特征信息。
综上所述,本发明实施例提供的方案,包括:确定用户使用用户终端已访问的网页的URL;并生成与确定的该URL对应的网络爬虫抓取任务;并执行生成的该网络爬虫抓取任务,抓取网页的页面内容;并对抓取的该页面内容进行分析,得到表征用户网络行为特征的第一类信息;以及根据得到的该第一类信息,确定该用户的特征信息。采用本发明实施例提供的方案,使得基于用户网络行为分析所确定的用户特征信息更全面。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (13)
1.一种用户特征信息的确定方法,其特征在于,包括:
确定用户使用用户终端已访问的网页的统一资源定位符URL;
生成与确定的所述URL对应的网络爬虫抓取任务;
执行生成的所述网络爬虫抓取任务,抓取网页的页面内容;
对抓取的所述页面内容进行分析,得到表征用户网络行为特征的第一类信息;
根据得到的所述第一类信息,确定所述用户的特征信息。
2.如权利要求1所述的方法,其特征在于,根据得到的所述第一类信息,确定所述用户的特征信息,具体包括:
将得到的所述第一类信息,确定为所述用户的特征信息;或者
将表征所述用户的通信行为特征的第二类信息、表征所述用户的消费行为特征的第三类信息和所述用户的身份信息中的至少一种信息,与得到的所述第一类信息相结合,确定所述用户的特征信息。
3.如权利要求1所述的方法,其特征在于,对抓取的所述页面内容进行分析,具体为:
对抓取的所述页面内容进行文本分析。
4.如权利要求3所述的方法,其特征在于,在生成与确定的所述URL对应的网络爬虫抓取任务前,还包括:
对确定的所述URL进行过滤,保留文本类网页对应的URL;
生成与确定的所述URL对应的网络爬虫抓取任务,具体为:
生成与保留的文本类网页对应的URL对应的网络爬虫抓取任务。
5.如权利要求1所述的方法,其特征在于,确定用户使用用户终端已访问的网页的URL,具体包括:
获取网关保存的用户访问日志文件;
对所述用户访问日志文件的内容进行分析,提取用户信息;
从所述用户访问日志文件的内容中,确定所述用户信息对应的用户已访问的网页的URL。
6.如权利要求1所述的方法,其特征在于,在生成与确定的所述URL对应的网络爬虫抓取任务后,还包括:
基于所述URL的页面重要性指标值、抓取频率指标值和页面深度指标值中的至少一种指标值,确定生成的所述网络爬虫抓取任务的优先级;
执行生成的所述网络爬虫抓取任务,具体为:
按照所述优先级从高到低的顺序,执行生成的所述网络爬虫抓取任务。
7.如权利要求6所述的方法,其特征在于,基于所述URL的页面重要性指标值、抓取频率指标值和页面深度指标值中的至少一种指标值,确定生成的所述网络爬虫抓取任务的优先级,具体包括:
确定所述网络爬虫抓取任务的优先级权重值为所述URL的页面重要性评价因子、抓取频率评价因子和页面深度评价因子的负数中至少两项的和值,所述优先级权重值越大,所述URL对应的网络爬虫抓取任务的优先级越高;
其中,所述页面重要性评价因子采用如下公式计算:
其中,αi为当前已生成且未执行的各网络爬虫抓取任务分别对应的各URL中第i个URL的页面重要性评价因子,PRi为所述第i个URL的页面重要性指标值,min(PR)为所述各URL的页面重要性指标值中的最小值,max(PR)为所述各URL的页面重要性指标值中的最大值;
所述抓取频率评价因子采用如下公式计算:
或其中,βi为当前已生成且未执行的各网络爬虫抓取任务分别对应的各URL中第i个URL的抓取频率评价因子,Fi为所述第i个URL的抓取频率指标值,min(F)为所述各URL的抓取频率指标值中的最小值,max(F)为所述各URL的抓取频率指标值中的最大值,a基于βi所需的取值范围进行确定;
所述页面深度评价因子采用如下公式计算:
9.一种用户特征信息的确定装置,其特征在于,包括:
第一确定单元,用于确定用户使用用户终端已访问的网页的统一资源定位符URL;
生成单元,用于生成与确定的所述URL对应的网络爬虫抓取任务;
执行单元,用于执行生成的所述网络爬虫抓取任务,抓取所述URL对应网页的页面内容;
分析单元,用于对抓取的所述页面内容进行分析,得到表征用户网络行为特征的第一类信息;
第二确定单元,用于根据得到的所述第一类信息,确定所述用户的特征信息。
10.如权利要求9所述的装置,其特征在于,所述生成单元,还用于基于所述URL的页面重要性指标值、抓取频率指标值和页面深度指标值中的至少一种指标值,确定生成的所述网络爬虫抓取任务的优先级;
所述执行单元,具体用于按照所述优先级从高到低的顺序,执行生成的所述网络爬虫抓取任务。
12.一种用户特征信息的确定系统,其特征在于,包括分析服务器和爬虫服务器,其中:
分析服务器,用于确定用户使用用户终端已访问的网页的统一资源定位符URL;并生成与确定的所述URL对应的网络爬虫抓取任务;以及对爬虫服务器执行所述网络爬虫抓取任务后抓取的页面内容进行分析,得到表征用户网络行为特征的第一类信息;并根据得到的所述第一类信息,确定所述用户的特征信息;
爬虫服务器,用于执行所述分析服务器生成的所述网络爬虫抓取任务,抓取所述URL对应网页的所述页面内容。
13.如权利要求12所述的系统,其特征在于,还包括:
ETL调度中心,用于获取网关保存的用户访问日志文件;
数据库服务器,用于存储所述ETL调度中心获取的所述用户访问日志文件;
所述分析服务器,具体用于对所述数据库服务器中存储的所述用户访问日志文件的内容进行分析,提取用户信息;并从所述用户访问日志文件的内容中,确定所述用户信息对应的用户已访问的网页的URL。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101802523A CN102855248A (zh) | 2011-06-29 | 2011-06-29 | 一种用户特征信息的确定方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101802523A CN102855248A (zh) | 2011-06-29 | 2011-06-29 | 一种用户特征信息的确定方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102855248A true CN102855248A (zh) | 2013-01-02 |
Family
ID=47401841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101802523A Pending CN102855248A (zh) | 2011-06-29 | 2011-06-29 | 一种用户特征信息的确定方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102855248A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318255A (zh) * | 2014-11-17 | 2015-01-28 | 成都品果科技有限公司 | 一种移动拍照类app用户的性别识别方法及系统 |
CN105205180A (zh) * | 2015-10-27 | 2015-12-30 | 无锡天脉聚源传媒科技有限公司 | 一种知识图谱的评价方法及装置 |
CN105224691A (zh) * | 2015-10-30 | 2016-01-06 | 北京网康科技有限公司 | 一种信息处理方法及装置 |
CN105677862A (zh) * | 2016-01-08 | 2016-06-15 | 上海数道信息科技有限公司 | 一种抓取网页内容的方法及装置 |
CN106126573A (zh) * | 2016-06-17 | 2016-11-16 | 北京大学 | 网络用户的特征识别方法 |
CN106230809A (zh) * | 2016-07-27 | 2016-12-14 | 南京快页数码科技有限公司 | 一种基于url的移动互联网舆情监测方法及系统 |
CN106844588A (zh) * | 2017-01-11 | 2017-06-13 | 上海斐讯数据通信技术有限公司 | 一种基于网络爬虫的用户行为数据的分析方法及系统 |
CN106855864A (zh) * | 2015-12-09 | 2017-06-16 | 北京秒针信息咨询有限公司 | 一种提取信息的方法和装置 |
CN107463688A (zh) * | 2017-08-10 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于网络爬虫技术的混合搜索方法 |
CN108712503A (zh) * | 2018-05-30 | 2018-10-26 | 南京邮电大学 | 一种网络负载均衡的多代理分布式爬虫系统和方法 |
WO2019062077A1 (zh) * | 2017-09-28 | 2019-04-04 | 平安科技(深圳)有限公司 | 计算任务的资源监测方法、装置、设备及可读存储介质 |
WO2020164269A1 (zh) * | 2019-02-15 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于用户群组的消息推送方法、装置及计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6981040B1 (en) * | 1999-12-28 | 2005-12-27 | Utopy, Inc. | Automatic, personalized online information and product services |
CN101655868A (zh) * | 2009-09-03 | 2010-02-24 | 中国人民解放军信息工程大学 | 网络数据挖掘方法、网络数据推送方法及设备 |
-
2011
- 2011-06-29 CN CN2011101802523A patent/CN102855248A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6981040B1 (en) * | 1999-12-28 | 2005-12-27 | Utopy, Inc. | Automatic, personalized online information and product services |
CN101655868A (zh) * | 2009-09-03 | 2010-02-24 | 中国人民解放军信息工程大学 | 网络数据挖掘方法、网络数据推送方法及设备 |
Non-Patent Citations (1)
Title |
---|
白鹤: "分布式多主题网络爬虫系统的研究与实现", 《计算机工程》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318255B (zh) * | 2014-11-17 | 2017-10-13 | 成都品果科技有限公司 | 一种移动拍照类app用户的性别识别方法及系统 |
CN104318255A (zh) * | 2014-11-17 | 2015-01-28 | 成都品果科技有限公司 | 一种移动拍照类app用户的性别识别方法及系统 |
CN105205180A (zh) * | 2015-10-27 | 2015-12-30 | 无锡天脉聚源传媒科技有限公司 | 一种知识图谱的评价方法及装置 |
CN105205180B (zh) * | 2015-10-27 | 2018-08-24 | 无锡天脉聚源传媒科技有限公司 | 一种知识图谱的评价方法及装置 |
CN105224691B (zh) * | 2015-10-30 | 2019-03-26 | 北京网康科技有限公司 | 一种信息处理方法及装置 |
CN105224691A (zh) * | 2015-10-30 | 2016-01-06 | 北京网康科技有限公司 | 一种信息处理方法及装置 |
CN106855864A (zh) * | 2015-12-09 | 2017-06-16 | 北京秒针信息咨询有限公司 | 一种提取信息的方法和装置 |
CN105677862A (zh) * | 2016-01-08 | 2016-06-15 | 上海数道信息科技有限公司 | 一种抓取网页内容的方法及装置 |
CN106126573A (zh) * | 2016-06-17 | 2016-11-16 | 北京大学 | 网络用户的特征识别方法 |
CN106126573B (zh) * | 2016-06-17 | 2019-04-02 | 北京大学 | 网络用户的特征识别方法 |
CN106230809A (zh) * | 2016-07-27 | 2016-12-14 | 南京快页数码科技有限公司 | 一种基于url的移动互联网舆情监测方法及系统 |
CN106230809B (zh) * | 2016-07-27 | 2019-11-19 | 南京快页数码科技有限公司 | 一种基于url的移动互联网舆情监测方法及系统 |
CN106844588A (zh) * | 2017-01-11 | 2017-06-13 | 上海斐讯数据通信技术有限公司 | 一种基于网络爬虫的用户行为数据的分析方法及系统 |
CN107463688A (zh) * | 2017-08-10 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于网络爬虫技术的混合搜索方法 |
WO2019062077A1 (zh) * | 2017-09-28 | 2019-04-04 | 平安科技(深圳)有限公司 | 计算任务的资源监测方法、装置、设备及可读存储介质 |
CN108712503A (zh) * | 2018-05-30 | 2018-10-26 | 南京邮电大学 | 一种网络负载均衡的多代理分布式爬虫系统和方法 |
CN108712503B (zh) * | 2018-05-30 | 2021-06-22 | 南京邮电大学 | 一种网络负载均衡的多代理分布式爬虫系统和方法 |
WO2020164269A1 (zh) * | 2019-02-15 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于用户群组的消息推送方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102855248A (zh) | 一种用户特征信息的确定方法、装置及系统 | |
CN103020845B (zh) | 一种移动应用的推送方法及系统 | |
CN105224623B (zh) | 数据模型的训练方法及装置 | |
CN107291841A (zh) | 一种基于位置和用户画像智能匹配社交目标的方法和系统 | |
CN103106259B (zh) | 一种基于情境的移动网页内容推荐方法 | |
CN102708174B (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN103428267B (zh) | 一种智慧缓存系统及其区分用户喜好相关性的方法 | |
CN105306495B (zh) | 用户识别方法和装置 | |
CN106503015A (zh) | 一种构建用户画像的方法 | |
CN102591942A (zh) | 一种应用自动推荐的方法及装置 | |
US20070214207A1 (en) | Method and system for accurate issuance of data information | |
CN105023165A (zh) | 社交网络平台中投放任务的控制方法、装置及系统 | |
CN107315810A (zh) | 一种物联网设备行为画像方法 | |
CN103295145A (zh) | 一种基于用户消费特征向量的手机广告投放方法 | |
CN105989074A (zh) | 一种通过移动设备信息进行推荐冷启动的方法和装置 | |
CN110110221A (zh) | 政务数据智能推荐方法和系统 | |
CN103970891B (zh) | 一种基于情境的用户兴趣信息查询方法 | |
CN103218431A (zh) | 一种能识别网页信息自动采集的系统与方法 | |
CN110019616A (zh) | 一种poi现势状态获取方法及其设备、存储介质、服务器 | |
CN107870986A (zh) | 基于爬虫数据的用户行为分析方法、应用服务器及计算机可读存储介质 | |
CN104504096B (zh) | 一种跨网页的信息传输方法和网页浏览装置 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN105608121A (zh) | 一种个性化推荐方法及装置 | |
Chmiel et al. | Scaling of human behavior during portal browsing | |
CN101739402A (zh) | 一种兴趣分析的方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130102 |