CN101655868A - 网络数据挖掘方法、网络数据推送方法及设备 - Google Patents

网络数据挖掘方法、网络数据推送方法及设备 Download PDF

Info

Publication number
CN101655868A
CN101655868A CN200910172044A CN200910172044A CN101655868A CN 101655868 A CN101655868 A CN 101655868A CN 200910172044 A CN200910172044 A CN 200910172044A CN 200910172044 A CN200910172044 A CN 200910172044A CN 101655868 A CN101655868 A CN 101655868A
Authority
CN
China
Prior art keywords
user
data
url
network
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910172044A
Other languages
English (en)
Other versions
CN101655868B (zh
Inventor
陈庶樵
扈红超
伊鹏
张果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN2009101720441A priority Critical patent/CN101655868B/zh
Publication of CN101655868A publication Critical patent/CN101655868A/zh
Application granted granted Critical
Publication of CN101655868B publication Critical patent/CN101655868B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种网络数据挖掘方法、推送方法及设备,所述网络数据挖掘方法包括:根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;判别所述用户访问的URL所属的类别;根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别。由于本发明预先通过对用户数据的挖掘获取了用户感兴趣的类别,因此当用户访问网页属于其感兴趣类别时,可以有针对性地将与感兴趣的类别一致的网络数据推送给用户页面,由于不再采用广而告之的方式推送网络数据,因此提高了推送的针对性,降低了对网络带宽的占用,同时提高了用户的访问体验。

Description

网络数据挖掘方法、网络数据推送方法及设备
技术领域
本发明涉及计算机网络领域,尤其涉及一种网络数据挖掘方法、网络数据推送方法及设备。
背景技术
随着网络技术的发展,传统的网络运营商主要采用带宽营销方式进行信息推广。以广告信息为例,众多的搜索引擎提供商、浏览器提供商、下载工具提供商、或者一般的WEB网站都构建了网络广告平台,广告平台通常采用“广而告之”的方式向所有网络用户提供广告服务。
在对现有技术的研究和实践过程中,发明人发现采用广而告之的方式向网络用户提供网络信息时,如果用户访问了某个网站,则均向用户展示广告信息,而不管该用户是否对该广告信息感兴趣,因此当大量用户访问该网站时,将占用大量网络带宽资源,并且向用户推送不感兴趣的广告信息,将极大降低用户的访问体验。
发明内容
本发明实施例的目的是提供一种网络数据挖掘方法、网络数据推送方法及设备,以解决现有网络信息的推送方式由于针对性不强,占用网络带宽资源且降低用户访问体验的问题。
为解决上述技术问题,本发明实施例提供如下技术方案:
一种网络数据挖掘方法,包括:
根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;
判别所述用户访问的URL所属的类别;
根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别。
所述数据采集规则包括:规则特征和规则动作;
所述规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。
所述采集网络中与所述数据采集规则匹配的用户数据包括:
采集网络中符合所述规则特征的用户数据;
判断与所述规则特征对应的规则动作类型,如果为统计,则根据所述用户数据获取统计数据,包括用户使用网络的时长、用户带宽使用情况、用户流量使用信息,如果为复制,则根据所述用户数据获取复制数据,包括用户标识、用户访问的URL、用户访问URL时长。
所述采集网络中与所述数据采集规则匹配的用户数据之后,还包括:保存所述统计数据和复制数据到数据库。
所述判别所述用户访问的URL所属的类别包括:
读取所述数据库中的复制数据;
根据所述复制数据中用户访问的URL,提取与所述URL对应的网页;
根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。
所述采集网络中与所述数据采集规则匹配的用户数据之后,还包括:
过滤所述用户数据中的不规则数据;
所述不规则数据包括:空数据、用户访问的URL为非法URL。
一种网络数据推送方法,所述方法应用所述网络数据挖掘方法获取的每个用户标识所对应的感兴趣类别,包括:
确定待推送网络数据需要推送的目标类别;
采集用户数据,所述用户数据中包括用户标识和用户访问的URL;
根据所述用户标识获取与所述用户标识对应的感兴趣类别;
当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。
还包括:预先设置推送网络数据的推送策略和推送形式;
所述将所述待推送网络数据推送到所述用户访问的URL对应的网页内具体为:按照所述推送策略和推送形式将所述待推送网络数据推送到所述用户访问的URL对应的网页内。
所述将所述待推送网络数据推送给所述用户包括:
劫持所述用户访问的URL;
将所述用户访问的URL和包含所述待推送网络数据的URL返回至用户浏览器,所述用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。
一种网络数据挖掘设备,包括:
采集单元,用于根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;
判别单元,用于判别所述用户访问的URL所属的类别;
挖掘单元,用于根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘;
获取单元,用于根据所述挖掘单元的挖掘结果获取每个用户标识所对应的感兴趣类别。
所述数据采集规则包括:规则特征和规则动作;
所述规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。
所述采集单元包括:
采集数据单元,用于采集网络中符合所述规则特征的用户数据;
判断类型单元,用于判断与所述规则特征对应的规则动作类型;
获取数据单元,用于当判断类型单元判断规则动作为统计时,则根据所述用户数据获取统计数据,包括用户使用网络的时长、用户带宽使用情况、用户流量使用信息,当判断类型单元判断规则动作为复制时,则根据所述用户数据获取复制数据,包括用户标识、用户访问的URL、用户访问URL时长。
还包括:
保存单元,用于保存所述统计数据和复制数据到数据库;
所述判别单元包括:
读取数据单元,用于读取所述数据库中的复制数据;
提取网页单元,用于根据所述复制数据中用户访问的URL,提取与所述URL对应的网页;
获取类别单元,用于根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。
还包括:
过滤单元,用于过滤所述用户数据中的不规则数据,所述不规则数据包括空数据或用户访问的URL为非法URL。
一种网络数据推送设备,所述设备应用如所述网络数据挖掘设备获取的每个用户标识所对应的感兴趣类别,包括:
确定单元,用于确定待推送网络数据需要推送的目标类别;
采集单元,用于采集用户数据,所述用户数据中包括用户标识和用户访问的URL;
获取单元,用于根据所述用户标识获取与所述用户标识对应的感兴趣类别;
推送单元,用于当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。
还包括:
预设单元,用于预先设置推送网络数据的推送策略和推送形式;
所述推送单元,具体用于按照所述推送策略和推送形式将所述待推送网络数据推送到所述用户访问的URL对应的网页内。
所述推送单元包括:
URL劫持单元,用于劫持所述用户访问的URL;
返回URL单元,用于将所述用户访问的URL和包含所述待推送网络数据的URL返回至用户浏览器,所述用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。
可见,在本发明实施例中,根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的包括用户标识和用户访问的URL的用户数据,判别所述用户访问的URL所属的类别,根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别;当对网络数据进行推送时,就可以根据前述挖掘结果,在确定待推送网络数据需要推送的目标类别后,采集包括用户标识和用户访问的URL的用户数据,根据所述用户标识获取与所述用户标识对应的感兴趣类别,当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。由于本发明实施例预先通过对用户数据的挖掘获取了用户感兴趣的类别,因此当用户访问网页属于其感兴趣类别时,可以有针对性地将与所述感兴趣的类别一致的网络数据推送给用户页面,由于不再采用广而告之的方式推送网络数据,因此提高了推送的针对性,降低了对网络带宽的占用,同时提高了用户的访问体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明网络数据挖掘方法的第一实施例流程图;
图2为本发明网络数据挖掘方法的第二实施例流程图;
图3为本发明网络数据推送方法的第一实施例流程图;
图4为本发明网络数据推送方法的第二实施例流程图;
图5为本发明网络数据挖掘设备的实施例框图;
图6为本发明网络数据推送设备的实施例框图。
具体实施方式
本发明实施例提供了一种网络数据挖掘方法、网络数据推送方法及设备。
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。
参见图1,为本发明网络数据挖掘方法的第一实施例流程图:
步骤101:根据预先设置的数据采集规则,采集网络中与数据采集规则匹配的用户数据,用户数据包括用户标识和用户访问的URL。
其中,用户数据可以具体为用户行为数据;数据采集规则包括:规则特征和规则动作,规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。
其中,用户网络数据中的统计数据包括用户业务使用时长、用户带宽使用情况、用户流量按时间/类别统计等;用户网络数据中的复制数据包括用户访问网络资源的身份信息、URL、访问时间、接入方式等。
具体的,采集网络中符合所述规则特征的用户数据,判断与所述规则特征对应的规则动作类型,如果为统计,则根据所述用户数据获取统计数据,如果为复制,则根据所述用户数据获取复制数据。
步骤102:判别用户访问的URL所属的类别。
具体的,读取所述数据库中的复制数据,根据所述复制数据中用户访问的URL,提取与所述URL对应的网页,根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。
步骤103:根据选择的数据挖掘算法对URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别。
参见图2,为本发明网络数据挖掘方法的第二实施例流程图:
步骤201:预先设置数据采集规则,包括规则特征和规则动作。
其中,规则特征描述了采集用户数据应满足的条件,如IP地址特征、端口特征、内容特征等;规则动作描述了对匹配规则特征后的用户数据所实施的操作,如统计、复制等。
步骤202:采集网络中符合规则特征的用户数据。
用户数据采集可以实现于DPI(深度报文检测)设备、网络接入设备或者骨干网络设备。在用户数据采集时可以通过深度内容检测技术对用户身份和用户业务进行识别,以实现对高速链路用户业务数据实施采集。其中,深度内容检测技术可以提供到1至7层的报文内容的深度解析,报文内容包括报文头部和报文的载荷区;高速链路是指1000Mbps、2.5Gbps、10Gbps或更高速率的链路。采集用户数据的设备可采用“串入”或者“并入”方式接入链路,并可以具有自动保护切换的功能。
具体的,采集规则可以用r={Key,Action}来表示,规则特征Key可以是五元组<源IP地址(sip),目的IP地址(dip),源端口(sport),目的端口(dport),协议类型(protocol)>,也可以是报文载荷部分特征;规则动作Action中的统计和复制可以分别用Actions和Actionc表示。例如,对于用户行为网络数据挖掘我们需要提取所有用户访问网络资源的URL,则可以生成规则特征为目的端口为80,载荷域起始为“get”字符串,Actionc为复制的,r={dport=80,payload={0,3,“get”}}。
步骤203:判断与规则特征对应的规则动作类型,若为统计,则执行步骤204;否则执行步骤205。
步骤204:根据用户数据获取包括用户使用网络的时长、用户带宽使用情况、用户流量使用信息等统计数据,执行步骤207。
步骤205:根据所述用户数据获取包括用户标识、用户访问的URL、用户访问URL时长等的复制数据。
对于用户标识,由于用户分为使用固定IP地址的大客户和使用动态IP地址的用户,因此对于大客户可以使用IP地址来唯一标识该用户;对于使用动态IP地址的用户,可以采用用户帐号来唯一标识该用户。
步骤206:过滤复制数据中的不规则数据。
不规则数据包括空数据、异常数据等,比如,用户访问的URL格式是非法的URL(http://sohu.www.com/)。
步骤207:保存根据用户数据获取的统计数据和过滤后的复制数据。
步骤208:读取数据库中的复制数据。
对于数据的保存和读取可以基于现有的任何数据库系统,比如微软的SQLServer 2008 Enterprise系统,或者Integrated Service体系。
步骤209:根据复制数据中用户访问的URL,提取与该URL对应的网页。
对于页面提取,其功能是将URL所对应的网页从远程服务器上抓取下来,可以采用网页爬虫程序实现。
步骤210:根据提取的网页的内容对该网页进行分类,获取用户访问的URL所属的类别。
URL的分类可以采用基于语义的分类算法和基于关键词的分类算法,对于基于关键词的分类算法主要包括训练和分类两个过程,训练过程是针对分类模型进行参数选取等方面的配置,分类是根据训练结果进行分类,与现有技术一致,在此不再赘述。
步骤211:根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别。
其中,挖掘算法包括现有常用的分类/预测、关联、聚类等数据挖掘算法。
在实施数据挖掘之前,可以选取数据挖掘算法、设置用户访问URL的分类粒度、用户数据的时间区间选取、用户行为挖掘的具体内容等。
其中,用户访问URL分类粒度是指URL类别划分的数目,URL的划分力度支持大类分类,如财经、体育、娱乐等;同时支持大类下小类分类,如体育又可进一步划分为足球、篮球、排球等若干小类;用户数据的时间区间选取是指用户网络行为数据的时间粒度属性,比如是按日,按月,按季度,还是按年进行挖掘;用户行为挖掘具体内容包括用户业务使用偏好、用户上网习惯、用户喜好、用户流量使用、用户资费类型分析等。
通过对用户数据的挖掘最终获得的挖掘结果可以是用户标识与感兴趣类别的对应关系,即通过挖掘获取了每个用户感兴趣的网络数据的类别,比如用户A对财经类内容和体育类内容感兴趣,由此对后续网络数据的推送提供基础。
与本发明网络数据挖掘方法的实施例相对应,本发明还提供了应用网络数据挖掘方法获取的每个用户标识所对应的感兴趣类别进行网络数据推送的方法的实施例。
参见图3,为本发明网络数据推送方法的第一实施例流程图:
步骤301:确定待推送网络数据需要推送的目标类别。
步骤302:采集用户数据,该用户数据中包括用户标识和用户访问的URL。
步骤303:根据用户标识获取与用户标识对应的感兴趣类别。
步骤304:当感兴趣类别中包含该目标类别,且用户访问的URL属于该目标类别时,将待推送网络数据推送给用户。
具体的,劫持所述用户访问的URL,将用户访问的URL和包含待推送网络数据的URL返回至用户浏览器,用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。
参见图4,为本发明网络数据推送方法的第二实施例流程图:
步骤401:预先设置推送网络数据的推送策略和推送形式。
网络数据推送支持多种推送策略和推送形式。推送策略包括定向推送、定时推送和定组推送等;推送形式是指在HTTP页面中嵌入网络数据、在邮件中嵌入网络数据等。
推送策略也可以根据是用户提出的推送申请进行推送,推送申请可以包括上述推送时段、区域、时长等信息。
以网络数据为广告为例,推送策略可以包括定时推送一次广告、定期多次推送广告,推送形式包括以静态图像文件推送广告、动态图像文件推送广告、Flash文件推送广告、视频文件推送广告等。比如,用户需要在18:00至22:00点时段内,当用户浏览网页时弹出汽车广告,推送策略就可以设置定期多次推送该汽车广告,采用动态图像形式文件推送该汽车广告。
步骤402:确定待推送网络数据需要推送的目标类别。
步骤403:采集用户数据,该用户数据中包括用户标识和用户访问的URL。
步骤404:根据用户标识获取与用户标识对应的感兴趣类别。
步骤405:判断该感兴趣类别中是否包含目标类别,若是,则执行步骤406;否则,结束当前流程。
步骤406:判断用户访问的URL是否属于该目标类别,若是,则执行步骤407;否则,结束当前流程。
步骤407:劫持用户访问的URL,将用户访问的URL和包含待推送网络数据的URL返回至用户浏览器。
步骤408:用户浏览器通过对用户访问的URL和包含待推送网络数据的URL进行重新解析,得到包含待推送网络数据的网页,结束当前流程。
上述数据挖掘方法实施例和数据推送方法实施例可以部署于高速接入网或骨干网中,应用上述方法可以通过对用户行为数据的挖掘,根据用户的感兴趣类别,以实现向特定用户推送诸如广告等网络数据,由此提高网络带宽的精细化运营。
与本发明网络数据挖掘方法和网络数据推送方法的实施例相对应,本发明还提供了网络数据挖掘设备和网络数据推送设备的实施例。
参见图5,为本发明网络数据挖掘设备的实施例框图。
该网络数据挖掘设备包括:采集单元510、判别单元520、挖掘单元530和获取单元540。
其中,采集单元510用于根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;
判别单元520用于判别所述用户访问的URL所属的类别;
挖掘单元530用于根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘;
获取单元540用于根据所述挖掘单元的挖掘结果获取每个用户标识所对应的感兴趣类别。
其中,数据采集规则可以包括:规则特征和规则动作,所述规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。
进一步,该网络数据挖掘设备还可以包括(图5中未示出):保存单元,用于保存所述统计数据和复制数据到数据库。判别单元520可以包括(图5中未示出):读取数据单元,用于读取所述数据库中的复制数据;提取网页单元,用于根据所述复制数据中用户访问的URL,提取与所述URL对应的网页;获取类别单元,用于根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。
进一步,该网络数据挖掘设备还可以包括(图5中未示出):过滤单元,用于过滤所述用户数据中的不规则数据,所述不规则数据包括空数据或用户访问的URL为非法URL。
参见图6,为本发明网络数据推送设备的实施例框图。
该网络数据推送设备包括:确定单元610、采集单元620、获取单元630和推送单元640。
其中,确定单元610用于确定待推送网络数据需要推送的目标类别;
采集单元620用于采集用户数据,所述用户数据中包括用户标识和用户访问的URL;
获取单元630用于根据所述用户标识获取与所述用户标识对应的感兴趣类别;
推送单元640用于当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。
进一步,该网络数据推送设备还可以包括(图6中未示出):预设单元,用于预先设置推送网络数据的推送策略和推送形式;所述推送单元640具体用于按照所述推送策略和推送形式将所述待推送网络数据推送到所述用户访问的URL对应的网页内。
具体的,推送单元640可以包括(图6中未示出):URL劫持单元,用于劫持所述用户访问的URL;返回URL单元,用于将所述用户访问的URL和包含所述待推送网络数据的URL返回至用户浏览器,所述用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。
通过以上的实施方式的描述可知,本发明实施例中根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的包括用户标识和用户访问的URL的用户数据,判别所述用户访问的URL所属的类别,根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别;当对网络数据进行推送时,就可以根据前述挖掘结果,在确定待推送网络数据需要推送的目标类别后,采集包括用户标识和用户访问的URL的用户数据,根据所述用户标识获取与所述用户标识对应的感兴趣类别,当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。由于本发明实施例预先通过对用户数据的挖掘获取了用户感兴趣的类别,因此当用户访问网页属于其感兴趣类别时,可以有针对性地将与所述感兴趣的类别一致的网络数据推送给用户页面,由于不再采用广而告之的方式推送网络数据,因此提高了推送的针对性,降低了对网络带宽的占用,同时提高了用户的访问体验。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims (17)

1、一种网络数据挖掘方法,其特征在于,包括:
根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;
判别所述用户访问的URL所属的类别;
根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别。
2、根据权利要求1所述的方法,其特征在于,所述数据采集规则包括:规则特征和规则动作;
所述规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。
3、根据权利要求2所述的方法,其特征在于,所述采集网络中与所述数据采集规则匹配的用户数据包括:
采集网络中符合所述规则特征的用户数据;
判断与所述规则特征对应的规则动作类型,如果为统计,则根据所述用户数据获取统计数据,包括用户使用网络的时长、用户带宽使用情况、用户流量使用信息,如果为复制,则根据所述用户数据获取复制数据,包括用户标识、用户访问的URL、用户访问URL时长。
4、根据权利要求3所述的方法,其特征在于,所述采集网络中与所述数据采集规则匹配的用户数据之后,还包括:保存所述统计数据和复制数据到数据库。
5、根据权利要求4所述的方法,其特征在于,所述判别所述用户访问的URL所属的类别包括:
读取所述数据库中的复制数据;
根据所述复制数据中用户访问的URL,提取与所述URL对应的网页;
根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。
6、根据权利要求1所述的方法,其特征在于,所述采集网络中与所述数据采集规则匹配的用户数据之后,还包括:
过滤所述用户数据中的不规则数据;
所述不规则数据包括:空数据、用户访问的URL为非法URL。
7、一种网络数据推送方法,其特征在于,所述方法应用如权利要求1所述网络数据挖掘方法获取的每个用户标识所对应的感兴趣类别,包括:
确定待推送网络数据需要推送的目标类别;
采集用户数据,所述用户数据中包括用户标识和用户访问的URL;
根据所述用户标识获取与所述用户标识对应的感兴趣类别;
当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。
8、根据权利要求7所述的方法,其特征在于,还包括:预先设置推送网络数据的推送策略和推送形式;
所述将所述待推送网络数据推送到所述用户访问的URL对应的网页内具体为:按照所述推送策略和推送形式将所述待推送网络数据推送到所述用户访问的URL对应的网页内。
9、根据权利要求7所述的方法,其特征在于,所述将所述待推送网络数据推送给所述用户包括:
劫持所述用户访问的URL;
将所述用户访问的URL和包含所述待推送网络数据的URL返回至用户浏览器,所述用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。
10、一种网络数据挖掘设备,其特征在于,包括:
采集单元,用于根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;
判别单元,用于判别所述用户访问的URL所属的类别;
挖掘单元,用于根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘;
获取单元,用于根据所述挖掘单元的挖掘结果获取每个用户标识所对应的感兴趣类别。
11、根据权利要求10所述的设备,其特征在于,所述数据采集规则包括:规则特征和规则动作;
所述规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。
12、根据权利要求11所述的设备,其特征在于,所述采集单元包括:
采集数据单元,用于采集网络中符合所述规则特征的用户数据;
判断类型单元,用于判断与所述规则特征对应的规则动作类型;
获取数据单元,用于当判断类型单元判断规则动作为统计时,则根据所述用户数据获取统计数据,包括用户使用网络的时长、用户带宽使用情况、用户流量使用信息,当判断类型单元判断规则动作为复制时,则根据所述用户数据获取复制数据,包括用户标识、用户访问的URL、用户访问URL时长。
13、根据权利要求12所述的设备,其特征在于,还包括:
保存单元,用于保存所述统计数据和复制数据到数据库;
所述判别单元包括:
读取数据单元,用于读取所述数据库中的复制数据;
提取网页单元,用于根据所述复制数据中用户访问的URL,提取与所述URL对应的网页;
获取类别单元,用于根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。
14、根据权利要求10所述的设备,其特征在于,还包括:
过滤单元,用于过滤所述用户数据中的不规则数据,所述不规则数据包括空数据或用户访问的URL为非法URL。
15、一种网络数据推送设备,其特征在于,所述设备应用如权利要求10所述网络数据挖掘设备获取的每个用户标识所对应的感兴趣类别,包括:
确定单元,用于确定待推送网络数据需要推送的目标类别;
采集单元,用于采集用户数据,所述用户数据中包括用户标识和用户访问的URL;
获取单元,用于根据所述用户标识获取与所述用户标识对应的感兴趣类别;
推送单元,用于当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。
16、根据权利要求15所述的设备,其特征在于,还包括:
预设单元,用于预先设置推送网络数据的推送策略和推送形式;
所述推送单元,具体用于按照所述推送策略和推送形式将所述待推送网络数据推送到所述用户访问的URL对应的网页内。
17、根据权利要求15所述的设备,其特征在于,所述推送单元包括:
URL劫持单元,用于劫持所述用户访问的URL;
返回URL单元,用于将所述用户访问的URL和包含所述待推送网络数据的URL返回至用户浏览器,所述用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。
CN2009101720441A 2009-09-03 2009-09-03 网络数据挖掘方法、网络数据推送方法及设备 Expired - Fee Related CN101655868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101720441A CN101655868B (zh) 2009-09-03 2009-09-03 网络数据挖掘方法、网络数据推送方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101720441A CN101655868B (zh) 2009-09-03 2009-09-03 网络数据挖掘方法、网络数据推送方法及设备

Publications (2)

Publication Number Publication Date
CN101655868A true CN101655868A (zh) 2010-02-24
CN101655868B CN101655868B (zh) 2012-08-22

Family

ID=41710160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101720441A Expired - Fee Related CN101655868B (zh) 2009-09-03 2009-09-03 网络数据挖掘方法、网络数据推送方法及设备

Country Status (1)

Country Link
CN (1) CN101655868B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101990003A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于ip地址属性的用户行为监控系统与方法
CN102045748A (zh) * 2010-12-16 2011-05-04 北京拓明科技有限公司 基于数据业务流量的移动网络智能分析方法及系统
CN102148706A (zh) * 2011-01-26 2011-08-10 西安电子科技大学 动态复杂网络中的进化模式挖掘方法
CN102333084A (zh) * 2011-08-31 2012-01-25 深圳市彩讯科技有限公司 基于用户属性的信息推送方法及系统
CN102364468A (zh) * 2011-09-29 2012-02-29 北京亿赞普网络技术有限公司 一种用户网络行为分析方法、装置和系统
CN102571854A (zh) * 2010-12-17 2012-07-11 北大方正集团有限公司 网络数据采集方法及装置
CN102855248A (zh) * 2011-06-29 2013-01-02 中国移动通信集团广西有限公司 一种用户特征信息的确定方法、装置及系统
CN103002412A (zh) * 2012-11-28 2013-03-27 北京亿赞普网络技术有限公司 一种无线精准信息推送系统及其方法
CN103227791A (zh) * 2013-04-26 2013-07-31 亿赞普(北京)科技有限公司 一种无线数据采集的方法及装置
CN103544188A (zh) * 2012-07-17 2014-01-29 中国移动通信集团广东有限公司 移动互联网内容的用户偏好推送方法与装置
CN103595692A (zh) * 2012-08-13 2014-02-19 中兴通讯股份有限公司 一种通过家庭网关分析用户网络行为的方法和系统
CN103761296A (zh) * 2014-01-20 2014-04-30 北京集奥聚合科技有限公司 移动终端用户网络行为分析方法及系统
CN103914479A (zh) * 2013-01-06 2014-07-09 北京金山安全软件有限公司 资源请求的匹配方法和装置
CN103942304A (zh) * 2013-11-20 2014-07-23 艾姆肯帕尼株式会社 多个教育团体主页采集/推送系统
CN103997507A (zh) * 2013-02-20 2014-08-20 腾讯科技(深圳)有限公司 一种信息的推送方法及装置
CN104023072A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 数据推送装置及方法
CN104298751A (zh) * 2014-10-14 2015-01-21 李小宜 互联网虚拟身份特征信息的获取方法及装置
CN104732425A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 基于大数据的电商平台客户行为分析方法
CN104753979A (zh) * 2013-12-25 2015-07-01 腾讯科技(深圳)有限公司 一种显示网站信息的方法、服务器、终端及系统
WO2015123990A1 (zh) * 2014-02-20 2015-08-27 中兴通讯股份有限公司 一种页面推送方法、装置、服务器和系统
CN105338070A (zh) * 2015-10-15 2016-02-17 精硕世纪科技(北京)有限公司 基于广告监测的数据采集方法及系统
CN105407116A (zh) * 2014-09-10 2016-03-16 中国电信股份有限公司 实现个性化页面的方法、设备和系统
CN105488103A (zh) * 2015-11-18 2016-04-13 中国农业大学 一种知识要点推送方法及系统
CN105591833A (zh) * 2014-11-26 2016-05-18 中国银联股份有限公司 一种基于规则引擎的流量采集方法
CN105677682A (zh) * 2014-11-21 2016-06-15 中国移动通信集团浙江有限公司 配置多媒体信息的方法、推送多媒体信息的方法和设备
CN105871630A (zh) * 2016-05-30 2016-08-17 国家计算机网络与信息安全管理中心 一种确定网络用户的上网行为类别的方法
CN105956004A (zh) * 2016-04-20 2016-09-21 广州精点计算机科技有限公司 一种基于url分析模型的移动用户上网行为分析方法及装置
CN106060849A (zh) * 2016-05-26 2016-10-26 重庆大学 一种异构网络中的网络制式优化分配方法
CN106294390A (zh) * 2015-05-20 2017-01-04 上海纳鑫信息科技有限公司 一种数据挖掘分析方法及系统
CN103761246B (zh) * 2013-12-19 2017-02-08 国家计算机网络与信息安全管理中心 一种基于链接网络的用户领域识别方法及其装置
CN107665226A (zh) * 2017-01-19 2018-02-06 深圳市谷熊网络科技有限公司 一种信息的推送方法及推送装置
CN108319651A (zh) * 2017-12-28 2018-07-24 南京烽火软件科技有限公司 一种互联网信息发掘方法
CN104102639B (zh) * 2013-04-02 2018-07-27 腾讯科技(深圳)有限公司 基于文本分类的推广触发方法和装置
CN110224891A (zh) * 2019-06-12 2019-09-10 武汉绿色网络信息服务有限责任公司 一种基于dpi和分流器的智能流量调度方法和系统
CN110266746A (zh) * 2019-03-29 2019-09-20 星融元数据技术(苏州)有限公司 一种信息推送方法、装置及系统
CN111405033A (zh) * 2020-03-13 2020-07-10 深圳前海环融联易信息科技服务有限公司 数据采集方法、装置、计算机设备及存储介质
CN114826956A (zh) * 2022-03-30 2022-07-29 杭州迪普科技股份有限公司 用于dpi测试设备的dpi策略库文件自动生成方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079870A (zh) * 2007-06-11 2007-11-28 深圳市任驰科技有限公司 基于互联网的信息精确投放系统和方法
CN101217568A (zh) * 2008-01-15 2008-07-09 杭州华三通信技术有限公司 一种页面的推送方法、系统和装置
CN101493832A (zh) * 2009-03-06 2009-07-29 辽宁般若网络科技有限公司 网站内容联合推荐系统与方法

Cited By (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101990003A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于ip地址属性的用户行为监控系统与方法
CN101990003B (zh) * 2010-10-22 2012-11-28 西安交通大学 一种基于ip地址属性的用户行为监控系统与方法
CN102045748A (zh) * 2010-12-16 2011-05-04 北京拓明科技有限公司 基于数据业务流量的移动网络智能分析方法及系统
CN102571854A (zh) * 2010-12-17 2012-07-11 北大方正集团有限公司 网络数据采集方法及装置
CN102571854B (zh) * 2010-12-17 2015-02-11 北大方正集团有限公司 网络数据采集方法及装置
CN102148706A (zh) * 2011-01-26 2011-08-10 西安电子科技大学 动态复杂网络中的进化模式挖掘方法
CN102855248A (zh) * 2011-06-29 2013-01-02 中国移动通信集团广西有限公司 一种用户特征信息的确定方法、装置及系统
CN102333084A (zh) * 2011-08-31 2012-01-25 深圳市彩讯科技有限公司 基于用户属性的信息推送方法及系统
CN102364468A (zh) * 2011-09-29 2012-02-29 北京亿赞普网络技术有限公司 一种用户网络行为分析方法、装置和系统
CN103544188A (zh) * 2012-07-17 2014-01-29 中国移动通信集团广东有限公司 移动互联网内容的用户偏好推送方法与装置
CN103544188B (zh) * 2012-07-17 2017-03-29 中国移动通信集团广东有限公司 移动互联网内容的用户偏好推送方法与装置
CN103595692A (zh) * 2012-08-13 2014-02-19 中兴通讯股份有限公司 一种通过家庭网关分析用户网络行为的方法和系统
CN103595692B (zh) * 2012-08-13 2018-01-02 中兴通讯股份有限公司 一种通过家庭网关分析用户网络行为的方法和系统
CN103002412B (zh) * 2012-11-28 2016-02-24 北京亿赞普网络技术有限公司 一种无线精准信息推送系统及其方法
CN103002412A (zh) * 2012-11-28 2013-03-27 北京亿赞普网络技术有限公司 一种无线精准信息推送系统及其方法
CN103914479A (zh) * 2013-01-06 2014-07-09 北京金山安全软件有限公司 资源请求的匹配方法和装置
CN103914479B (zh) * 2013-01-06 2017-12-01 北京金山安全软件有限公司 资源请求的匹配方法和装置
CN103997507B (zh) * 2013-02-20 2018-09-07 腾讯科技(深圳)有限公司 一种信息的推送方法及装置
CN103997507A (zh) * 2013-02-20 2014-08-20 腾讯科技(深圳)有限公司 一种信息的推送方法及装置
CN104102639B (zh) * 2013-04-02 2018-07-27 腾讯科技(深圳)有限公司 基于文本分类的推广触发方法和装置
CN103227791A (zh) * 2013-04-26 2013-07-31 亿赞普(北京)科技有限公司 一种无线数据采集的方法及装置
CN103227791B (zh) * 2013-04-26 2016-04-13 亿赞普(北京)科技有限公司 一种无线数据采集的方法及装置
CN103942304A (zh) * 2013-11-20 2014-07-23 艾姆肯帕尼株式会社 多个教育团体主页采集/推送系统
CN103761246B (zh) * 2013-12-19 2017-02-08 国家计算机网络与信息安全管理中心 一种基于链接网络的用户领域识别方法及其装置
CN104753979B (zh) * 2013-12-25 2018-12-28 腾讯科技(深圳)有限公司 一种显示网站信息的方法、服务器、终端及系统
CN104753979A (zh) * 2013-12-25 2015-07-01 腾讯科技(深圳)有限公司 一种显示网站信息的方法、服务器、终端及系统
CN103761296A (zh) * 2014-01-20 2014-04-30 北京集奥聚合科技有限公司 移动终端用户网络行为分析方法及系统
WO2015123990A1 (zh) * 2014-02-20 2015-08-27 中兴通讯股份有限公司 一种页面推送方法、装置、服务器和系统
US10225358B2 (en) 2014-02-20 2019-03-05 Xi'an Zhongxing New Software Co., Ltd. Page push method, device, server and system
CN104023072A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 数据推送装置及方法
CN105407116A (zh) * 2014-09-10 2016-03-16 中国电信股份有限公司 实现个性化页面的方法、设备和系统
CN104298751A (zh) * 2014-10-14 2015-01-21 李小宜 互联网虚拟身份特征信息的获取方法及装置
CN105677682A (zh) * 2014-11-21 2016-06-15 中国移动通信集团浙江有限公司 配置多媒体信息的方法、推送多媒体信息的方法和设备
CN105591833A (zh) * 2014-11-26 2016-05-18 中国银联股份有限公司 一种基于规则引擎的流量采集方法
CN104732425A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 基于大数据的电商平台客户行为分析方法
CN106294390A (zh) * 2015-05-20 2017-01-04 上海纳鑫信息科技有限公司 一种数据挖掘分析方法及系统
CN105338070A (zh) * 2015-10-15 2016-02-17 精硕世纪科技(北京)有限公司 基于广告监测的数据采集方法及系统
CN105488103A (zh) * 2015-11-18 2016-04-13 中国农业大学 一种知识要点推送方法及系统
CN105956004A (zh) * 2016-04-20 2016-09-21 广州精点计算机科技有限公司 一种基于url分析模型的移动用户上网行为分析方法及装置
CN106060849B (zh) * 2016-05-26 2019-08-20 重庆大学 一种异构网络中的网络制式优化分配方法
CN106060849A (zh) * 2016-05-26 2016-10-26 重庆大学 一种异构网络中的网络制式优化分配方法
CN105871630A (zh) * 2016-05-30 2016-08-17 国家计算机网络与信息安全管理中心 一种确定网络用户的上网行为类别的方法
CN105871630B (zh) * 2016-05-30 2019-03-05 国家计算机网络与信息安全管理中心 一种确定网络用户的上网行为类别的方法
CN107665226A (zh) * 2017-01-19 2018-02-06 深圳市谷熊网络科技有限公司 一种信息的推送方法及推送装置
CN108319651B (zh) * 2017-12-28 2022-02-15 南京烽火星空通信发展有限公司 一种互联网信息发掘方法
CN108319651A (zh) * 2017-12-28 2018-07-24 南京烽火软件科技有限公司 一种互联网信息发掘方法
CN110266746A (zh) * 2019-03-29 2019-09-20 星融元数据技术(苏州)有限公司 一种信息推送方法、装置及系统
CN110266746B (zh) * 2019-03-29 2022-04-29 星融元数据技术(苏州)有限公司 一种信息推送方法及装置
CN110224891A (zh) * 2019-06-12 2019-09-10 武汉绿色网络信息服务有限责任公司 一种基于dpi和分流器的智能流量调度方法和系统
CN110224891B (zh) * 2019-06-12 2021-02-19 武汉绿色网络信息服务有限责任公司 一种基于dpi和分流器的智能流量调度方法和系统
CN111405033A (zh) * 2020-03-13 2020-07-10 深圳前海环融联易信息科技服务有限公司 数据采集方法、装置、计算机设备及存储介质
CN111405033B (zh) * 2020-03-13 2023-02-10 深圳前海环融联易信息科技服务有限公司 数据采集方法、装置、计算机设备及存储介质
CN114826956A (zh) * 2022-03-30 2022-07-29 杭州迪普科技股份有限公司 用于dpi测试设备的dpi策略库文件自动生成方法和装置
CN114826956B (zh) * 2022-03-30 2023-05-26 杭州迪普科技股份有限公司 用于dpi测试设备的dpi策略库文件自动生成方法和装置

Also Published As

Publication number Publication date
CN101655868B (zh) 2012-08-22

Similar Documents

Publication Publication Date Title
CN101655868B (zh) 网络数据挖掘方法、网络数据推送方法及设备
CN101820366B (zh) 一种基于预取的钓鱼网页检测方法
CN101409690A (zh) 一种互联网用户行为的获取方法和系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN101853300B (zh) 一种视频下载服务网站的识别、评估方法及系统
CN102387207A (zh) 基于用户反馈信息的推送方法和推送系统
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及系统
CN101794311A (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN102054004A (zh) 一种网页推荐方法和装置
CN103544188A (zh) 移动互联网内容的用户偏好推送方法与装置
CN101482882A (zh) 跨域处理cookie的方法及其系统
CN103412882A (zh) 一种识别消费意图的方法及装置
CN102930059A (zh) 一种聚焦爬虫的设计方法
CN102811207A (zh) 网络信息推送方法及系统
CN103902579B (zh) 获取信息的方法和装置
CN101996193A (zh) 一种展现网络资源链接的处理方法、系统及互联网终端
CN103530365A (zh) 获取资源的下载链接的方法及系统
CN102831114A (zh) 实现互联网用户访问情况统计分析的方法及装置
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
Nina et al. Pattern discovery of web usage mining
CN107888606A (zh) 一种域名信誉度评估方法及系统
CN104182482A (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
CN108574669A (zh) 用户行为树构建方法及装置
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN105117434A (zh) 一种网页分类方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120822

Termination date: 20180903

CF01 Termination of patent right due to non-payment of annual fee