CN103218390A - 一种站点资源管理方法及装置 - Google Patents

一种站点资源管理方法及装置 Download PDF

Info

Publication number
CN103218390A
CN103218390A CN2012105929763A CN201210592976A CN103218390A CN 103218390 A CN103218390 A CN 103218390A CN 2012105929763 A CN2012105929763 A CN 2012105929763A CN 201210592976 A CN201210592976 A CN 201210592976A CN 103218390 A CN103218390 A CN 103218390A
Authority
CN
China
Prior art keywords
page
feature
mypos
tag
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105929763A
Other languages
English (en)
Inventor
崔建伟
王佳
李伟刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2012105929763A priority Critical patent/CN103218390A/zh
Publication of CN103218390A publication Critical patent/CN103218390A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种站点资源管理方法,包括以下步骤:对web站点进行数据挖掘以获取web站点中各个页面的URL数据;对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中TAG特征和Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;根据各个页面的TAG特征和Mypos特征得到各个页面在预定分类表的各个分类下的权重。本发明还提出了一种站点资源管理装置。本发明根据网页内容等因素针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据。

Description

一种站点资源管理方法及装置
技术领域
本发明涉及互联网应用技术领域,特别涉及一种站点资源管理方法及装置。 
背景技术
随着互联网技术,尤其是智能搜索、智能广告推荐等技术的发展,对于网站进行分析、归类的需求越来越被重视。如此一来,就需要一种将站点的网页资源自动进行分类及组织的管理方法。现有技术中,经常简单的通过网页文本标题对网页进行划分,但这一方法的准确性不高。 
发明内容
本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。 
为此,本发明的第一个目的在于提出一种站点资源管理方法,根据网页内容等因素针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据。本发明的第二个目的在于提出一种站点资源管理装置。 
为达到上述目的,本发明第一方面的实施例提出了一种站点资源管理方法,包括以下步骤:对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得 到的多个TAG特征和多个Mypos特征;根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。 
根据本发明实施例的站点资源管理方法,可以通过对网页内容进行分词、提取特征的方式针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据,使得为用户提供的网页推荐可以更加符合用户的需要,提高了用户体验。 
在本发明的一个实施例中,所述站点资源管理方法进一步包括步骤:根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。 
在本发明的一个实施例中,根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。 
在本发明的一个实施例中,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。 
在本发明的一个实施例中,对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据的步骤包括:对所述web站点进行日志挖掘和站点挖掘,其中通过所述日志挖掘获取页面的URL数据以及所述页面的访问热度,通过所述站点挖掘获取所述站点下各个页面的URL数据以及站点结构数据。 
在本发明的一个实施例中,所述访问热度用于确定页面的点击量,所述站点结构数据用于实现web站点至web app的结构转换。 
在本发明的一个实施例中,对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征的步骤包括:对所述各个页面的URL数据进行切词分析以得到多个词;将所述多个词与训练得到的多个TAG特征 和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。 
本发明第二方面的实施例提出了一种站点资源管理装置,包括:挖掘模块,用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;特征获取模块,用于对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;权重计算模块,用于根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。 
根据本发明实施例的站点资源管理装置,可以通过对网页内容进行分词、提取特征的方式针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据,使得为用户提供的网页推荐可以更加符合用户的需要,提高了用户体验。 
在本发明的一个实施例中,所述站点资源管理装置进一步包括:页面分类模块,用于根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。 
在本发明的一个实施例中,所述站点资源管理装置进一步包括:相似度计算模块,用于根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。 
在本发明的一个实施例中,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。 
在本发明的一个实施例中,所述挖掘模块包括:日志挖掘单元,用于获取页面的URL数据以及所述页面的访问热度;站点挖掘单元,用于获取所述站 点下各个页面的URL数据以及站点结构数据。 
在本发明的一个实施例中,所述访问热度用于确定页面的点击量,所述站点结构数据用于实现web站点至web app的结构转换。 
在本发明的一个实施例中,所述特征获取模块包括:切词分析单元,用于对所述各个页面的URL数据进行切词分析以得到多个词;匹配单元,用于将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。 
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。 
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中: 
图1为根据本发明一个实施例的站点资源管理方法的流程图; 
图2为根据本发明另一个实施例的站点资源管理方法的流程图; 
图3为一个待挖掘的web网页的示意图; 
图4为根据本发明实施例的一个站点资源管理装置的示意图;以及 
图5为根据本发明实施例的另一个站点资源管理装置的示意图。 
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元 件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。 
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。 
下面分别参考图1至图3对本发明实施例的站点资源管理方法的流程进行描述。 
如图1所示,根据本发明第一方面的实施例的站点资源管理方法,包括以下步骤: 
S101:对web站点进行数据挖掘以获取web站点中各个页面的URL数据。 
具体地,对站点进行数据挖掘包括日志挖掘和站点挖掘两部分。 
日志挖掘:挖掘网站的url以及url对应的pattern、query、搜索结果页序号、pv等信息,提供网站内url的基本url数据以及对应的访问热度信息,访问热度用于确定页面的点击量。在一个具体的实施例中,日志挖掘可以利用hadoop平台实现。 
站点挖掘:从网站首页或频道页开始,定时抓取指定站点或频道的页面以下级页面,分析页面前后连接之间的指向关系,并且补全网站站点各个页面的URL数据以及站点结构数据,站点结构数据用于实现web站点至web app(Application,应用程序)的结构转换。在一个具体的实施例中,站点挖掘可以利用站点抓取技术实现。 
在本发明的一个实施例中,以站点7y7.com为例,进行日志挖掘和站点挖 掘,其中,日志挖掘根据pv分析,得到站点内pv最高的3条URL及其pattern如表1所示: 
Figure BDA00002684774600061
表1对站点7y7.com的日志挖掘结果 
对7y7.com的站点挖掘,通过对各个URL的分析可以得出前后链接关系和浏览路径,例如,以http://www.7y7.com/yule/95/70395.html为例: 
Figure BDA00002684774600062
表2对站点7y7.com的站点挖掘示例 
S102:对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中TAG特征和Mypos特征属于训练得到的多个TAG特征和多个Mypos特征。 
在本发明的一个实施例中,对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,具体包括: 
S1021:对各个页面的URL数据进行切词分析以得到多个词。 
S1022:将多个词与训练得到的多个TAG特征和多个Mypos特征进行匹 配以获取各个页面的TAG特征和Mypos特征。 
TAG特征的分析基于分词技术,对网页中的文本进行切词分析,基于训练好的后验概率模型,将分析结果映射到目标TAG集合上的不同权值,进而根据权值判断该网页的类型。TAG系统需要包括足够多的TAG标签(以500个为例),通过统计待标注网页样本中各个TAG出现的概率,选择出概率最大的100个TAG作为特征进行训练。对某个网页的TAG特征的获取,可通过将该网页的分词得到的多个词和训练得到的多个TAG进行匹配。例如,针对如图3中所示的网页,经TAG特征分析,得到的各TAG如表3所示: 
关键字 权重系数Weight
外国人 67.900
散布 58.800
外国 44.000
围观 40.200
路人 40.200
标题TAG 权重系数Weight
云南 36.965
手机 18.340
恋爱 14.144
娱乐八卦 10.909
昆明市 10.710
表3各关键字和标题TAG的权重系数 
根据表3可得出,权重系数最大的标题TAG为:云南。 
S103:根据各个页面的TAG特征和Mypos特征得到各个页面在预定分类表的各个分类下的权重。 
在本发明的一个实施例中,预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏等。需要说明的是,上述分类表只是为了示例说明,而不应理解为对本发明的限制。根据某个页面TAG特征和Mypos特征得到该页面在各个分类下的权重,可作为将网页分类的重要依据。例如,前一实施例中的网页即可根据TAG特征被分类到“国内”“八卦”分类下。 
Mypos(My Position)是指网页上的一种导航,目的是为了告诉用户,现在的网页处在整个网站结构中的什么位置。 
Mypos通常有两个特征: 
出现在页面主体内容的最上方。对于有标题的网页,通常在标题的上面。对于无标题的网页,通常是在整个核心正文区域的最上方。 
结构通常是递进的关系,有箭头类的图形来表达这种递进。且上一层级一般为链接,可以点击进这个网页的上一层目录。 
在本发明中,主要是对Mypos进行切词,然后跟TAG特征何在一期进行训练。可以认为,TAG特征处理的是页面的文本,而Mypos特征处理的是页面的一个功能块的信息。由于Mypos的特殊性,在训练模型中的权重页会相对大一些。例如:在图3中,这个页面的Mypos为页面左上方的实线框内部分,通过分析特征,将其中的“美发”关键字作为特征进行提取,作为特征参与到后面的训练和识别。 
得到筛选后的TAG特征和Mypos特征后,对标注样本,采用后验概率模型进行训练,得到特征和语义分类之间的概率分布模型。 
上述概率分布模型可以有如下应用:给定一个url,通过提取TAG特征和Mypos特征,通过模型就可以计算出该url在各个语义类型上的概率分布。 
给定两个网页的url,可以通过TAG特征计算相似度;可以在推荐集合中通过knn算法找到目标url最相似的url,进行数据组织。 
在本发明的一个实施例中,将网页页面分为首页、索引页、列表页、正文页等,根据页面的结构特征将页面进行分类和组织。 
在本发明的一个实施例中,站点资源管理方法还包括: 
S104:根据各个页面在预定分类表的各个分类下的权重将各个页面输出给对应的聚合频道。 
S105:根据各个页面在预定分类表的各个分类下的权重计算各个页面的相似度以进行相似页面推荐。 
其中,对于给定两个网页的相似度的计算,可以通过TAG特征来计算它们的相似度;可以在推荐集合中通过KNN算法(k-Nearest Neighbor,k最邻近算法)找到目标网页最相似的网页,进行网页的数据组织。 
作为本发明的主要实际应用方式之一,本发明可应用于根据用户的浏览记录向用户推荐类似的网页,提升了用户体验。 
根据本发明实施例的站点资源管理方法,可以通过对网页内容进行分词、提取特征的方式针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据,使得为用户提供的网页推荐可以更加符合用户的需要,提高了用户体验。 
如图4所示,根据本发明第二方面的实施例的站点资源管理装置,包括: 
挖掘模块410、特征获取模块420和权重计算模块430。具体地,挖掘模 块410用于对web站点进行数据挖掘以获取web站点中各个页面的URL数据。 
在本发明的一个实施例中,挖掘模块410包括日志挖掘单元411和站点挖掘单元411。日志挖掘单元411用于获取页面的URL数据以及页面的访问热度,访问热度用于确定页面的点击量。具体地,日志挖掘挖掘网站的url以及url对应的pattern、query、搜索结果页序号、pv等信息,提供网站内url的基本url数据以及对应的访问热度信息,访问热度用于确定页面的点击量。在一个具体的实施例中,日志挖掘可以利用hadoop平台实现。 
站点挖掘单元412用于获取所述站点下各个页面的URL数据以及站点结构数据。具体地,站点挖掘包括:从网站首页或频道页开始,定时抓取指定站点或频道的页面以下级页面,分析页面前后连接之间的指向关系,并且补全网站站点各个页面的URL数据以及站点结构数据,站点结构数据用于实现web站点至web app的结构转换。在一个具体的实施例中,站点挖掘可以利用站点抓取技术实现。 
特征获取模块420用于对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中TAG特征和Mypos特征属于训练得到的多个TAG特征和多个Mypos特征。 
在本发明的一个实施例中,特征获取模块420包括切词分析单元421和匹配单元421。切词分析单元421用于对各个页面的URL数据进行切词分析以得到多个词。匹配单元422用于将多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。TAG特征的分析基于分词技术,对网页中的文本进行切词分析,基于训练好的后验概率模型,将分析结果映射到目标TAG集合上的不同权值,进而根据权值判断该网页的类型。TAG系统需要包括足够多的TAG标签(以500个为例),通过统 计待标注网页样本中各个TAG出现的概率,选择出概率最大的100个TAG作为特征进行训练。对某个网页的TAG特征的获取,可通过将该网页的分词得到的多个词和训练得到的多个TAG进行匹配。 
权重计算模块430用于根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。在本发明的一个实施例中,预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏等。需要说明的是,上述分类表只是为了示例说明,而不应理解为对本发明的限制。根据某个页面TAG特征和Mypos特征得到该页面在各个分类下的权重,可作为将网页分类的重要依据。例如,针对如图3中所示的网页,经TAG特征分析,得到的各TAG如表3所示。根据表3可得出,权重系数最大的标题TAG为:云南。该网页即可根据TAG特征被分类到“国内”“八卦”分类下。 
在本发明的一个实施例中,如图5所示,站点资源管理装置还包括:页面分类模块440和相似度计算模块450。 
具体地,页面分类模块440用于根据各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。需要说明的是,上述分类表只是为了示例说明,而不应理解为对本发明的限制。 
相似度计算模块450用于根据各个页面在预定分类表的各个分类下的权重计算各个页面的相似度以进行相似页面推荐。 
根据本发明实施例的站点资源管理装置,可以通过对网页内容进行分词、 提取特征的方式针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据,使得为用户提供的网页推荐可以更加符合用户的需要,提高了用户体验。 
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。 
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器 中。 
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。 
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。 
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。 
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。 
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。 

Claims (14)

1.一种站点资源管理方法,其特征在于,包括以下步骤:
对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;
对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;以及
根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。
2.根据权利要求1所述的方法,其特征在于,进一步包括步骤:
根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。
3.根据权利要求1所述的方法,其特征在于,进一步包括步骤:
根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。
5.根据权利要求1至3中任一项所述的方法,其特征在于,对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据的步骤包括:
对所述web站点进行日志挖掘和站点挖掘,其中通过所述日志挖掘获取页面的URL数据以及所述页面的访问热度,通过所述站点挖掘获取所述站点下各个页面的URL数据以及站点结构数据。
6.根据权利要求5所述的方法,其特征在于,所述访问热度用于确定页面的点击量,所述站点结构数据用于实现web站点至web app的结构转换。
7.根据权利要求1至3中任一项所述的方法,其特征在于,对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征的步骤包括:
对所述各个页面的URL数据进行切词分析以得到多个词;
将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。
8.一种站点资源管理装置,其特征在于,包括:
挖掘模块,用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;
特征获取模块,用于对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;以及
权重计算模块,用于根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。
9.根据权利要求8所述的装置,其特征在于,还进一步包括:
页面分类模块,用于根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。
10.根据权利要求8所述的装置,其特征在于,还进一步包括:
相似度计算模块,用于根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。
11.根据权利要求8至10中任一项所述的装置,其特征在于,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。
12.根据权利要求8至10中任一项所述的装置,其特征在于,所述挖掘模块包括:
日志挖掘单元,用于获取页面的URL数据以及所述页面的访问热度;
站点挖掘单元,用于获取所述站点下各个页面的URL数据以及站点结构数据。
13.根据权利要求12所述的装置,其特征在于,所述访问热度用于确定页面的点击量,所述站点结构数据用于实现web站点至web app的结构转换。
14.根据权利要求8至10中任一项所述的装置,其特征在于,所述特征获取模块包括:
切词分析单元,用于对所述各个页面的URL数据进行切词分析以得到多个词;
匹配单元,用于将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。
CN2012105929763A 2012-12-31 2012-12-31 一种站点资源管理方法及装置 Pending CN103218390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105929763A CN103218390A (zh) 2012-12-31 2012-12-31 一种站点资源管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105929763A CN103218390A (zh) 2012-12-31 2012-12-31 一种站点资源管理方法及装置

Publications (1)

Publication Number Publication Date
CN103218390A true CN103218390A (zh) 2013-07-24

Family

ID=48816180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105929763A Pending CN103218390A (zh) 2012-12-31 2012-12-31 一种站点资源管理方法及装置

Country Status (1)

Country Link
CN (1) CN103218390A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500213A (zh) * 2013-09-30 2014-01-08 北京搜狗科技发展有限公司 基于预读取的页面热点资源更新方法和装置
CN105677772A (zh) * 2015-12-30 2016-06-15 赛尔网络有限公司 一种isp间互联口url活跃度的统计方法及装置
CN105930469A (zh) * 2016-04-23 2016-09-07 北京工业大学 基于Hadoop的个性化旅游推荐系统及方法
CN106776645A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN106919585A (zh) * 2015-12-24 2017-07-04 中移(杭州)信息技术有限公司 根据终端的统一资源定位符确定商品信息的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
US7912831B2 (en) * 2006-10-03 2011-03-22 Yahoo! Inc. System and method for characterizing a web page using multiple anchor sets of web pages
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912831B2 (en) * 2006-10-03 2011-03-22 Yahoo! Inc. System and method for characterizing a web page using multiple anchor sets of web pages
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500213A (zh) * 2013-09-30 2014-01-08 北京搜狗科技发展有限公司 基于预读取的页面热点资源更新方法和装置
CN103500213B (zh) * 2013-09-30 2017-01-11 北京搜狗科技发展有限公司 基于预读取的页面热点资源更新方法和装置
CN106776645A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN106776645B (zh) * 2015-11-24 2020-08-21 北京国双科技有限公司 数据处理方法及装置
CN106919585A (zh) * 2015-12-24 2017-07-04 中移(杭州)信息技术有限公司 根据终端的统一资源定位符确定商品信息的方法及装置
CN105677772A (zh) * 2015-12-30 2016-06-15 赛尔网络有限公司 一种isp间互联口url活跃度的统计方法及装置
CN105677772B (zh) * 2015-12-30 2019-07-09 赛尔网络有限公司 一种isp间互联口url活跃度的统计方法及装置
CN105930469A (zh) * 2016-04-23 2016-09-07 北京工业大学 基于Hadoop的个性化旅游推荐系统及方法

Similar Documents

Publication Publication Date Title
CN102831199B (zh) 建立兴趣模型的方法及装置
US9070046B2 (en) Learning-based image webpage index selection
CN101251855B (zh) 一种互联网网页清洗方法、系统及设备
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN104376406A (zh) 一种基于大数据的企业创新资源管理与分析系统和方法
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
CN104102721A (zh) 信息推荐方法和装置
US20200004792A1 (en) Automated website data collection method
CN102567494B (zh) 网站分类方法及装置
CN103218390A (zh) 一种站点资源管理方法及装置
CN104598607A (zh) 推荐搜索短语的方法及系统
CN103810162A (zh) 推荐网络信息的方法和系统
CN103838754A (zh) 信息搜索装置及方法
CN103309960A (zh) 一种网络舆情事件多维信息提取的方法及装置
Sivakumar Effectual web content mining using noise removal from web pages
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
Chen et al. Modeling and exploiting tag relevance for Web service mining
CN103049557A (zh) 一种站点资源管理方法及装置
TWI544348B (zh) 開端式偵測及文字資料中之字叢集之分類
CN105160016A (zh) 用户属性的获取方法及装置
CN103262079B (zh) 检索装置及检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130724