CN102236652B - 一种信息的分类方法和装置 - Google Patents

一种信息的分类方法和装置 Download PDF

Info

Publication number
CN102236652B
CN102236652B CN 201010155773 CN201010155773A CN102236652B CN 102236652 B CN102236652 B CN 102236652B CN 201010155773 CN201010155773 CN 201010155773 CN 201010155773 A CN201010155773 A CN 201010155773A CN 102236652 B CN102236652 B CN 102236652B
Authority
CN
China
Prior art keywords
user
page
behavior
default
categorical attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010155773
Other languages
English (en)
Other versions
CN102236652A (zh
Inventor
孙国政
李盛韬
李强
邵荣防
文勖
胡鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 201010155773 priority Critical patent/CN102236652B/zh
Publication of CN102236652A publication Critical patent/CN102236652A/zh
Application granted granted Critical
Publication of CN102236652B publication Critical patent/CN102236652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息的分类方法和装置,该方法包括:设置具有预设分类属性的种子集合;根据用户行为和所述种子集合获取页面集合和用户集合;确定所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述用户集合中的用户是否具有所述预设分类属性。本发明中,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。

Description

一种信息的分类方法和装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种信息的分类方法和装置。
背景技术
随着Intemet的普及和飞速发展,网络信息成爆炸性增长,一方面满足了用户对信息的需求,另一方面也产生了一些问题,例如,如何根据网页内容将图片自动分到不同的类别,以提高用户的体验,是目前搜索引擎面临解决的一个问题。
现有技术中,图片的分类方法包括:
(1)提取图片的环绕文本,然后对文本进行分类,其中,文本的类别就是图片的类别。
(2)通过模式识别技术,提取图片的特征,然后由设备利用图片的特征进行分类。
但是,在实现本发明的过程中,发明人发现现有技术中至少存在以下问题:
在使用第一种图片的分类方法时,如果文本信息缺失或者较少,则不能准确的对文本进行分类,从而不能准确的对图片进行分类。
在使用第二种图片的分类方法时,模式识别技术对图片分类的效果不是很好,分类结果不准确。
发明内容
本发明提供一种信息的分类方法和装置,以准确的对信息进行分类,提高用户的使用感受。
为了达到上述目的,本发明提供一种信息的分类方法,所述方法包括以下步骤:
设置具有预设分类属性的种子集合;
根据用户行为和所述种子集合获取页面集合和用户集合;
确定所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述用户集合中的用户是否具有所述预设分类属性。
优选的,设置具有预设分类属性的种子集合,包括:
选取具有所述预设分类属性的页面为所述种子集合;或者,
选取具有所述预设分类属性的用户为所述种子集合。
优选的,所述根据用户行为和所述种子集合获取页面集合和用户集合,之前还包括:
建立用户到页面的行为数据库,并通过所述行为数据库记录所述用户行为。
优选的,当选取具有所述预设分类属性的页面为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
步骤a1,将所述种子集合设置为当前页面集合;
步骤b1,查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
步骤c1,查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
步骤d1,记录执行步骤c1的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,执行步骤b1。
优选的,当选取具有所述预设分类属性的用户为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
步骤a2,将所述种子集合设置为当前用户集合;
步骤b2,查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
步骤c2,查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
步骤d2,记录执行步骤c2的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,执行步骤b2。
优选的,确定所述页面集合中的页面是否具有所述预设分类属性,具体包括:
获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;
确定所述用户集合中的用户是否具有所述预设分类属性,具体包括:
获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。
本发明还提供一种信息的分类装置,包括:
设置模块,用于设置具有预设分类属性的种子集合;
获取模块,用于根据用户行为和所述设置模块设置的所述种子集合获取页面集合和用户集合;
确定模块,用于确定所述获取模块获取的所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述获取模块获取的所述用户集合中的用户是否具有所述预设分类属性。
优选的,所述设置模块具体用于,选取具有所述预设分类属性的页面为所述种子集合;或者,
选取具有所述预设分类属性的用户为所述种子集合。
优选的,还包括:
建立模块,用于建立用户到页面的行为数据库;
记录模块,用于通过所述建立模块建立的所述行为数据库记录所述用户行为。
优选的,所述获取模块具体用于,将所述种子集合设置为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;记录执行根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。
优选的,所述获取模块具体用于,将所述种子集合设置为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;记录执行根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。
优选的,所述确定模块具体用于,获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;和/或,
获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。
与现有技术相比,本发明具有以下优点:通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提出的一种信息的分类方法流程图;
图2为本发明一种应用场景下提出的一种信息的分类方法流程图;
图3为本发明另一种应用场景下提出的一种信息的分类方法流程图;
图4为本发明提出的一种信息的分类装置结构图;
图5为本发明提出的另一种信息的分类装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
基于上述思想,本发明提出一种信息的分类方法,如图1所示,所述方法包括以下步骤:
步骤101,设置具有预设分类属性的种子集合。
本步骤中,设置具有预设分类属性的种子集合,包括:选取具有所述预设分类属性的页面为所述种子集合;或者,选取具有所述预设分类属性的用户为所述种子集合。
步骤102,根据用户行为和所述种子集合获取页面集合和用户集合。
需要注意的是,所述根据用户行为和所述种子集合获取页面集合和用户集合,之前还包括:建立用户到页面的行为数据库,并通过所述行为数据库记录所述用户行为。
本步骤中,当选取具有所述预设分类属性的页面为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
步骤a1,将所述种子集合设置为当前页面集合;
步骤b1,查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
步骤c1,查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
步骤d1,记录执行步骤c1的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,执行步骤b1。
另外,当选取具有所述预设分类属性的用户为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
步骤a2,将所述种子集合设置为当前用户集合;
步骤b2,查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
步骤c2,查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
步骤d2,记录执行步骤c2的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,执行步骤b2。
步骤103,确定所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述用户集合中的用户是否具有所述预设分类属性。
本步骤中,确定所述页面集合中的页面是否具有所述预设分类属性,具体包括:获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;
确定所述用户集合中的用户是否具有所述预设分类属性,具体包括:获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。
可见,本发明中,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
为了更加清楚的阐述本发明提供的技术方案,以下结合一种具体的应用场景对本发明提出的信息分类方法进行详细论述。其中,该信息包括但不限于短文本、视频和图片等信息,当然,实际应用中,该信息并不局限于此,为了方便描述,本发明中以图片为例进行说明。
具体的,在处理图片时,由于很多图片没有文字描述信息,从而导致在识别图片类型时遇到很多问题,基于这种情况,本发明提供一种能够确定图片类型的方式。
假设一个用户浏览了很多的A类型图片(例如,色情类型图片、社会类型图片、时事类型图片等),则表示此用户对A类型图片感兴趣,是A类型图片爱好者;假设一张图片被很多A类型爱好者浏览,则此图片是A类型图片的概率很大。
基于上述情况,本发明一种应用场景下提供一种信息的分类方法,如图2所示,包括以下步骤:
步骤201,建立用户到页面的行为数据库,并通过该行为数据库记录用户行为。
具体的,由于行为数据库是建立在用户与页面之间的,所以该行为数据库能够记录到所有用户行为。例如,当用户1需要访问页面1时,该访问情况需要通过行为数据库,此时,该行为数据库能够记录到该用户1访问页面1的用户行为。其中,该用户行为包括但不限于浏览行为、评论行为等。
步骤202,在所有页面中选择预设分类属性的种子集合。其中,该预设分类属性可以根据实际需要任意选择,例如,选择预设个数(例如,1万个)的具有A类型图片的页面为种子集合。
步骤203,根据用户行为和种子集合获取页面集合和用户集合。
在获取页面集合和用户集合的过程中,本步骤具体包括以下步骤,步骤a1,将种子集合设置为当前页面集合;步骤b1,查询行为数据库,并根据用户行为获取访问当前页面集合的所有用户为当前用户集合;步骤c1,查询行为数据库,并根据用户行为获取当前用户集合中的所有用户访问的所有页面为当前页面集合;步骤d1,记录执行步骤c1的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为用户集合;获取当前页面集合为页面集合;否则,执行步骤b1。
具体的,上述预设第一数值为迭代次数(例如,3次),为了进一步说明本步骤,以该预设第一数值为3次为例进行说明,将种子集合记为当前页面集合A。
本步骤中,查询行为数据库,获取访问过当前页面集合A的所有用户,称为当前用户集合B;
查询行为数据库,获取当前用户集合B中所有用户访问过的所有页面,称为当前页面集合C;
记录执行获取当前用户集合中所有用户访问过的所有页面的次数,此时该次数为1次(小于3次),继续查询行为数据库,获取访问过当前页面集合C的所有用户,称为当前用户集合D;
查询行为数据库,获取当前用户集合D中所有用户访问过的所有页面,称为当前页面集合E;
记录执行获取当前用户集合中所有用户访问过的所有页面的次数,此时该次数为2次(小于3次),继续查询行为数据库,获取访问过当前页面集合E的所有用户,称为当前用户集合X;
查询行为数据库,获取当前用户集合X中所有用户访问过的所有页面,称为当前页面集合Y;
记录执行获取当前用户集合中所有用户访问过的所有页面的次数,此时该次数为3次,获取当前用户集合X为用户集合,获取当前页面集合Y为页面集合,其中,页面集合Y包含种子集合A。
步骤204,确定页面集合中的页面是否具有A类型图片的属性,并确定用户集合中的用户是否具有A类型图片的属性。
具体的,当获取到用户集合X和页面集合Y后,需要确定用户集合X中的各个用户是否具有A类型图片的属性,并确定页面集合Y中的各个页面是否具有A类型图片的属性。本步骤中,该确定方式包括但不限于通过矩阵迭代的方式进行确定。
在通过使用矩阵迭代的方式进行确定的过程中,将people(用户)作为中心节点,并将page(页面)作为权威节点,将用户对页面的浏览作为是中心节点到权威节点的链接。
假设共有M个(用户集合X中的用户个数)people和N个(页面集合Y中的页面个数)page,则输入数据为一个M×N的矩阵A,其中,如果peoplei存在一个到pagej的浏览,则Aij=1,否则Aij=0。
另外,假设向量a=(a1,a2,…,aN)代表所有page的page-rank(页面打分),向量h=(h1,h2,…,hM)代表所有people的people-rank(用户打分)。其中,向量a=(a1,a2,…,aN)的初始值置为
Figure GSA00000081845900101
向量h=(h1,h2,…,hM)的初始值置为
Figure GSA00000081845900102
基于上述假设,对page-rank的向量a以及对people-rank的向量h的矩阵迭代包括:
h=Aa
a=ATh
其中,A为一个M×N的矩阵A,T为迭代次数,反复迭代上述h=Aa和a=ATh,在每次迭代计算完a后,将a中属于种子集合的元素置为当前a中的最大值的n倍(该倍数还可以根据实际需要进行调整,例如,该n=2),并在每次迭代后对向量a和h进行范化,使
a ( i ) = a ( i ) Σ j a ( j ) 2
h ( i ) = h ( i ) Σ j h ( j ) 2
以保证向量a和h的数值不会在反复的迭代中溢出。
通过上述的矩阵迭代过程,使得a和h最后分别收敛于浏览对应的page-rank和people-rank,从而获取到页面集合中各个页面的页面打分Page-rank,以及用户集合中各个用户的用户打分People-rank。
进一步的,如果页面对应的page-rank大于预设第一阈值(该第一阈值为根据实际需要选择的概率值)时,确定该页面具有A类型图片的属性;如果用户对应的People-rank大于预设第二阈值(该第二阈值为根据实际需要选择的概率值)时,确定该用户具有A类型图片的属性。
需要注意的是,确定用户集合X中的各个用户是否具有A类型图片的属性,并确定页面集合Y中的各个页面是否具有A类型图片的属性的方式并不局限于通过矩阵迭代的方式进行确定。例如,用户集合X中的用户浏览种子集合A中页面的个数超过预设概率(例如,该预设概率为1/20,如果种子集合A中页面一共为100个,用户A一共浏览了10个,则用户A浏览种子集合A中页面的个数超过预设概率)时,则该用户具有A类型图片的属性。页面集合Y中的页面被具有A类型图片属性的预设个数(例如,5个)的用户浏览时(例如,页面A被7个具有A类型图片属性的用户浏览),则该页面具有A类型图片的属性。
其中,本发明中的各个步骤之间的顺序关系还可以根据实际需要进行调整。
可见,通过使用本发明提供的方法,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
本发明另一种应用场景下提供一种信息的分类方法,如图3所示,包括以下步骤:
步骤301,建立用户到页面的行为数据库,并通过该行为数据库记录用户行为。
本步骤与步骤201中的处理过程类似,在此不再详加赘述。
步骤302,在所有用户中选择预设分类属性的种子集合。其中,该预设分类属性可以根据实际需要任意选择,例如,选择预设个数(例如,100个)的具有A类型图片的用户为种子集合。
步骤303,根据用户行为和种子集合获取页面集合和用户集合。
在获取页面集合和用户集合的过程中,本步骤具体包括以下步骤,步骤a2,将种子集合设置为当前用户集合;步骤b2,查询行为数据库,并根据用户行为获取当前用户集合中的所有用户访问的所有页面为当前页面集合;步骤c2,查询行为数据库,并根据用户行为获取访问当前页面集合的所有用户为当前用户集合;步骤d2,记录执行步骤c2的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为用户集合;获取当前页面集合为页面集合;否则,执行步骤b2。
步骤304,确定页面集合中的页面是否具有A类型图片的属性,并确定用户集合中的用户是否具有A类型图片的属性。
本步骤中的处理过程与步骤204中的处理过程类似,在此不再详加赘述。
其中,本发明中的各个步骤之间的顺序关系还可以根据实际需要进行调整。
可见,通过使用本发明提供的方法,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
基于同样的发明构思,本发明还提出了一种信息的分类装置,如图4所示,该装置包括:
设置模块11,用于设置具有预设分类属性的种子集合。
获取模块12,用于根据用户行为和所述设置模块11设置的所述种子集合获取页面集合和用户集合。
确定模块13,用于确定所述获取模块12获取的所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述获取模块获取的所述用户集合中的用户是否具有所述预设分类属性。
如上所述,本发明中该装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个装置,也可以进一步拆分成多个子模块。
可见,通过使用本发明提供的装置,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
基于同样的发明构思,本发明还提出了一种信息的分类装置,如图5所示,该装置包括:
设置模块21,用于设置具有预设分类属性的种子集合。
所述设置模块21具体用于,选取具有所述预设分类属性的页面为所述种子集合;或者,选取具有所述预设分类属性的用户为所述种子集合。
获取模块22,用于根据用户行为和所述设置模块21设置的所述种子集合获取页面集合和用户集合。
确定模块23,用于确定所述获取模块22获取的所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述获取模块获取的所述用户集合中的用户是否具有所述预设分类属性。
建立模块24,与获取模块22连接,用于建立用户到页面的行为数据库。
记录模块25,与获取模块22和建立模块24连接,用于通过所述建立模块24建立的所述行为数据库记录所述用户行为。
基于该记录模块25记录的用户行为,所述获取模块22具体用于,将所述种子集合设置为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;记录执行根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。
所述获取模块22具体用于,将所述种子集合设置为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;记录执行根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。
另外,所述确定模块23具体用于,获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;和/或,
获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。
如上所述,本发明中该装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个装置,也可以进一步拆分成多个子模块。
可见,通过使用本发明提供的装置,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (8)

1.一种信息的分类方法,其特征在于,所述方法包括以下步骤:
设置具有预设分类属性的种子集合;
建立用户到页面的行为数据库,并通过所述行为数据库记录所述用户行为;
根据用户行为和所述种子集合获取页面集合和用户集合;
确定所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述用户集合中的用户是否具有所述预设分类属性;
其中,所述设置具有预设分类属性的种子集合,包括:
选取具有所述预设分类属性的页面为所述种子集合;或者,选取具有所述预设分类属性的用户为所述种子集合。
2.如权利要求1所述的方法,其特征在于,当选取具有所述预设分类属性的页面为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
将所述种子集合设置为当前页面集合;
查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
记录执行根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合。
3.如权利要求1所述的方法,其特征在于,当选取具有所述预设分类属 性的用户为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
将所述种子集合设置为当前用户集合;
查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
记录执行根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合。
4.如权利要求1-3任一项所述的方法,其特征在于,确定所述页面集合中的页面是否具有所述预设分类属性,具体包括:
获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;
确定所述用户集合中的用户是否具有所述预设分类属性,具体包括:
获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。
5.一种信息的分类装置,其特征在于,包括:
设置模块,用于设置具有预设分类属性的种子集合;
建立模块,用于建立用户到页面的行为数据库; 
记录模块,用于通过所述建立模块建立的所述行为数据库记录所述用户行为;
获取模块,用于根据用户行为和所述设置模块设置的所述种子集合获取页面集合和用户集合;
确定模块,用于确定所述获取模块获取的所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述获取模块获取的所述用户集合中的用户是否具有所述预设分类属性;
其中,所述设置模块具体用于,选取具有所述预设分类属性的页面为所述种子集合;或者,选取具有所述预设分类属性的用户为所述种子集合。
6.如权利要求5所述的装置,其特征在于,
所述获取模块具体用于,将所述种子集合设置为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;记录执行根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。
7.如权利要求5所述的装置,其特征在于,
所述获取模块具体用于,将所述种子集合设置为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;记录执行根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。 
8.如权利要求5-7任一项所述的装置,其特征在于,
所述确定模块具体用于,获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;和/或,
获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。 
CN 201010155773 2010-04-27 2010-04-27 一种信息的分类方法和装置 Active CN102236652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010155773 CN102236652B (zh) 2010-04-27 2010-04-27 一种信息的分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010155773 CN102236652B (zh) 2010-04-27 2010-04-27 一种信息的分类方法和装置

Publications (2)

Publication Number Publication Date
CN102236652A CN102236652A (zh) 2011-11-09
CN102236652B true CN102236652B (zh) 2013-10-30

Family

ID=44887310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010155773 Active CN102236652B (zh) 2010-04-27 2010-04-27 一种信息的分类方法和装置

Country Status (1)

Country Link
CN (1) CN102236652B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523311B (zh) * 2011-11-25 2014-08-06 中国科学院计算机网络信息中心 非法域名识别方法及装置
CN104715037B (zh) * 2015-03-19 2017-06-16 腾讯科技(深圳)有限公司 一种网络数据的过滤方法、装置和系统
CN107153702A (zh) * 2017-05-10 2017-09-12 北京微影时代科技有限公司 一种数据处理方法及装置
CN107391618A (zh) * 2017-07-05 2017-11-24 Tcl移动通信科技(宁波)有限公司 一种图片分类存储方法、移动终端及存储装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783636B2 (en) * 2006-09-28 2010-08-24 Microsoft Corporation Personalized information retrieval search with backoff
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
CN101458713A (zh) * 2008-12-29 2009-06-17 北京搜狗科技发展有限公司 网站分类的方法及系统

Also Published As

Publication number Publication date
CN102236652A (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
US7519588B2 (en) Keyword characterization and application
US7711735B2 (en) User segment suggestion for online advertising
US20030074400A1 (en) Web user profiling system and method
US7624081B2 (en) Predicting community members based on evolution of heterogeneous networks using a best community classifier and a multi-class community classifier
CN102521248B (zh) 一种网络用户分类方法及其装置
US20100030768A1 (en) Classifying documents using implicit feedback and query patterns
CN106294783A (zh) 一种视频推荐方法及装置
CN103440243B (zh) 一种教学资源推荐方法及其装置
JP2014515514A (ja) 提案される語を提供するための方法および装置
CN108563680A (zh) 资源推荐方法及装置
CN107341220A (zh) 一种多源数据融合方法和装置
CN104217030A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN104217031A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
US20110225172A1 (en) System, method, and computer-readable medium for seeking representative images in image set
CN103838834A (zh) 一种提及推荐方法、信息处理方法及系统
CN102236652B (zh) 一种信息的分类方法和装置
CN106445977A (zh) 图片推送方法及装置
CN108021545A (zh) 一种司法文书的案由提取方法及装置
EP1426881A2 (en) Information storage and retrieval
CN109766492A (zh) 学习推荐方法、装置、设备和可读介质
CN107392311A (zh) 序列切分的方法和装置
CN106021351A (zh) 针对新闻事件的聚合提取方法及装置
CN107220745A (zh) 一种意图行为数据的识别方法、系统及设备
KR101621735B1 (ko) 추천 검색어 제공 방법 및 시스템
CN104091131A (zh) 应用程序与权限的关系确定方法及确定装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131016

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20131016

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518057 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.