发明内容
本发明提供一种信息的分类方法和装置,以准确的对信息进行分类,提高用户的使用感受。
为了达到上述目的,本发明提供一种信息的分类方法,所述方法包括以下步骤:
设置具有预设分类属性的种子集合;
根据用户行为和所述种子集合获取页面集合和用户集合;
确定所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述用户集合中的用户是否具有所述预设分类属性。
优选的,设置具有预设分类属性的种子集合,包括:
选取具有所述预设分类属性的页面为所述种子集合;或者,
选取具有所述预设分类属性的用户为所述种子集合。
优选的,所述根据用户行为和所述种子集合获取页面集合和用户集合,之前还包括:
建立用户到页面的行为数据库,并通过所述行为数据库记录所述用户行为。
优选的,当选取具有所述预设分类属性的页面为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
步骤a1,将所述种子集合设置为当前页面集合;
步骤b1,查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
步骤c1,查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
步骤d1,记录执行步骤c1的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,执行步骤b1。
优选的,当选取具有所述预设分类属性的用户为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
步骤a2,将所述种子集合设置为当前用户集合;
步骤b2,查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
步骤c2,查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
步骤d2,记录执行步骤c2的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,执行步骤b2。
优选的,确定所述页面集合中的页面是否具有所述预设分类属性,具体包括:
获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;
确定所述用户集合中的用户是否具有所述预设分类属性,具体包括:
获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。
本发明还提供一种信息的分类装置,包括:
设置模块,用于设置具有预设分类属性的种子集合;
获取模块,用于根据用户行为和所述设置模块设置的所述种子集合获取页面集合和用户集合;
确定模块,用于确定所述获取模块获取的所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述获取模块获取的所述用户集合中的用户是否具有所述预设分类属性。
优选的,所述设置模块具体用于,选取具有所述预设分类属性的页面为所述种子集合;或者,
选取具有所述预设分类属性的用户为所述种子集合。
优选的,还包括:
建立模块,用于建立用户到页面的行为数据库;
记录模块,用于通过所述建立模块建立的所述行为数据库记录所述用户行为。
优选的,所述获取模块具体用于,将所述种子集合设置为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;记录执行根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。
优选的,所述获取模块具体用于,将所述种子集合设置为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;记录执行根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。
优选的,所述确定模块具体用于,获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;和/或,
获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。
与现有技术相比,本发明具有以下优点:通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
基于上述思想,本发明提出一种信息的分类方法,如图1所示,所述方法包括以下步骤:
步骤101,设置具有预设分类属性的种子集合。
本步骤中,设置具有预设分类属性的种子集合,包括:选取具有所述预设分类属性的页面为所述种子集合;或者,选取具有所述预设分类属性的用户为所述种子集合。
步骤102,根据用户行为和所述种子集合获取页面集合和用户集合。
需要注意的是,所述根据用户行为和所述种子集合获取页面集合和用户集合,之前还包括:建立用户到页面的行为数据库,并通过所述行为数据库记录所述用户行为。
本步骤中,当选取具有所述预设分类属性的页面为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
步骤a1,将所述种子集合设置为当前页面集合;
步骤b1,查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
步骤c1,查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
步骤d1,记录执行步骤c1的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,执行步骤b1。
另外,当选取具有所述预设分类属性的用户为所述种子集合时,所述根据用户行为和所述种子集合获取页面集合和用户集合,包括:
步骤a2,将所述种子集合设置为当前用户集合;
步骤b2,查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;
步骤c2,查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;
步骤d2,记录执行步骤c2的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合;否则,执行步骤b2。
步骤103,确定所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述用户集合中的用户是否具有所述预设分类属性。
本步骤中,确定所述页面集合中的页面是否具有所述预设分类属性,具体包括:获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;
确定所述用户集合中的用户是否具有所述预设分类属性,具体包括:获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。
可见,本发明中,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
为了更加清楚的阐述本发明提供的技术方案,以下结合一种具体的应用场景对本发明提出的信息分类方法进行详细论述。其中,该信息包括但不限于短文本、视频和图片等信息,当然,实际应用中,该信息并不局限于此,为了方便描述,本发明中以图片为例进行说明。
具体的,在处理图片时,由于很多图片没有文字描述信息,从而导致在识别图片类型时遇到很多问题,基于这种情况,本发明提供一种能够确定图片类型的方式。
假设一个用户浏览了很多的A类型图片(例如,色情类型图片、社会类型图片、时事类型图片等),则表示此用户对A类型图片感兴趣,是A类型图片爱好者;假设一张图片被很多A类型爱好者浏览,则此图片是A类型图片的概率很大。
基于上述情况,本发明一种应用场景下提供一种信息的分类方法,如图2所示,包括以下步骤:
步骤201,建立用户到页面的行为数据库,并通过该行为数据库记录用户行为。
具体的,由于行为数据库是建立在用户与页面之间的,所以该行为数据库能够记录到所有用户行为。例如,当用户1需要访问页面1时,该访问情况需要通过行为数据库,此时,该行为数据库能够记录到该用户1访问页面1的用户行为。其中,该用户行为包括但不限于浏览行为、评论行为等。
步骤202,在所有页面中选择预设分类属性的种子集合。其中,该预设分类属性可以根据实际需要任意选择,例如,选择预设个数(例如,1万个)的具有A类型图片的页面为种子集合。
步骤203,根据用户行为和种子集合获取页面集合和用户集合。
在获取页面集合和用户集合的过程中,本步骤具体包括以下步骤,步骤a1,将种子集合设置为当前页面集合;步骤b1,查询行为数据库,并根据用户行为获取访问当前页面集合的所有用户为当前用户集合;步骤c1,查询行为数据库,并根据用户行为获取当前用户集合中的所有用户访问的所有页面为当前页面集合;步骤d1,记录执行步骤c1的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为用户集合;获取当前页面集合为页面集合;否则,执行步骤b1。
具体的,上述预设第一数值为迭代次数(例如,3次),为了进一步说明本步骤,以该预设第一数值为3次为例进行说明,将种子集合记为当前页面集合A。
本步骤中,查询行为数据库,获取访问过当前页面集合A的所有用户,称为当前用户集合B;
查询行为数据库,获取当前用户集合B中所有用户访问过的所有页面,称为当前页面集合C;
记录执行获取当前用户集合中所有用户访问过的所有页面的次数,此时该次数为1次(小于3次),继续查询行为数据库,获取访问过当前页面集合C的所有用户,称为当前用户集合D;
查询行为数据库,获取当前用户集合D中所有用户访问过的所有页面,称为当前页面集合E;
记录执行获取当前用户集合中所有用户访问过的所有页面的次数,此时该次数为2次(小于3次),继续查询行为数据库,获取访问过当前页面集合E的所有用户,称为当前用户集合X;
查询行为数据库,获取当前用户集合X中所有用户访问过的所有页面,称为当前页面集合Y;
记录执行获取当前用户集合中所有用户访问过的所有页面的次数,此时该次数为3次,获取当前用户集合X为用户集合,获取当前页面集合Y为页面集合,其中,页面集合Y包含种子集合A。
步骤204,确定页面集合中的页面是否具有A类型图片的属性,并确定用户集合中的用户是否具有A类型图片的属性。
具体的,当获取到用户集合X和页面集合Y后,需要确定用户集合X中的各个用户是否具有A类型图片的属性,并确定页面集合Y中的各个页面是否具有A类型图片的属性。本步骤中,该确定方式包括但不限于通过矩阵迭代的方式进行确定。
在通过使用矩阵迭代的方式进行确定的过程中,将people(用户)作为中心节点,并将page(页面)作为权威节点,将用户对页面的浏览作为是中心节点到权威节点的链接。
假设共有M个(用户集合X中的用户个数)people和N个(页面集合Y中的页面个数)page,则输入数据为一个M×N的矩阵A,其中,如果peoplei存在一个到pagej的浏览,则Aij=1,否则Aij=0。
另外,假设向量a=(a
1,a
2,…,a
N)代表所有page的page-rank(页面打分),向量h=(h
1,h
2,…,h
M)代表所有people的people-rank(用户打分)。其中,向量a=(a
1,a
2,…,a
N)的初始值置为
向量h=(h
1,h
2,…,h
M)的初始值置为
基于上述假设,对page-rank的向量a以及对people-rank的向量h的矩阵迭代包括:
h=Aa
a=ATh
其中,A为一个M×N的矩阵A,T为迭代次数,反复迭代上述h=Aa和a=ATh,在每次迭代计算完a后,将a中属于种子集合的元素置为当前a中的最大值的n倍(该倍数还可以根据实际需要进行调整,例如,该n=2),并在每次迭代后对向量a和h进行范化,使
以保证向量a和h的数值不会在反复的迭代中溢出。
通过上述的矩阵迭代过程,使得a和h最后分别收敛于浏览对应的page-rank和people-rank,从而获取到页面集合中各个页面的页面打分Page-rank,以及用户集合中各个用户的用户打分People-rank。
进一步的,如果页面对应的page-rank大于预设第一阈值(该第一阈值为根据实际需要选择的概率值)时,确定该页面具有A类型图片的属性;如果用户对应的People-rank大于预设第二阈值(该第二阈值为根据实际需要选择的概率值)时,确定该用户具有A类型图片的属性。
需要注意的是,确定用户集合X中的各个用户是否具有A类型图片的属性,并确定页面集合Y中的各个页面是否具有A类型图片的属性的方式并不局限于通过矩阵迭代的方式进行确定。例如,用户集合X中的用户浏览种子集合A中页面的个数超过预设概率(例如,该预设概率为1/20,如果种子集合A中页面一共为100个,用户A一共浏览了10个,则用户A浏览种子集合A中页面的个数超过预设概率)时,则该用户具有A类型图片的属性。页面集合Y中的页面被具有A类型图片属性的预设个数(例如,5个)的用户浏览时(例如,页面A被7个具有A类型图片属性的用户浏览),则该页面具有A类型图片的属性。
其中,本发明中的各个步骤之间的顺序关系还可以根据实际需要进行调整。
可见,通过使用本发明提供的方法,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
本发明另一种应用场景下提供一种信息的分类方法,如图3所示,包括以下步骤:
步骤301,建立用户到页面的行为数据库,并通过该行为数据库记录用户行为。
本步骤与步骤201中的处理过程类似,在此不再详加赘述。
步骤302,在所有用户中选择预设分类属性的种子集合。其中,该预设分类属性可以根据实际需要任意选择,例如,选择预设个数(例如,100个)的具有A类型图片的用户为种子集合。
步骤303,根据用户行为和种子集合获取页面集合和用户集合。
在获取页面集合和用户集合的过程中,本步骤具体包括以下步骤,步骤a2,将种子集合设置为当前用户集合;步骤b2,查询行为数据库,并根据用户行为获取当前用户集合中的所有用户访问的所有页面为当前页面集合;步骤c2,查询行为数据库,并根据用户行为获取访问当前页面集合的所有用户为当前用户集合;步骤d2,记录执行步骤c2的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为用户集合;获取当前页面集合为页面集合;否则,执行步骤b2。
步骤304,确定页面集合中的页面是否具有A类型图片的属性,并确定用户集合中的用户是否具有A类型图片的属性。
本步骤中的处理过程与步骤204中的处理过程类似,在此不再详加赘述。
其中,本发明中的各个步骤之间的顺序关系还可以根据实际需要进行调整。
可见,通过使用本发明提供的方法,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
基于同样的发明构思,本发明还提出了一种信息的分类装置,如图4所示,该装置包括:
设置模块11,用于设置具有预设分类属性的种子集合。
获取模块12,用于根据用户行为和所述设置模块11设置的所述种子集合获取页面集合和用户集合。
确定模块13,用于确定所述获取模块12获取的所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述获取模块获取的所述用户集合中的用户是否具有所述预设分类属性。
如上所述,本发明中该装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个装置,也可以进一步拆分成多个子模块。
可见,通过使用本发明提供的装置,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
基于同样的发明构思,本发明还提出了一种信息的分类装置,如图5所示,该装置包括:
设置模块21,用于设置具有预设分类属性的种子集合。
所述设置模块21具体用于,选取具有所述预设分类属性的页面为所述种子集合;或者,选取具有所述预设分类属性的用户为所述种子集合。
获取模块22,用于根据用户行为和所述设置模块21设置的所述种子集合获取页面集合和用户集合。
确定模块23,用于确定所述获取模块22获取的所述页面集合中的页面是否具有所述预设分类属性;和/或,确定所述获取模块获取的所述用户集合中的用户是否具有所述预设分类属性。
建立模块24,与获取模块22连接,用于建立用户到页面的行为数据库。
记录模块25,与获取模块22和建立模块24连接,用于通过所述建立模块24建立的所述行为数据库记录所述用户行为。
基于该记录模块25记录的用户行为,所述获取模块22具体用于,将所述种子集合设置为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;记录执行根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合的次数,并判断该次数是否达到预设第一数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。
所述获取模块22具体用于,将所述种子集合设置为当前用户集合;查询所述行为数据库,并根据所述用户行为获取所述当前用户集合中的所有用户访问的所有页面为当前页面集合;查询所述行为数据库,并根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合;记录执行根据所述用户行为获取访问所述当前页面集合的所有用户为当前用户集合的次数,并判断该次数是否达到预设第二数值;如果是,获取当前用户集合为所述用户集合;获取当前页面集合为所述页面集合。
另外,所述确定模块23具体用于,获取所述页面集合中页面的页面打分Page-rank,并判断所述Page-rank是否大于预设第一阈值;如果大于所述预设第一阈值,确定所述页面集合中的页面具有所述预设分类属性;和/或,
获取所述用户集合中用户的用户打分People-rank,并判断所述People-rank是否大于预设第二阈值;如果大于所述预设第二阈值,确定所述用户集合中的用户具有所述预设分类属性。
如上所述,本发明中该装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个装置,也可以进一步拆分成多个子模块。
可见,通过使用本发明提供的装置,通过设置具有预设分类属性的种子集合,并根据该种子集合和用户行为确定页面集合中的页面以及用户集合中的用户是否具有该预设分类属性,从而能够准确的确定页面的分类属性。
进一步的,当需要确定图片的分类属性时,只需要对该图片设置具有预设分类属性的种子集合,从而能够准确的确定图片的分类属性。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。