具体实施方式
本发明实施例根据获取的网络资源的属性信息中的特征信息,确定对应的网络资源类型及权值,根据确定的所述网络资源类型及权值,确定网络资源类型,由于可以根据网络资源的属性信息确定网络资源类型,不需要人工为不同的网站配置不同的类型,从而可以适用全网络资源搜寻的情况。
其中,网络资源类型包括但不限于下列中的一种或几种:
影视、音乐、软件、游戏等等。
网络资源的属性信息包括但不限于下列中的一种或几种:
网络资源的文件名、网络资源的下载地址所在页面的链接文字、网络资源的文件后缀名等等。
进一步的,如果网络资源的文件后缀名为压缩文件后缀名,则网络资源的属性信息还包括压缩文件列表,压缩文件列表中还有每个文件的文件名和文件后缀名。
在具体实施过程中,网络资源的文件名和网络资源的下载地址所在页面的链接文字可以通过URL协议、超级文本传送协议(Hyper Text TransportProtocol,HTTP)、超文本链接标示语言(Hypertext Markup Language,HTML)标准等技术获得;
压缩文件列表可以利用压缩格式的标准(比如ZIP格式)或者开放源代码(比如RAR格式),分析网络资源的文件内容后获得。
除非特殊说明,否则本发明实施例获取网络资源的属性信息都按照上述方式获得。
下面结合说明书附图对本发明实施例作进一步详细描述。
如图2所示,本发明实施例确定网络资源类型的装置包括:特征信息确定模块10、权值确定模块20和处理模块30。
特征信息确定模块10,与权值确定模块20连接,用于从获取的网络资源的属性信息中确定至少一个属性信息为特征信息。
其中,特征信息可以是关键信息,也可以是文件后缀名。
如果特征信息可以是关键信息,则特征信息确定模块10还可以进一步包括:关键信息确定模块100和第一确定模块101。
关键信息确定模块100,用于根据预先设定的关键信息集合,确定网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名的关键信息。
具体的,如果网络资源的属性信息中有页面链接文字和文件名,则确定页面链接文字和文件名的关键信息;
如果网络资源的属性信息中有页面链接文字或文件名,则确定页面链接文字或文件名的关键信息。
关键信息集合可以人工手动生成,还可以从网上搜索和筛选出与网络资源相关的关键信息。
关键信息集合可以用自定义的存储格式进行存储,关键信息可以是关键词,也可以是关键字,比如:中文版、教程、书等等。
第一确定模块101,用于将关键信息确定模块100确定的关键信息作为特征信息。
如果关键信息确定模块100确定了多个关键信息,则将每个关键信息都作为一个特征信息。
如果关键信息是文件后缀名,则特征信息确定模块10还可以进一步包括:匹配模块102和第二确定模块103。
匹配模块102,用于将网络资源的属性信息中的网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配。
匹配模块102查看文件后缀名集合中是否有网络资源的文件后缀名,如果有,则匹配成功。
文件后缀名集合可以用自定义的存储格式进行存储。
第二确定模块103,用于在匹配模块102匹配成功后,将网络资源的文件后缀名作为特征信息。
在具体实施过程中,如果网络资源的属性信息中只有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,则特征信息是关键信息;
如果网络资源的属性信息中只有网络资源的文件后缀名,则特征信息是文件后缀名;
如果网络资源的属性信息中既有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,又有网络资源的文件后缀名,则特征信息是关键信息和文件后缀名。
由于压缩文件中的文件可能是任何类型的文件,并不能通过压缩文件后缀名进行判断,所以,一种较佳方式是文件后缀名集合不包括压缩文件后缀名,这样就会出现匹配失败的情况,这时需要重新确定网络资源的文件后缀名。
其中,特征信息确定模块10还可以进一步包括:第一数量确定模块104、第一计算模块105、第一更新模块106和第一通知模块107。
第一数量确定模块104,用于在匹配模块102匹配失败后,如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,从网络资源的压缩文件列表中,确定各文件后缀名的数量。
第一计算模块105,用于计算第一数量确定模块104确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率。
第一更新模块106,用于将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。
第一通知模块107,用于通知匹配模块102将第一更新模块106更新后的网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。
为了避免匹配失败的情况,还可以在匹配之前判断网络资源的文件后缀名是否是压缩文件后缀名。
其中,特征信息确定模块10还可以进一步包括:第二数量确定模块108、第二计算模块109、第二更新模块110和第二通知模块111。
第二数量确定模块108,用于如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,在匹配模块102进行匹配前,从网络资源的属性信息中的压缩文件列表中,确定各文件后缀名的数量。
第二计算模块109,用于计算第二数量确定模块108确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率。
第二更新模块110,用于将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。
第二通知模块111,用于通知匹配模块102将第二更新模块110更新后的网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配。
权值确定模块20,与特征信息确定模块10和处理模块30连接,用于根据预先设定的特征信息和网络资源类型及权值的对应关系,确定特征信息确定模块10确定的每个特征信息对应的网络资源类型及权值。
其中,一个特征信息可以对应多个网络资源类型及权值,比如:特征信息为avi,则avi可以对应影视和音乐两个网路资源类型,而影视的权值和音乐的权值可以根据特征信息的不同设定不同的权值,具体的,文件后缀名为avi的文件大多数是影视,少部分是音乐,则可以将avi对应影视的权值设定为1,将avi对应的音乐的权值设定为0.1。
在具体实施过程中,特征信息和网络资源类型及权值的对应关系可以采用数据库或文件或其他形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实体中供本实施例的装置查找。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如:在服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的应用程序接口(Application Programming Interface,API)。一般在关系型数据库中,采用结构化查询语言(Structured Query Language,SQL)作为管理数据库内容的接口程序。
处理模块30,与权值确定模块20连接,用于根据确定的网络资源类型及权值,确定网络资源类型。
其中,一个特征信息对应不同的网络资源类型及权值时,处理模块30还可以进一步包括:第一网络资源类型确定模块300。
第一网络资源类型确定模块300,用于将对应的权值最大的网络资源类型作为确定的网络资源类型。
其中,在特征信息确定模块10确定多个属性信息为特征信息时,处理模块30还可以进一步包括:计算模块301和第二网络资源类型确定模块302。
计算模块301,用于将每个特征信息对应的网络资源类型相同的各权值相加。
第二网络资源类型确定模块302,用于根据权值相加后的结果确定网络资源类型。
其中,第二网络资源类型确定模块302还可以进一步包括:权值确定模块3020和比较模块3021。
权值确定模块3020,用于确定每个网络资源类型对应的权值之和。
如果确定的网络资源类型没有相同的,则网络资源类型对应的权值之和为确定的网络资源类型及权值。比如:确定了3个网络资源类型及权值,分别为,音乐,权值为1;影视,权值为1和音乐,权值为0.1,则音乐的权值之和为1.1,影视的权值之和为0.1。
比较模块3021,用于将对应的权值之和大于阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。
较佳的方式是将权值之和大于阈值的最大的值对应的网络资源类型作为确定的网络资源类型;如果权值之和没有大于阈值的,则将权值之和最大的值对应的网络资源类型作为确定的网络资源类型。
需要说明是,本实施例并不局限于上述两种方式,任何根据权值相加后的结果确定网络资源类型的方式都适用本实施例。
如图3所示,本发明实施例确定网络资源类型的方法包括下列步骤:
步骤300、从获取的网络资源的属性信息中确定至少一个属性信息为特征信息。
其中,特征信息可以是关键信息,也可以是文件后缀名。
如果特征信息可以是关键信息,则步骤300还可以进一步包括:
步骤A1、根据预先设定的关键信息集合,确定网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名的关键信息;
步骤A2、将确定的关键信息作为特征信息。
具体的,如果网络资源的属性信息中有页面链接文字和文件名,则确定页面链接文字和文件名的关键信息;
如果网络资源的属性信息中有页面链接文字或文件名,则确定页面链接文字或文件名的关键信息。
关键信息集合可以人工手动生成,还可以从网上搜索和筛选出与网络资源相关的关键信息。
关键信息集合可以用自定义的存储格式进行存储,关键信息可以是关键词,也可以是关键字,比如:中文版、教程、书等等。
如果确定了多个关键信息,则将每个关键信息都作为一个特征信息。
如果特征信息可以是文件后缀名,则步骤300还可以进一步包括:
步骤B1、将网络资源的属性信息中的网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配;
步骤B2、在匹配成功后,将网络资源的文件后缀名作为特征信息。
文件后缀名集合可以用自定义的存储格式进行存储。
在具体实施过程中,如果网络资源的属性信息中只有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,则特征信息是关键信息;
如果网络资源的属性信息中只有网络资源的文件后缀名,则特征信息是文件后缀名;
如果网络资源的属性信息中既有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,又有网络资源的文件后缀名,则特征信息是关键信息和文件后缀名。
由于压缩文件中的文件可能是任何类型的文件,并不能通过压缩文件后缀名进行判断,所以,一种较佳方式是文件后缀名集合不包括压缩文件后缀名,这样就会出现匹配失败的情况,这时需要重新确定网络资源的文件后缀名。
其中,如果步骤B1中匹配失败,则步骤B1和步骤B2之间还可以进一步包括:
11)如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,从网络资源的压缩文件列表中,确定各文件后缀名的数量。
压缩文件列表包括每个文件的文件名以及对应的文件后缀名,比如:压缩文件列表为1.avi 2.avi 3.avi 4.avi readme.txt,则1、2、3、4为文件名,avi和txt为文件后缀名。
这时需要统计各文件后缀名的数量,即avi对应的数量是3,txt对应的数量是1。
12)计算确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率。
比如:压缩文件列表为1.avi 2.avi 3.avi 4.avi readme.txt,一共有4个文件,avi对应的数量是3,占75%(或0.75);txt对应的数量是1,占25%(或0.25)。
13)将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。
阈值可以根据需要进行设定,比如这里阈值设定为60%(或0.6),则avi占75%,txt占25%,avi的比率大于阈值,则将avi作为网络资源的文件后缀名。
14)将该网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。
为了避免匹配失败的情况,还可以在匹配之前判断网络资源的文件后缀名是否是压缩文件后缀名。
其中,如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,则步骤B2中,根据下列步骤确定网络资源的属性信息中的网络资源的文件后缀名:
21)从网络资源的属性信息中的压缩文件列表中,确定各文件后缀名的数量;
22)计算确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率;
23)将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。
步骤301、根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个特征信息对应的网络资源类型及权值。
其中,一个特征信息可以对应多个网络资源类型及权值,比如:特征信息为avi,则avi可以对应影视和音乐两个网路资源类型,而影视的权值和音乐的权值可以根据特征信息的不同设定不同的权值,具体的,文件后缀名为avi的文件大多数是影视,少部分是音乐,则可以将avi对应影视的权值设定为1,将avi对应的音乐的权值设定为0.1。
在具体实施过程中,特征信息和网络资源类型及权值的对应关系可以采用数据库或文件或其他形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实体中供本实施例的装置查找。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如:在服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的API。一般在关系型数据库中,采用SQL作为管理数据库内容的接口程序。
步骤302、根据确定的所述网络资源类型及权值,确定网络资源类型。
其中,一个特征信息对应不同的网络资源类型及权值时,步骤302还可以进一步包括:
将对应的权值最大的网络资源类型作为确定的网络资源类型。
其中,在步骤300中确定多个属性信息为特征信息时,步骤302还可以进一步包括:
步骤a302、将每个特征信息对应的网络资源类型相同的各权值相加。
步骤b302、根据权值相加后的结果确定网络资源类型。
如果确定的网络资源类型没有相同的,则网络资源类型对应的权值之和为确定的网络资源类型及权值。比如:确定了3个网络资源类型及权值,分别为,音乐,权值为1;影视,权值为1和音乐,权值为0.1,则音乐的权值之和为1.1,影视的权值之和为0.1。
步骤b302中,根据权值相加后的结果确定网络资源类型还可以进一步包括:
确定每个网络资源类型对应的权值之和;
将对应的权值之和大于阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。
较佳的方式是将权值之和大于阈值的最大的值对应的网络资源类型作为确定的网络资源类型;如果权值之和没有大于阈值的,则将权值之和最大的值对应的网络资源类型作为确定的网络资源类型。
需要说明是,本实施例并不局限于上述两种方式,任何根据权值相加后的结果确定网络资源类型的方式都适用本实施例。
在具体实施过程中,本实施例确定网络资源类型的方法可以由网络资源搜索系统中的网络蜘蛛执行,还可以由网络资源搜索系统中的其他装置执行。
如图4所示,本发明实施例采用关键信息和文件后缀名确定网络资源类型的方法包括下列步骤:
假设,网络资源的文件后缀名为压缩文件后缀名。
步骤400、查找到一个网络资源后,获取该网络资源的属性信息。
其中,获取该网络资源的属性信息包括:
网络资源的文件名为ps、网络资源的下载地址所在页面的链接文字Photoshop中文版教程下载、网络资源的文件后缀名rar、压缩文件列表内容为1.avi 2.avi 3.avi 4.avi readme.txt。
步骤401、从关键信息中确定属性信息中的中文版和教程为特征信息。
步骤402、确定rar为压缩文件后缀名,从压缩文件列表中确定avi对应的数量是3占75%;txt对应的数量是1占25%。
步骤403、确定avi的比率75%大于阈值的60%,将avi作为特征信息。
步骤404、从先设定的特征信息和网络资源类型及权值的对应关系中,确定中文版对应的软件的权值为1、游戏的权值为1;确定教程对应的书籍的权值为1、影视的权值为0.1;确定avi对应的影视权值为1、音乐权值为0.1。
步骤405、将相同的网络资源类型对应的权值相加,最后的结果如下表所示:
网络资源类型 |
权重 |
影视 |
1.1 |
音乐 |
0.1 |
软件 |
1 |
游戏 |
1 |
书籍 |
1 |
步骤406、将影视作为查找到的网络资源的类型。
本实施例是在匹配之前先判断文件后缀名是否是压缩文件后缀名,还有一种方式是在匹配之后,如果匹配失败,则判断文件后缀名是否是压缩文件后缀名,如果是,则重新确定网络资源的文件后缀名。
具体的匹配失败后判断文件后缀名是否是压缩文件后缀名,与匹配之前先判断文件后缀名是否是压缩文件后缀名过程类似,不再赘述。
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行。这样,本发明不限制于任何特定的硬件和软件结合。
从上述实施例中可以看出:本发明实施例从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。由于可以根据网络资源的属性信息确定网络资源类型,从而可以适用全网络资源搜寻的情况,并且提高了网络资源类型的准确率、用户体验以及网络带宽的利用率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。