CN101340463A - 一种确定网络资源类型的方法和装置 - Google Patents

一种确定网络资源类型的方法和装置 Download PDF

Info

Publication number
CN101340463A
CN101340463A CNA2008101457907A CN200810145790A CN101340463A CN 101340463 A CN101340463 A CN 101340463A CN A2008101457907 A CNA2008101457907 A CN A2008101457907A CN 200810145790 A CN200810145790 A CN 200810145790A CN 101340463 A CN101340463 A CN 101340463A
Authority
CN
China
Prior art keywords
network resource
internet resources
resource type
weights
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101457907A
Other languages
English (en)
Other versions
CN101340463B (zh
Inventor
张国强
陈晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xunlei Network Technology Co Ltd
Original Assignee
Shenzhen Xunlei Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xunlei Network Technology Co Ltd filed Critical Shenzhen Xunlei Network Technology Co Ltd
Priority to CN2008101457907A priority Critical patent/CN101340463B/zh
Publication of CN101340463A publication Critical patent/CN101340463A/zh
Application granted granted Critical
Publication of CN101340463B publication Critical patent/CN101340463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络通信技术,特别涉及一种确定网络资源类型的方法和装置,用以解决现有技术中存在的确定网络资源类型的方法不适用于全网络资源搜寻,并且确定的网络资源类型不准确的问题。本发明实施例的方法包括:从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。采用本发明实施例能够从全网络资源中进行搜寻,并且提高了网络资源类型的准确率。

Description

一种确定网络资源类型的方法和装置
技术领域
本发明涉及网络通信技术,特别涉及一种确定网络资源类型的方法和装置。
背景技术
随着网络的飞速发展,网络资源也越来越多,网络资源搜索系统的出现使得用户可以从互联网(Internet)上准确找到自己需要的网络资源。
Internet上的网络资源包括各种数字音乐、影视、软件、书籍等等,并以各种不同的文件格式而存在,每个网络资源都对应有下载地址(即统一资源定位符(Uniform Resource Locator,URL)地址或点对点(Point To Point,P2P)地址标识),用户通过下载地址就可以下载对应的网络资源。
网络资源搜索系统是一种向用户提供搜索Internet上各种网络资源的系统。在用户向网络资源搜索系统提交搜索关键信息后,网络资源搜索系统根据关键信息就可以给出相应的网络资源名称以及下载地址,用户根据地址下载就可以下载网络资源。如图1所示,目前网络资源搜索系统结构示意图中,包括:搜索引擎、资源数据库和网络蜘蛛(Web Spider)。
其中,网络蜘蛛可以自动在互联网上搜索各种网络资源,并把搜寻的各种网络资源记录到资源数据库中;资源数据库记录了网络资源的相关信息,包括网络资源实名、下载地址、网络资源类型、网络资源大小等信息;搜索引擎是一个网络服务器程序,可以根据用户提交的关键信息在资源数据库中找到相应的网络资源,并把结果提供给用户。
网络蜘蛛在找到一个网络资源时,需要通过分析而得到它的一些信息,以便该网络资源能被记录到资源数据库中,其中一个重要的信息是网络资源类型,通过记录网络资源类型,搜索引擎可以向用户提供在某一特定类型的网络资源中进行搜索的功能。
目前有一种确定网络资源类型的方法,即将一个网站所提供的所有网络资源都归为一种类型。
在这种方法中,通过人工为不同的网站配置不同的类型,比如:音乐网站配置的类型为音乐,软件网站配置的类型为软件等等。
当网络蜘蛛从某个网站上找到一个网络资源时,将配置的该网站的类型作为该网络资源的类型。
这种方法存在以下的问题:
不适用于网络蜘蛛的全网络资源搜寻。由于需要人工设定每一个网站的类别,这种方法只适用于网络蜘蛛在指定网络范围中搜寻网络资源,当范围扩大到全网络时,由于网站数量过于庞大,不可能人工设定每一个网站的类别。
确定的网络资源类型不准确。这种方法由于是对一个网站设定一个类型,也就认为该网站提供的网络资源全是同一个类型,而目前有许多网站会提供多种类型的网络资源,比如一个综合网站,可以提供音乐、软件、电影等等类型的网络资源,显然这种方法不能准确确定网络资源类型。
综上所述,现有技术确定网络资源类型的方法不适用于全网络资源搜寻,并且确定的网络资源类型不准确。
发明内容
本发明实施例提供一种确定网络资源类型的方法和装置,用以解决现有技术中存在的确定网络资源类型的方法不适用于全网络资源搜寻,并且确定的网络资源类型不准确的问题。
本发明实施例提供的一种确定网络资源类型的方法包括:
从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;
根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;
根据确定的所述网络资源类型及权值,确定网络资源类型。
本发明实施例提供的一种确定网络资源类型的装置包括:
特征信息确定模块,用于从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;
权值确定模块,用于根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;
处理模块,用于根据确定的所述网络资源类型及权值,确定网络资源类型。
本发明实施例从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。由于可以根据网络资源的属性信息确定网络资源类型,从而可以适用全网络资源搜寻的情况,并且提高了网络资源类型的准确率、用户体验以及网络带宽的利用率。
附图说明
图1为网络资源搜索系统结构示意图;
图2为本发明实施例确定网络资源类型的装置结构示意图;
图3为本发明实施例确定网络资源类型的方法流程示意图;
图4为本发明实施例采用关键信息和文件后缀名确定网络资源类型的方法流程示意图。
具体实施方式
本发明实施例根据获取的网络资源的属性信息中的特征信息,确定对应的网络资源类型及权值,根据确定的所述网络资源类型及权值,确定网络资源类型,由于可以根据网络资源的属性信息确定网络资源类型,不需要人工为不同的网站配置不同的类型,从而可以适用全网络资源搜寻的情况。
其中,网络资源类型包括但不限于下列中的一种或几种:
影视、音乐、软件、游戏等等。
网络资源的属性信息包括但不限于下列中的一种或几种:
网络资源的文件名、网络资源的下载地址所在页面的链接文字、网络资源的文件后缀名等等。
进一步的,如果网络资源的文件后缀名为压缩文件后缀名,则网络资源的属性信息还包括压缩文件列表,压缩文件列表中还有每个文件的文件名和文件后缀名。
在具体实施过程中,网络资源的文件名和网络资源的下载地址所在页面的链接文字可以通过URL协议、超级文本传送协议(Hyper Text TransportProtocol,HTTP)、超文本链接标示语言(Hypertext Markup Language,HTML)标准等技术获得;
压缩文件列表可以利用压缩格式的标准(比如ZIP格式)或者开放源代码(比如RAR格式),分析网络资源的文件内容后获得。
除非特殊说明,否则本发明实施例获取网络资源的属性信息都按照上述方式获得。
下面结合说明书附图对本发明实施例作进一步详细描述。
如图2所示,本发明实施例确定网络资源类型的装置包括:特征信息确定模块10、权值确定模块20和处理模块30。
特征信息确定模块10,与权值确定模块20连接,用于从获取的网络资源的属性信息中确定至少一个属性信息为特征信息。
其中,特征信息可以是关键信息,也可以是文件后缀名。
如果特征信息可以是关键信息,则特征信息确定模块10还可以进一步包括:关键信息确定模块100和第一确定模块101。
关键信息确定模块100,用于根据预先设定的关键信息集合,确定网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名的关键信息。
具体的,如果网络资源的属性信息中有页面链接文字和文件名,则确定页面链接文字和文件名的关键信息;
如果网络资源的属性信息中有页面链接文字或文件名,则确定页面链接文字或文件名的关键信息。
关键信息集合可以人工手动生成,还可以从网上搜索和筛选出与网络资源相关的关键信息。
关键信息集合可以用自定义的存储格式进行存储,关键信息可以是关键词,也可以是关键字,比如:中文版、教程、书等等。
第一确定模块101,用于将关键信息确定模块100确定的关键信息作为特征信息。
如果关键信息确定模块100确定了多个关键信息,则将每个关键信息都作为一个特征信息。
如果关键信息是文件后缀名,则特征信息确定模块10还可以进一步包括:匹配模块102和第二确定模块103。
匹配模块102,用于将网络资源的属性信息中的网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配。
匹配模块102查看文件后缀名集合中是否有网络资源的文件后缀名,如果有,则匹配成功。
文件后缀名集合可以用自定义的存储格式进行存储。
第二确定模块103,用于在匹配模块102匹配成功后,将网络资源的文件后缀名作为特征信息。
在具体实施过程中,如果网络资源的属性信息中只有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,则特征信息是关键信息;
如果网络资源的属性信息中只有网络资源的文件后缀名,则特征信息是文件后缀名;
如果网络资源的属性信息中既有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,又有网络资源的文件后缀名,则特征信息是关键信息和文件后缀名。
由于压缩文件中的文件可能是任何类型的文件,并不能通过压缩文件后缀名进行判断,所以,一种较佳方式是文件后缀名集合不包括压缩文件后缀名,这样就会出现匹配失败的情况,这时需要重新确定网络资源的文件后缀名。
其中,特征信息确定模块10还可以进一步包括:第一数量确定模块104、第一计算模块105、第一更新模块106和第一通知模块107。
第一数量确定模块104,用于在匹配模块102匹配失败后,如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,从网络资源的压缩文件列表中,确定各文件后缀名的数量。
第一计算模块105,用于计算第一数量确定模块104确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率。
第一更新模块106,用于将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。
第一通知模块107,用于通知匹配模块102将第一更新模块106更新后的网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。
为了避免匹配失败的情况,还可以在匹配之前判断网络资源的文件后缀名是否是压缩文件后缀名。
其中,特征信息确定模块10还可以进一步包括:第二数量确定模块108、第二计算模块109、第二更新模块110和第二通知模块111。
第二数量确定模块108,用于如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,在匹配模块102进行匹配前,从网络资源的属性信息中的压缩文件列表中,确定各文件后缀名的数量。
第二计算模块109,用于计算第二数量确定模块108确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率。
第二更新模块110,用于将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。
第二通知模块111,用于通知匹配模块102将第二更新模块110更新后的网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配。
权值确定模块20,与特征信息确定模块10和处理模块30连接,用于根据预先设定的特征信息和网络资源类型及权值的对应关系,确定特征信息确定模块10确定的每个特征信息对应的网络资源类型及权值。
其中,一个特征信息可以对应多个网络资源类型及权值,比如:特征信息为avi,则avi可以对应影视和音乐两个网路资源类型,而影视的权值和音乐的权值可以根据特征信息的不同设定不同的权值,具体的,文件后缀名为avi的文件大多数是影视,少部分是音乐,则可以将avi对应影视的权值设定为1,将avi对应的音乐的权值设定为0.1。
在具体实施过程中,特征信息和网络资源类型及权值的对应关系可以采用数据库或文件或其他形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实体中供本实施例的装置查找。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如:在服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的应用程序接口(Application Programming Interface,API)。一般在关系型数据库中,采用结构化查询语言(Structured Query Language,SQL)作为管理数据库内容的接口程序。
处理模块30,与权值确定模块20连接,用于根据确定的网络资源类型及权值,确定网络资源类型。
其中,一个特征信息对应不同的网络资源类型及权值时,处理模块30还可以进一步包括:第一网络资源类型确定模块300。
第一网络资源类型确定模块300,用于将对应的权值最大的网络资源类型作为确定的网络资源类型。
其中,在特征信息确定模块10确定多个属性信息为特征信息时,处理模块30还可以进一步包括:计算模块301和第二网络资源类型确定模块302。
计算模块301,用于将每个特征信息对应的网络资源类型相同的各权值相加。
第二网络资源类型确定模块302,用于根据权值相加后的结果确定网络资源类型。
其中,第二网络资源类型确定模块302还可以进一步包括:权值确定模块3020和比较模块3021。
权值确定模块3020,用于确定每个网络资源类型对应的权值之和。
如果确定的网络资源类型没有相同的,则网络资源类型对应的权值之和为确定的网络资源类型及权值。比如:确定了3个网络资源类型及权值,分别为,音乐,权值为1;影视,权值为1和音乐,权值为0.1,则音乐的权值之和为1.1,影视的权值之和为0.1。
比较模块3021,用于将对应的权值之和大于阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。
较佳的方式是将权值之和大于阈值的最大的值对应的网络资源类型作为确定的网络资源类型;如果权值之和没有大于阈值的,则将权值之和最大的值对应的网络资源类型作为确定的网络资源类型。
需要说明是,本实施例并不局限于上述两种方式,任何根据权值相加后的结果确定网络资源类型的方式都适用本实施例。
如图3所示,本发明实施例确定网络资源类型的方法包括下列步骤:
步骤300、从获取的网络资源的属性信息中确定至少一个属性信息为特征信息。
其中,特征信息可以是关键信息,也可以是文件后缀名。
如果特征信息可以是关键信息,则步骤300还可以进一步包括:
步骤A1、根据预先设定的关键信息集合,确定网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名的关键信息;
步骤A2、将确定的关键信息作为特征信息。
具体的,如果网络资源的属性信息中有页面链接文字和文件名,则确定页面链接文字和文件名的关键信息;
如果网络资源的属性信息中有页面链接文字或文件名,则确定页面链接文字或文件名的关键信息。
关键信息集合可以人工手动生成,还可以从网上搜索和筛选出与网络资源相关的关键信息。
关键信息集合可以用自定义的存储格式进行存储,关键信息可以是关键词,也可以是关键字,比如:中文版、教程、书等等。
如果确定了多个关键信息,则将每个关键信息都作为一个特征信息。
如果特征信息可以是文件后缀名,则步骤300还可以进一步包括:
步骤B1、将网络资源的属性信息中的网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配;
步骤B2、在匹配成功后,将网络资源的文件后缀名作为特征信息。
文件后缀名集合可以用自定义的存储格式进行存储。
在具体实施过程中,如果网络资源的属性信息中只有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,则特征信息是关键信息;
如果网络资源的属性信息中只有网络资源的文件后缀名,则特征信息是文件后缀名;
如果网络资源的属性信息中既有网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名,又有网络资源的文件后缀名,则特征信息是关键信息和文件后缀名。
由于压缩文件中的文件可能是任何类型的文件,并不能通过压缩文件后缀名进行判断,所以,一种较佳方式是文件后缀名集合不包括压缩文件后缀名,这样就会出现匹配失败的情况,这时需要重新确定网络资源的文件后缀名。
其中,如果步骤B1中匹配失败,则步骤B1和步骤B2之间还可以进一步包括:
11)如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,从网络资源的压缩文件列表中,确定各文件后缀名的数量。
压缩文件列表包括每个文件的文件名以及对应的文件后缀名,比如:压缩文件列表为1.avi 2.avi 3.avi 4.avi readme.txt,则1、2、3、4为文件名,avi和txt为文件后缀名。
这时需要统计各文件后缀名的数量,即avi对应的数量是3,txt对应的数量是1。
12)计算确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率。
比如:压缩文件列表为1.avi 2.avi 3.avi 4.avi readme.txt,一共有4个文件,avi对应的数量是3,占75%(或0.75);txt对应的数量是1,占25%(或0.25)。
13)将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。
阈值可以根据需要进行设定,比如这里阈值设定为60%(或0.6),则avi占75%,txt占25%,avi的比率大于阈值,则将avi作为网络资源的文件后缀名。
14)将该网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。
为了避免匹配失败的情况,还可以在匹配之前判断网络资源的文件后缀名是否是压缩文件后缀名。
其中,如果网络资源的属性信息中的网络资源的文件后缀名为压缩文件后缀名,则步骤B2中,根据下列步骤确定网络资源的属性信息中的网络资源的文件后缀名:
21)从网络资源的属性信息中的压缩文件列表中,确定各文件后缀名的数量;
22)计算确定的各文件后缀名的数量占压缩文件列表中总文件的数量的比率;
23)将比率大于阈值的一个文件后缀名作为网络资源的文件后缀名。
步骤301、根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个特征信息对应的网络资源类型及权值。
其中,一个特征信息可以对应多个网络资源类型及权值,比如:特征信息为avi,则avi可以对应影视和音乐两个网路资源类型,而影视的权值和音乐的权值可以根据特征信息的不同设定不同的权值,具体的,文件后缀名为avi的文件大多数是影视,少部分是音乐,则可以将avi对应影视的权值设定为1,将avi对应的音乐的权值设定为0.1。
在具体实施过程中,特征信息和网络资源类型及权值的对应关系可以采用数据库或文件或其他形式进行存储,并且可以存储到本实施例的装置中,也可以存储到其他实体中供本实施例的装置查找。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如:在服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的API。一般在关系型数据库中,采用SQL作为管理数据库内容的接口程序。
步骤302、根据确定的所述网络资源类型及权值,确定网络资源类型。
其中,一个特征信息对应不同的网络资源类型及权值时,步骤302还可以进一步包括:
将对应的权值最大的网络资源类型作为确定的网络资源类型。
其中,在步骤300中确定多个属性信息为特征信息时,步骤302还可以进一步包括:
步骤a302、将每个特征信息对应的网络资源类型相同的各权值相加。
步骤b302、根据权值相加后的结果确定网络资源类型。
如果确定的网络资源类型没有相同的,则网络资源类型对应的权值之和为确定的网络资源类型及权值。比如:确定了3个网络资源类型及权值,分别为,音乐,权值为1;影视,权值为1和音乐,权值为0.1,则音乐的权值之和为1.1,影视的权值之和为0.1。
步骤b302中,根据权值相加后的结果确定网络资源类型还可以进一步包括:
确定每个网络资源类型对应的权值之和;
将对应的权值之和大于阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。
较佳的方式是将权值之和大于阈值的最大的值对应的网络资源类型作为确定的网络资源类型;如果权值之和没有大于阈值的,则将权值之和最大的值对应的网络资源类型作为确定的网络资源类型。
需要说明是,本实施例并不局限于上述两种方式,任何根据权值相加后的结果确定网络资源类型的方式都适用本实施例。
在具体实施过程中,本实施例确定网络资源类型的方法可以由网络资源搜索系统中的网络蜘蛛执行,还可以由网络资源搜索系统中的其他装置执行。
如图4所示,本发明实施例采用关键信息和文件后缀名确定网络资源类型的方法包括下列步骤:
假设,网络资源的文件后缀名为压缩文件后缀名。
步骤400、查找到一个网络资源后,获取该网络资源的属性信息。
其中,获取该网络资源的属性信息包括:
网络资源的文件名为ps、网络资源的下载地址所在页面的链接文字Photoshop中文版教程下载、网络资源的文件后缀名rar、压缩文件列表内容为1.avi 2.avi 3.avi 4.avi readme.txt。
步骤401、从关键信息中确定属性信息中的中文版和教程为特征信息。
步骤402、确定rar为压缩文件后缀名,从压缩文件列表中确定avi对应的数量是3占75%;txt对应的数量是1占25%。
步骤403、确定avi的比率75%大于阈值的60%,将avi作为特征信息。
步骤404、从先设定的特征信息和网络资源类型及权值的对应关系中,确定中文版对应的软件的权值为1、游戏的权值为1;确定教程对应的书籍的权值为1、影视的权值为0.1;确定avi对应的影视权值为1、音乐权值为0.1。
步骤405、将相同的网络资源类型对应的权值相加,最后的结果如下表所示:
  网络资源类型   权重
  影视   1.1
  音乐   0.1
  软件   1
  游戏   1
  书籍   1
步骤406、将影视作为查找到的网络资源的类型。
本实施例是在匹配之前先判断文件后缀名是否是压缩文件后缀名,还有一种方式是在匹配之后,如果匹配失败,则判断文件后缀名是否是压缩文件后缀名,如果是,则重新确定网络资源的文件后缀名。
具体的匹配失败后判断文件后缀名是否是压缩文件后缀名,与匹配之前先判断文件后缀名是否是压缩文件后缀名过程类似,不再赘述。
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行。这样,本发明不限制于任何特定的硬件和软件结合。
从上述实施例中可以看出:本发明实施例从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。由于可以根据网络资源的属性信息确定网络资源类型,从而可以适用全网络资源搜寻的情况,并且提高了网络资源类型的准确率、用户体验以及网络带宽的利用率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1、一种确定网络资源类型的方法,其特征在于,该方法包括:
从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;
根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;
根据确定的所述网络资源类型及权值,确定网络资源类型。
2、如权利要求1所述的方法,其特征在于,当确定一个属性信息为特征信息,且一个特征信息对应多个不同的网络资源类型及权值时,所述根据确定的所述网络资源类型及权值,确定网络资源类型包括:
将对应的权值最大的网络资源类型作为确定的网络资源类型。
3、如权利要求1所述的方法,其特征在于,当确定多个属性信息为特征信息时,所述根据确定的所述网络资源类型及权值,确定网络资源类型包括:
将每个特征信息对应的网络资源类型相同的各权值相加,根据权值相加后的结果确定网络资源类型。
4、如权利要求3所述的方法,其特征在于,所述根据权值相加后的结果确定网络资源类型包括:
确定每个网络资源类型对应的权值之和;
将对应的权值之和大于第一阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。
5、如权利要求1所述的方法,其特征在于,所述网络资源的属性信息包括页面链接文字的关键信息和文件名的关键信息,所述从获取的所述网络资源的属性信息中确定至少一个属性信息为特征信息包括:
根据预先设定的关键信息集合,确定所述网络资源的属性信息中的页面链接文字的关键信息和/或所述网络资源的属性信息中的文件名的关键信息;
将确定的关键信息作为所述特征信息。
6、如权利要求1或5所述的方法,其特征在于,所述网络资源的属性信息包括文件后缀名,所述从获取的所述网络资源的属性信息中确定至少一个属性信息为特征信息包括:
将所述网络资源的属性信息中的所述网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配;
在匹配成功后,将所述网络资源的文件后缀名作为所述特征信息。
7、如权利要求6所述的方法,其特征在于,该方法还包括:
在匹配失败后,如果所述网络资源的属性信息中的所述网络资源的文件后缀名为压缩文件后缀名,从所述网络资源的压缩文件列表中,确定各文件后缀名的数量;
计算确定的所述各文件后缀名的数量占所述压缩文件列表中总文件的数量的比率;
将比率大于第二阈值的一个文件后缀名作为所述网络资源的文件后缀名;
将该网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。
8、如权利要求6所述的方法,其特征在于,如果所述网络资源的属性信息中的所述网络资源的文件后缀名为压缩文件后缀名,所述将所述网络资源信息中的所述网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配之前还包括:
从所述网络资源的中的压缩文件列表中,确定各文件后缀名的数量;
计算确定的所述各文件后缀名的数量占所述压缩文件列表中总文件的数量的比率;
将比率大于阈值的一个文件后缀名作为所述网络资源的文件后缀名。
9、一种确定网络资源类型的装置,其特征在于,该装置包括:
特征信息确定模块,用于从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;
权值确定模块,用于根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;
处理模块,用于根据确定的所述网络资源类型及权值,确定网络资源类型。
10、如权利要求9所述的装置,其特征在于,所述处理模块包括:
第一网络资源类型确定模块,用于当确定一个属性信息为特征信息,且一个特征信息对应多个不同的网络资源类型及权值时,将对应的权值最大的网络资源类型作为确定的网络资源类型。
11、如权利要求9所述的装置,其特征在于,所述处理模块包括:
计算模块,用于在所述特征信息确定模块确定多个属性信息为特征信息时,将每个特征信息对应的网络资源类型相同的各权值相加;
第二网络资源类型确定模块,用于根据权值相加后的结果确定网络资源类型。
12、如权利要求11所述的装置,其特征在于,所述第二网络资源类型确定模块包括:
权值确定模块,用于确定每个网络资源类型对应的权值之和;
比较模块,用于将对应的权值之和大于阈值的一个网络资源类型作为确定的网络资源类型;或将对应的权值之和最大的网络资源类型作为确定的网络资源类型。
13、如权利要求9所述的装置,其特征在于,所述特征信息确定模块包括:
关键信息确定模块,用于根据预先设定的关键信息集合,确定所述网络资源的属性信息中的页面链接文字和/或所述网络资源的属性信息中的文件名的关键信息;
第一确定模块,用于将所述关键信息确定模块确定的关键信息作为所述特征信息。
14、如权利要求9或13所述的装置,其特征在于,所述特征信息确定模块包括:
匹配模块,用于将所述网络资源的属性信息中的所述网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配;
第二确定模块,用于在匹配成功后,将所述网络资源的文件后缀名作为所述特征信息。
15、如权利要求14所述的装置,其特征在于,所述特征信息确定模块还包括:
第一数量确定模块,用于在所述匹配模块匹配失败后,如果所述网络资源的属性信息中的所述网络资源的文件后缀名为压缩文件后缀名,从所述网络资源的压缩文件列表中,确定各文件后缀名的数量;
第一计算模块,用于计算确定的所述各文件后缀名的数量占所述压缩文件列表中总文件的数量的比率;
第一更新模块,用于将比率大于阈值的一个文件后缀名作为所述网络资源的文件后缀名;
第一通知模块,用于通知所述匹配模块将该网络资源的文件后缀名与预先设定的文件后缀名集合重新进行匹配。
16、如权利要求14所述的装置,其特征在于,所述特征信息确定模块还包括:
第二数量确定模块,用于如果所述网络资源的属性信息中的所述网络资源的文件后缀名为压缩文件后缀名,从所述网络资源的属性信息中的压缩文件列表中,确定各文件后缀名的数量;
第二计算模块,用于计算确定的所述各文件后缀名的数量占所述压缩文件列表中总文件的数量的比率;
第二更新模块,用于将比率大于阈值的一个文件后缀名作为所述网络资源的文件后缀名;
第二通知模块,用于通知所述匹配模块将该网络资源的文件后缀名与预先设定的文件后缀名集合进行匹配。
CN2008101457907A 2008-08-22 2008-08-22 一种确定网络资源类型的方法和装置 Active CN101340463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101457907A CN101340463B (zh) 2008-08-22 2008-08-22 一种确定网络资源类型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101457907A CN101340463B (zh) 2008-08-22 2008-08-22 一种确定网络资源类型的方法和装置

Publications (2)

Publication Number Publication Date
CN101340463A true CN101340463A (zh) 2009-01-07
CN101340463B CN101340463B (zh) 2012-04-25

Family

ID=40214414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101457907A Active CN101340463B (zh) 2008-08-22 2008-08-22 一种确定网络资源类型的方法和装置

Country Status (1)

Country Link
CN (1) CN101340463B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870503A (zh) * 2012-12-14 2014-06-18 百度在线网络技术(北京)有限公司 在线播放中的检索方法及设备
CN105630975A (zh) * 2015-12-24 2016-06-01 联想(北京)有限公司 一种信息处理方法和电子设备
CN105975590A (zh) * 2016-05-03 2016-09-28 无锡雅座在线科技发展有限公司 对象类型的确定方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6609124B2 (en) * 2001-08-13 2003-08-19 International Business Machines Corporation Hub for strategic intelligence
KR101267912B1 (ko) * 2005-12-02 2013-05-27 에스케이커뮤니케이션즈 주식회사 인터넷 리소스에 태그 정보를 부가하여 공유 정보를제공하는 시스템, 장치, 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
KR100800460B1 (ko) * 2006-07-18 2008-02-04 제주대학교 산학협력단 웹 온톨로지 검색/분류 시스템 및 방법
CN100461184C (zh) * 2007-07-10 2009-02-11 北京大学 网络搜索中的基于链接层次分类的主题爬取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870503A (zh) * 2012-12-14 2014-06-18 百度在线网络技术(北京)有限公司 在线播放中的检索方法及设备
CN103870503B (zh) * 2012-12-14 2017-11-24 北京音之邦文化科技有限公司 在线播放中的检索方法及设备
CN105630975A (zh) * 2015-12-24 2016-06-01 联想(北京)有限公司 一种信息处理方法和电子设备
CN105975590A (zh) * 2016-05-03 2016-09-28 无锡雅座在线科技发展有限公司 对象类型的确定方法和装置

Also Published As

Publication number Publication date
CN101340463B (zh) 2012-04-25

Similar Documents

Publication Publication Date Title
US10068028B1 (en) Deep link verification for native applications
CN107077691B (zh) 用于确定数据库高速缓存命中的基于年龄的策略
CN107273409B (zh) 一种网络数据采集、存储及处理方法及系统
RU2522103C2 (ru) Способ и браузер для уведомления об обновлении
CN1799051B (zh) 使用页面存储文件浏览内容的方法
CN104516979B (zh) 一种基于二次检索的数据查询方法及系统
US20160179816A1 (en) Near Real Time Auto-Suggest Search Results
US20070174246A1 (en) Multiple client search method and system
US10891302B2 (en) Scalable synchronization with cache and index management
US10262066B2 (en) Crowd-sourced native application crawling
CN106951557B (zh) 日志关联方法、装置和应用其的计算机系统
WO2008016560A1 (en) Two-way and multi-master synchronization over web syndications
US9870411B2 (en) Managing data ingestion
CN104765840A (zh) 一种大数据分布式存储的方法和装置
US10095789B2 (en) Method and system of searching composite web page elements and annotations presented by an annotating proxy server
CN102821133B (zh) Xbrl数据解析的方法及服务器
CN104794190A (zh) 一种大数据有效存储的方法和装置
CN108052661B (zh) 分布式环境下的聚合检索的方法、装置及可读存储介质
US10007731B2 (en) Deduplication in search results
CN112416991A (zh) 一种数据处理方法、装置以及存储介质
CN110990057B (zh) 小程序子链信息的提取方法、装置、设备及介质
CN105760380A (zh) 数据库查询方法、装置及系统
WO2016173185A1 (zh) 信息推送方法和装置
CN104750855A (zh) 一种大数据存储优化方法和装置
US11687593B2 (en) Query generation using natural language input

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170619

Address after: A District No. 9018 building 518000 Guangdong Han innovation city of Shenzhen province Nanshan District high tech park, North Central Avenue, 4 floor 401

Patentee after: Shenzhen thunder network culture Co., Ltd.

Address before: 518057 Guangdong, Shenzhen, Nanshan District science and technology in the road, Shenzhen, No. 11, software park, building 7, level 8, two

Patentee before: Xunlei Network Technology Co., Ltd., Shenzhen

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180206

Address after: Nanshan District Guangdong streets of science and technology of Shenzhen city in Guangdong province 518057 two Road No. 11 Shenzhen Software Park Building 7, 8 floor

Patentee after: Xunlei Network Technology Co., Ltd., Shenzhen

Address before: A District No. 9018 building 518000 Guangdong Han innovation city of Shenzhen province Nanshan District high tech park, North Central Avenue, 4 floor 401

Patentee before: Shenzhen thunder network culture Co., Ltd.