CN103634342B - 获取下载资源的资源名称的方法及系统 - Google Patents

获取下载资源的资源名称的方法及系统 Download PDF

Info

Publication number
CN103634342B
CN103634342B CN201210301088.1A CN201210301088A CN103634342B CN 103634342 B CN103634342 B CN 103634342B CN 201210301088 A CN201210301088 A CN 201210301088A CN 103634342 B CN103634342 B CN 103634342B
Authority
CN
China
Prior art keywords
resource
name
cluster
download
network address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210301088.1A
Other languages
English (en)
Other versions
CN103634342A (zh
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210301088.1A priority Critical patent/CN103634342B/zh
Publication of CN103634342A publication Critical patent/CN103634342A/zh
Application granted granted Critical
Publication of CN103634342B publication Critical patent/CN103634342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种获取下载资源的资源名称的方法,包括:获取上传的下载资源的网络地址;根据所述网络地址获取下载资源的资源摘要;获取与所述资源摘要对应的资源名称。此外,还提供了一种获取下载资源的资源名称的系统。上述获取下载资源的资源名称的方法和系统可以提高获取到的下载资源的资源名称的准确性。

Description

获取下载资源的资源名称的方法及系统
技术领域
本发明涉及互联网技术领域,特别是涉及一种获取下载资源的资源名称的方法及系统。
背景技术
传统技术中,用户在使用下载软件获取下载资源时,可通过输入下载资源的网络地址(通常通过点击网页上的网络资源的链接地址)来定位下载资源。下载软件通过解析输入的网络地址来获取下载资源的资源名称,并将解析得到的资源名称作为下载后存储在本地的网络资源的资源名称。
例如,在通过http(hypertext transport protocol,超文本传送协议)或ftp(File Transfer Protocol,文件传输协议)获取下载资源时,可通过点击网页上的url(Universal Resource Locator,统一资源定位符)向下载软件输入网络地址,下载软件通过解析url得到资源名称。
在通过P2P(Peer to Peer,点对点)下载网络资源时,例如通过BT(BitTorrent,一种P2P下载协议)下载网络资源时,下载软件可通过解析种子文件获取下载资源的资源名称。
然而,传统技术中,下载资源的网络地址中的资源名称由发布者设置,因此存在获取到的资源名称与下载资源的实际内容不相符的情形。例如,不法分子可能将木马或病毒文件以常用软件发布,获取到的下载资源的资源名称即为伪装的常用软件的名称,使得用户无法预先获知与下载资源的具体内容相关的信息。因此,传统技术中,获取下载资源的资源名称的方法的准确度较低。
发明内容
基于此,有必要提供一种能提高准确度的获取下载资源的资源名称的方法。
一种获取下载资源的资源名称的方法,包括:
获取上传的下载资源的网络地址;
根据所述网络地址获取下载资源的资源摘要;
获取与所述资源摘要对应的资源名称。
此外,还有必要提供一种能提高准确度的获取下载资源的资源名称的系统。
一种获取下载资源的资源名称的系统,包括:
网络地址获取模块,用于获取上传的下载资源的网络地址;
资源摘要获取模块,用于根据所述网络地址获取下载资源的资源摘要;
资源名称获取模块,用于获取与所述资源摘要对应的资源名称。
上述获取下载资源的资源名称的方法和系统,通过先获取上传的下载资源的网络地址获取其对应的资源摘要,然后再根据资源摘要获取与资源摘要对应的资源名称。由于资源摘要为可体现下载资源内容的概要信息,由下载资源本身的内容所决定,而不能由资源发布者通过设置网络地址来自行设置,因此根据下载资源的资源摘要获取得到的资源名称能够更加准确地反映下载资源的实际内容,从而提高获取到下载资源的资源名称的准确度。
附图说明
图1为一个实施例中获取下载资源的资源名称的方法的流程图;
图2为一个实施例中获取下载资源的资源名称的系统的结构示意图;
图3为另一个实施例中获取下载资源的资源名称的系统的结构示意图。
具体实施方式
在一个实施例中,如图1所示,一种获取下载资源的资源名称的方法,包括:
步骤S102,获取上传的下载资源的网络地址。
下载资源即为通过网络发布的供互联网用户下载的资源。资源发布者可通过C/S方式或者P2P的方式发布下载资源。
在一个实施例中,发布者可通过http或ftp等C/S的方式发布下载资源,下载资源对应的网络地址为url。
在一个实施例中,发布者也可通过BT或电驴等P2P的方式发布下载资源,下载资源的网络地址对应种子文件。当下载资源为多个时,种子文件中可分别记录每个下载资源对应的网络地址。
在一个实施例中,可通过客户端检测下载任务,将下载任务对应的下载资源的网络地址上传。
步骤S104,根据网络地址获取下载资源的资源摘要。
资源摘要即为下载资源的特征数据,是可体现下载资源内容的概要信息。例如,若下载资源为可执行文件,则资源摘要可以是该文件的MD5值;若下载资源为视频文件,则视频文件的资源摘要即可为其关键帧的图像编码序列;若下载资源为音频文件,则音频文件的资源摘要可以是其特征波形的编码序列。
在一个实施例中,根据网络地址获取下载资源的资源摘要的步骤可具体为:根据网络地址在预设的资源摘要库中获取下载资源的资源摘要,资源摘要库中预存有网络地址与资源摘要的对应关系。
资源摘要库可预先建立,通过数据库的表结构建立网络地址与下载资源的资源摘要的对应关系。在本实施例中,还可对资源摘要库进行更新。
在一个实施例中,可获取下载记录上报请求,下载记录上报请求中包括网络地址及其对应的资源摘要;可根据下载记录上报请求更新资源摘要库。
用户通过客户端对某一网络地址对应的下载资源执行下载任务时,可在下载过程中或在下载结束后计算正在下载或者完成下载的下载资源的资源摘要,并将该网络地址和计算得到的资源摘要上报。
在接收到上报的网络地址及其对应的资源摘要后,可在资源摘要库中查询是否存在是否已经包含该资源摘要,若存在,则在对应该资源摘要的网络地址中添加该网络地址,若不存在,则在资源摘要库中对应添加该网络地址及其对应的资源摘要。
也就是说,客户端具有计算下载资源的资源摘要的能力。可根据多个客户端的下载记录获取下载记录中的网络地址对应的下载资源的资源摘要和资源名称,并更新到资源摘要库。
在一个实施例中,还可获取离线下载资源,获取离线下载资源的资源摘要,获取该离线下载资源对应的网络地址,根据网络地址和离线下载资源的资源摘要更新资源摘要库。
离线下载资源即为缓存于离线下载空间中的下载资源。对于网络环境较复杂时,离线下载可建立发布者与下载者之间的快速通道,从而提高下载速度。
在一个实施例中,可预先抓取某个网络地址对应的下载资源到离线下载空间存储,当后续接收到的下载请求对应的网络地址与被抓取过的网络地址相同时,可将缓存下载空间即离线下载空间中的下载资源返回。在本实施例中,可获取抓取到的离线下载资源,并计算该离线下载资源对应的资源摘要,根据被抓取的网络地址和计算得到的资源摘要更新资源摘要库。
在另一个实施例中,也可将下载资源直接发布到离线下载空间中存储,并定义离线下载地址(网络地址)与其对应。当下载请求中的网络地址为该离线下载地址时,返回该下载资源。在本实施例中,可获取已发布的离线下载资源,并计算该离线下载资源对应的资源摘要,根据已定义的该离线下载资源对应的离线下载地址和计算得到的资源摘要更新资源摘要库。
例如,在BT下载中,下载资源通常会在缓存下载空间中有一个完整的备份,各个终端节点上存储的下载资源的数据均为该完整备份的子集。终端节点通常优先向其他终端节点请求数据,在其他终端节点均没有该下载资源的数据时,才会获取缓存下载空间中的下载资源的完整备份中的部分数据。可计算该下载资源的完整备份的资源摘要,并通过该下载资源的种子文件获取该完整备份对应的网络地址,然后根据该网络地址和计算得到的资源摘要更新资源摘要库。
步骤S106,获取与资源摘要对应的资源名称。
在一个实施例中,资源摘要库中还包括与资源摘要对应的资源名称。可通过资源摘要库获取资源摘要对应的资源名称。
在本实施例中,如前所述,可获取下载记录上报请求,下载记录上报请求中包括网络地址及其对应的资源摘要和资源名称,并根据下载记录上报请求更新资源摘要库。即资源摘要库中包括网络地址、资源摘要以及资源名称的对应关系。
在本实施例中,若接收到的多个下载记录上报请求中,有多个网络地址对应同一资源摘要,而该多个网络地址对应不同的资源名称,则可将对应了最多网络地址的资源名称作为与该资源摘要对应的资源名称(少数服从多数原则)。
例如,若接收到多个下载记录上报请求中,资源摘要A对应的网络地址有100个,其中有90个网络地址在下载记录上报请求中对应的资源名称为abc.exe,有10个网络地址对应的资源名称为def.exe,则可将资源名称abc.exe作为资源摘要A对应的资源名称,并将资源名称abc.exe在资源摘要库中与资源摘要A对应存储。
在一个实施例中,接收到的下载记录上报请求后,若资源摘要对应的网络地址中包含第三方认证的可信任的网络地址,则将下载记录上报请求中与该网络地址对应的资源名称作为该资源摘要对应的资源名称。例如,第三方认证的可信任的网站可以是资源提供商的官方网站、访问量大于阈值的门户网站等。
也就是说,若接收到的下载记录上报请求中存在多个网络地址对应同一资源摘要,而多个网络地址又对应不同的资源名称时,可将该多个网络地址对应的资源名称归一化后作为资源摘要对应的资源名称。
在一个实施例中,还可获取资源摘要对应的网络地址,通过解析网络地址获取与网络地址对应的资源名称,并将解析得到的资源名称在资源摘要库中与该资源摘要对应存储。
由于下载记录上报请求中包含的与网络地址对应的资源名称可以是被下载者更改过的资源名称,因此,若上报的下载记录上报请求中资源名称有乱码,特殊字符或其他无法作为文件名称的字符时,可通过解析网络地址获取与网络地址对应的资源名称。当有多个网络地址对应同一资源摘要时,将该多个网络地址各自对应的资源名称归一化为该资源摘要对应的资源名称的方法可与前述的归一化的方法相同。
在一个实施例中,还可创建与所述资源摘要库中的资源摘要对应的资源聚类;根据资源摘要生成与资源聚类对应的聚类资源名称。
资源聚类即具有相似内容的下载资源的集合,可根据资源摘要的特征部分创建资源聚类。
对于视频下载资源,可获取视频资源摘要中的关键帧的特征数据,根据该特征数据将内容具有相似性的视频资源聚集成视频资源聚类。对于音频下载资源,可获取音频资源摘要中的特征波形的特征数据,并根据该特征数据将内容具有相似性的音频资源聚集成音频资源聚类。
例如,若资源摘要库中的多个视频资源摘要中的关键帧的特征数据等同率大于阈值(99%),即大多数特征数据相同,则该多个视频资源摘要属于同一资源聚类。
进一步的,创建与资源摘要库中的资源摘要对应的资源聚类的步骤之前,还可根据资源摘要对应的资源名称的扩展文件名进行预分类。
由于具有不同扩展文件名的下载资源属于不同的文件类型,通常内容不具有相似性,预先根据扩展文件名进行预分类可减少创建资源聚类时比较特征数据的计算量,从而加快创建过程。
在本实施例中,对应同一资源聚类的资源摘要可有多个。可将该多个资源摘要对应的资源名称归一化后生成与该资源聚类对应的聚类资源名称。
在本实施例中,归一化生成该资源聚类对应的聚类资源名称的步骤可具体为:获取该资源聚类对应的资源摘要;获取该资源摘要对应的资源名称;筛选出对应了最多数目的资源摘要的资源名称作为与该资源聚类对应的聚类资源名称。
例如,若资源聚类B对应的资源摘要有多个,这些资源摘要中,有10个资源摘要对应的资源名称为abc.mkv,有5个资源摘要对应的资源名称为cmf.mkv,有2个资源摘要对应的资源名称为123.mkv,则可将abc.mkv作为资源聚类B对应的聚类资源名称。
在一个实施例中,获取与资源摘要对应的资源名称的步骤可具体为:获取与资源摘要对应的资源聚类,获取与资源聚类对应的聚类资源名称。
由于资源聚类为内容具有相似性的下载资源的集合,且聚类资源名称为根据该集合中的所有下载资源对应的资源名称生成得到,因此聚类资源名称能更加准确的反映该下载资源的实际内容,从而更进一步地提高获取的下载资源的资源名称的准确度。
在一个实施例中,还可根据资源聚类对资源摘要库进行更新,更改资源摘要对应的资源名称。在本实施例中,可获取所述资源摘要库中资源摘要;获取所述资源摘要所属的资源聚类对应的聚类资源名称;将所述资源摘要对应的资源名称更新为所述聚类资源名称。
在本实施例中,可在资源摘要库中添加了新的资源摘要时根据资源聚类更改资源摘要对应的资源名称为聚类资源名称。可在根据下载记录上报请求更新资源摘要库的步骤之后,获取更新加入的资源摘要,将该更新加入的资源摘要归类到对应的资源聚类中,获取更新加入的资源摘要所属资源聚类的聚类资源名称,将资源摘要库中该资源摘要对应的资源名称更改为该聚类资源名称;若归类失败,则根据该资源摘要创建与其对应的资源聚类。
在另一个实施例中,还可定期根据资源聚类对资源摘要库进行更新。可定期遍历资源摘要库中的资源摘要,获取资源摘要所属的资源聚类对应的聚类资源名称,然后将资源摘要对应的资源名称更改为该聚类资源名称。
根据资源聚类对资源摘要库进行更新,可以使得在获取资源摘要对应的资源名称时,无需先获取资源摘要所属的资源聚类,可直接在资源摘要库中获取资源摘要对应的聚类资源名称,从而减少了查询的次数,提高了执行效率。
在一个实施例中,还可定期遍历资源聚类,获取资源聚类对应的资源摘要,获取该对应的资源摘要对应的资源名称,并根据获取到的资源名称更新聚类资源名称。也就是说,可定期根据资源摘要库对聚类资源名称进行更新,使得聚类资源名称能够更加准确地反映资源聚类对应的下载资源的实际内容。
在一个实施例中,如图2所示,一种获取下载资源的资源名称的系统,包括:网络地址获取模块102、资源摘要获取模块104、资源名称获取模块106,其中:
网络地址获取模块102,用于获取上传的下载资源的网络地址。
下载资源即为通过网络发布的供互联网用户下载的资源。资源发布者可通过C/S方式或者P2P的方式发布下载资源。
在一个实施例中,发布者可通过http或ftp等C/S的方式发布下载资源,下载资源对应的网络地址为url。
在一个实施例中,发布者也可通过BT或电驴等P2P的方式发布下载资源,下载资源的网络地址对应种子文件。当下载资源为多个时,种子文件中可分别记录每个下载资源对应的网络地址。
在一个实施例中,可通过客户端检测下载任务,将下载任务对应的下载资源的网络地址上传。网络地址获取模块102可用于接收客户端上传的下载资源的网络地址。
资源摘要获取模块104,用于根据网络地址获取下载资源的资源摘要。
资源摘要即为下载资源的特征数据,是可体现下载资源内容的概要信息。例如,若下载资源为可执行文件,则资源摘要可以是该文件的MD5值;若下载资源为视频文件,则视频文件的资源摘要即可为其关键帧的图像编码序列;若下载资源为音频文件,则音频文件的资源摘要可以是其特征波形的编码序列。
在一个实施例中,如图3所示,获取下载资源的资源名称的系统还包括资源摘要存储模块108,用于存储预设的资源摘要库,资源摘要库中预存有网络地址与资源摘要的对应关系。资源摘要获取模块104还用于根据网络地址在资源摘要库中获取下载资源的资源摘要。
资源摘要存储模块108中存储的资源摘要库可预先建立,通过数据库的表结构建立网络地址与下载资源的资源摘要的对应关系。在本实施例中,资源摘要存储模块108还可用于对资源摘要库进行更新。
在一个实施例中,资源摘要存储模块108可用于获取下载记录上报请求,下载记录上报请求中包括网络地址及其对应的资源摘要,可根据下载记录上报请求更新资源摘要库。
用户通过客户端对某一网络地址对应的下载资源执行下载任务时,可在下载过程中或在下载结束后计算正在下载或者完成下载的下载资源的资源摘要,并将该网络地址和计算得到的资源摘要上报。
在接收到上报的网络地址及其对应的资源摘要后,可在资源摘要库中查询是否存在是否已经包含该资源摘要,若存在,则在对应该资源摘要的网络地址中添加该网络地址,若不存在,则在资源摘要库中对应添加该网络地址及其对应的资源摘要。
也就是说,客户端具有计算下载资源的资源摘要的能力。可根据多个客户端的下载记录获取下载记录中的网络地址对应的下载资源的资源摘要和资源名称,并更新到资源摘要库。
在一个实施例中,资源摘要存储模块108还可用于获取离线下载资源,获取离线下载资源的资源摘要,获取该离线下载资源对应的网络地址,根据网络地址和离线下载资源的资源摘要更新资源摘要库。
离线下载资源即为缓存于离线下载空间中的下载资源。对于网络环境较复杂时,离线下载可建立发布者与下载者之间的快速通道,从而提高下载速度。
在一个实施例中,资源摘要存储模块108还可用于预先抓取某个网络地址对应的下载资源到离线下载空间存储,当后续接收到的下载请求对应的网络地址与被抓取过的网络地址相同时,可将缓存下载空间即离线下载空间中的下载资源返回。在本实施例中,可获取抓取到的离线下载资源,并计算该离线下载资源对应的资源摘要,根据被抓取的网络地址和计算得到的资源摘要更新资源摘要库。
在另一个实施例中,也可将下载资源直接发布到离线下载空间中存储,并定义离线下载地址(网络地址)与其对应。当下载请求中的网络地址为该离线下载地址时,返回该下载资源。在本实施例中,资源摘要存储模块108还可用于获取已发布的离线下载资源,并计算该离线下载资源对应的资源摘要,根据已定义的该离线下载资源对应的离线下载地址和计算得到的资源摘要更新资源摘要库。
例如,在BT下载中,下载资源通常会在缓存下载空间中有一个完整的备份,各个终端节点上存储的下载资源的数据均为该完整备份的子集。终端节点通常优先向其他终端节点请求数据,在其他终端节点均没有该下载资源的数据时,才会获取缓存下载空间中的下载资源的完整备份中的部分数据。资源摘要存储模块108还可用于计算该下载资源的完整备份的资源摘要,并通过该下载资源的种子文件获取该完整备份对应的网络地址,然后根据该网络地址和计算得到的资源摘要更新资源摘要库。
资源名称获取模块106,用于获取与资源摘要对应的资源名称。
在一个实施例中,资源摘要库中还包括与资源摘要对应的资源名称。资源名称获取模块可用于通过资源摘要库获取资源摘要对应的资源名称。
在本实施例中,如前所述,获取下载资源的资源名称的系统包括资源摘要存储模块108。资源摘要存储模块108可用于获取下载记录上报请求,下载记录上报请求中包括网络地址及其对应的资源摘要和资源名称,并根据下载记录上报请求更新资源摘要库。即资源摘要库中包括网络地址、资源摘要以及资源名称的对应关系。
在本实施例中,若资源摘要存储模块108接收到的多个下载记录上报请求中,有多个网络地址对应同一资源摘要,而该多个网络地址对应不同的资源名称,则可将对应了最多网络地址的资源名称作为与该资源摘要对应的资源名称(少数服从多数原则)。
例如,若资源摘要存储模块108接收到多个下载记录上报请求中,资源摘要A对应的网络地址有100个,其中有90个网络地址在下载记录上报请求中对应的资源名称为abc.exe,有10个网络地址对应的资源名称为def.exe,则可将资源名称abc.exe作为资源摘要A对应的资源名称,并将资源名称abc.exe在资源摘要库中与资源摘要A对应存储。
在一个实施例中,资源摘要存储模块108接收到的下载记录上报请求后,若资源摘要对应的网络地址中包含第三方认证的可信任的网络地址,则将下载记录上报请求中与该网络地址对应的资源名称作为该资源摘要对应的资源名称。例如,第三方认证的可信任的网站可以是资源提供商的官方网站、访问量大于阈值的门户网站等。
也就是说,若资源摘要存储模块108接收到的下载记录上报请求中存在多个网络地址对应同一资源摘要,而多个网络地址又对应不同的资源名称时,资源摘要存储模块108可用于将该多个网络地址对应的资源名称归一化后作为资源摘要对应的资源名称。
在一个实施例中,资源摘要存储模块108还可用于获取资源摘要对应的网络地址,通过解析网络地址获取与网络地址对应的资源名称,并将解析得到的资源名称在资源摘要库中与该资源摘要对应存储。
由于下载记录上报请求中包含的与网络地址对应的资源名称可以是被下载者更改过的资源名称,因此,若上报的下载记录上报请求中资源名称有乱码,特殊字符或其他无法作为文件名称的字符时,可通过解析网络地址获取与网络地址对应的资源名称。当有多个网络地址对应同一资源摘要时,将该多个网络地址各自对应的资源名称归一化为该资源摘要对应的资源名称的方法可与前述的归一化的方法相同。
在一个实施例中,获取下载资源的资源名称的系统还包括资源聚类模块110,用于创建并存储与所述资源摘要库中的资源摘要对应的资源聚类,根据所述资源摘要生成与所述资源聚类对应的聚类资源名称。
资源聚类即具有相似内容的下载资源的集合,资源聚类模块110可用于根据资源摘要的特征部分创建资源聚类。
对于视频下载资源,资源聚类模块110可用于获取视频资源摘要中的关键帧的特征数据,根据该特征数据将内容具有相似性的视频资源聚集成视频资源聚类。对于音频下载资源,资源聚类模块110可用于获取音频资源摘要中的特征波形的特征数据,并根据该特征数据将内容具有相似性的音频资源聚集成音频资源聚类。
例如,若资源摘要库中的多个视频资源摘要中的关键帧的特征数据等同率大于阈值(99%),即大多数特征数据相同,则该多个视频资源摘要属于同一资源聚类。
进一步的,资源聚类模块110还可用于在创建与资源摘要库中的资源摘要对应的资源聚类之前,根据资源摘要对应的资源名称的扩展文件名进行预分类。
由于具有不同扩展文件名的下载资源属于不同的文件类型,通常内容不具有相似性,预先根据扩展文件名进行预分类可减少创建资源聚类时比较特征数据的计算量,从而加快创建过程。
在本实施例中,对应同一资源聚类的资源摘要可有多个。资源聚类模块110还可用于将该多个资源摘要对应的资源名称归一化后生成与该资源聚类对应的聚类资源名称。
在本实施例中,资源聚类模块110还可用于获取该资源聚类对应的资源摘要;获取该资源摘要对应的资源名称;筛选出对应了最多数目的资源摘要的资源名称作为与该资源聚类对应的聚类资源名称。
例如,若资源聚类B对应的资源摘要有多个,这些资源摘要中,有10个资源摘要对应的资源名称为abc.mkv,有5个资源摘要对应的资源名称为cmf.mkv,有2个资源摘要对应的资源名称为123.mkv,则资源聚类模块110可用于将abc.mkv作为资源聚类B对应的聚类资源名称。
在一个实施例中,资源名称获取模块106还可用于获取与资源摘要对应的资源聚类,获取与资源聚类对应的聚类资源名称。
由于资源聚类为内容具有相似性的下载资源的集合,且聚类资源名称为根据该集合中的所有下载资源对应的资源名称生成得到,因此聚类资源名称能更加准确的反映该下载资源的实际内容,从而更进一步地提高获取的下载资源的资源名称的准确度。
在一个实施例中,资源摘要存储模块108还可用于根据资源聚类对中的资源摘要库进行更新,更改资源摘要对应的资源名称。在本实施例中,资源摘要存储模块108还可用于获取资源摘要库中资源摘要,获取资源摘要所属的资源聚类对应的聚类资源名称,将资源摘要对应的资源名称更新为聚类资源名称。
在本实施例中,资源摘要存储模块108可用于在资源摘要库中添加了新的资源摘要时,根据资源聚类更改资源摘要对应的资源名称为聚类资源名称。资源摘要存储模块108还可用于在根据下载记录上报请求更新资源摘要库之后,获取更新加入的资源摘要,通过资源聚类模块110将该更新加入的资源摘要归类到对应的资源聚类中,获取更新加入的资源摘要所属资源聚类的聚类资源名称,将资源摘要库中该资源摘要对应的资源名称更改为该聚类资源名称;若归类失败,则通过资源聚类模块110根据该资源摘要创建与其对应的资源聚类。
在另一个实施例中,资源摘要存储模块108还可用于定期根据资源聚类对资源摘要库进行更新。可定期遍历资源摘要库中的资源摘要,获取资源摘要所属的资源聚类对应的聚类资源名称,然后将资源摘要对应的资源名称更改为该聚类资源名称。
根据资源聚类对资源摘要库进行更新,可以使得在获取资源摘要对应的资源名称时,无需先获取资源摘要所属的资源聚类,可直接在资源摘要库中获取资源摘要对应的聚类资源名称,从而减少了查询的次数,提高了执行效率。
在一个实施例中,资源聚类模块110还可用于定期遍历资源聚类,通过资源摘要存储模块108获取资源聚类对应的资源摘要,获取该对应的资源摘要对应的资源名称,并根据获取到的资源名称更新聚类资源名称。也就是说,资源聚类模块110还可用于定期根据资源摘要库对聚类资源名称进行更新,使得聚类资源名称能够更加准确地反映资源聚类对应的下载资源的实际内容。
需要说明的是,上述各个模块可以分别设置于多个服务器或服务器集群上,从而适应海量数据的环境。
上述获取下载资源的资源名称的方法和系统,通过先获取上传的下载资源的网络地址获取其对应的资源摘要,然后再根据资源摘要获取与资源摘要对应的资源名称。由于资源摘要为可体现下载资源内容的概要信息,由下载资源本身的内容所决定,而不能由资源发布者通过设置网络地址来自行设置,因此根据下载资源的资源摘要获取得到的资源名称能够更加准确地反映下载资源的实际内容,从而提高获取到下载资源的资源名称的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种获取下载资源的资源名称的方法,包括:
存储预设的预先建立的资源摘要库,资源摘要库中预存有网络地址与资源摘要的对应关系,创建与所述资源摘要库中的资源摘要对应的资源聚类,根据所述资源摘要生成与所述资源聚类对应的聚类资源名称,同一资源聚类的资源摘要为多个,将多个资源摘要对应的不同资源名称归一化后生成与所述资源聚类对应的聚类资源名称;
获取上传的下载资源的网络地址;
根据所述网络地址获取下载资源的资源摘要,根据网络地址在预设的资源摘要库中获取下载资源的资源摘要;
获取与所述资源摘要对应的资源名称,具体为:获取与所述资源摘要对应的资源聚类,获取与资源聚类对应的聚类资源名称。
2.根据权利要求1所述的获取下载资源的资源名称的方法,其特征在于,所述方法还包括:
获取下载记录上报请求,所述下载记录上报请求中包括网络地址及所述网络地址对应的资源摘要;
根据所述下载记录上报请求更新所述资源摘要库。
3.根据权利要求1所述的获取下载资源的资源名称的方法,其特征在于,所述方法还包括:
获取离线下载资源;
获取所述离线下载资源的资源摘要;
获取所述离线下载资源对应的网络地址;
根据所述网络地址和所述离线下载资源的资源摘要更新所述资源摘要库。
4.根据权利要求1所述的获取下载资源的资源名称的方法,其特征在于,所述资源摘要库中还包括与资源摘要对应的资源名称;
所述获取与所述资源摘要对应的资源名称的步骤为:
通过所述资源摘要库获取与所述资源摘要对应的资源名称。
5.根据权利要求1所述的获取下载资源的资源名称的方法,其特征在于,所述方法还包括:
获取所述资源摘要库中资源摘要;
获取所述资源摘要所属的资源聚类对应的聚类资源名称;
将所述资源摘要对应的资源名称更新为所述聚类资源名称。
6.一种获取下载资源的资源名称的系统,其特征在于,包括:
资源摘要存储模块,用于存储预设的预先建立的资源摘要库,资源摘要库中预存有网络地址与资源摘要的对应关系;
资源聚类模块,用于创建并存储与所述资源摘要库中的资源摘要对应的资源聚类,根据所述资源摘要生成与所述资源聚类对应的聚类资源名称,同一资源聚类的资源摘要为多个,将多个资源摘要对应的不同资源名称归一化后生成与所述资源聚类对应的聚类资源名称;
网络地址获取模块,用于获取上传的下载资源的网络地址;
资源摘要获取模块,用于根据所述网络地址获取下载资源的资源摘要,根据所述网络地址在所述资源摘要库中获取下载资源的资源摘要;
资源名称获取模块,用于获取与所述资源摘要对应的资源名称,获取与所述资源摘要对应的资源聚类,获取与所述资源聚类对应的聚类资源名称。
7.根据权利要求6所述的获取下载资源的资源名称的系统,其特征在于,所述资源摘要存储模块还用于获取下载记录上报请求,所述下载记录上报请求中包括网络地址及所述网络地址对应的资源摘要;根据所述下载记录上报请求更新所述资源摘要库。
8.根据权利要求6所述的获取下载资源的资源名称的系统,其特征在于,所述资源摘要存储模块还用于获取离线下载资源;获取所述离线下载资源的资源摘要,获取所述离线下载资源对应的网络地址,根据所述网络地址和所述离线下载资源的资源摘要更新所述资源摘要库。
9.根据权利要求6所述的获取下载资源的资源名称的系统,其特征在于,所述资源摘要库中还包括与资源摘要对应的资源名称;
资源名称获取模块还用于通过所述资源摘要库获取与所述资源摘要对应的资源名称。
10.根据权利要求6所述的获取下载资源的资源名称的系统,其特征在于,所述资源摘要存储模块用于获取所述资源摘要库中资源摘要,获取所述资源摘要所属的资源聚类对应的聚类资源名称,将所述资源摘要对应的资源名称更新为所述聚类资源名称。
CN201210301088.1A 2012-08-22 2012-08-22 获取下载资源的资源名称的方法及系统 Active CN103634342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210301088.1A CN103634342B (zh) 2012-08-22 2012-08-22 获取下载资源的资源名称的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210301088.1A CN103634342B (zh) 2012-08-22 2012-08-22 获取下载资源的资源名称的方法及系统

Publications (2)

Publication Number Publication Date
CN103634342A CN103634342A (zh) 2014-03-12
CN103634342B true CN103634342B (zh) 2018-03-20

Family

ID=50214967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210301088.1A Active CN103634342B (zh) 2012-08-22 2012-08-22 获取下载资源的资源名称的方法及系统

Country Status (1)

Country Link
CN (1) CN103634342B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326394A (zh) * 2016-08-18 2017-01-11 乐视控股(北京)有限公司 一种文件名获取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158981A (zh) * 2007-11-28 2008-04-09 深圳市迅雷网络技术有限公司 一种对下载资源进行分类的方法、系统和装置
CN101158964A (zh) * 2007-11-09 2008-04-09 深圳市迅雷网络技术有限公司 一种自动修改目标下载文件信息的系统、装置及方法
CN101419614A (zh) * 2008-12-03 2009-04-29 深圳市迅雷网络技术有限公司 视频资源聚类方法和装置
CN102457584A (zh) * 2010-10-25 2012-05-16 腾讯科技(深圳)有限公司 下载时的媒体文件自动改名的方法以及下载系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158964A (zh) * 2007-11-09 2008-04-09 深圳市迅雷网络技术有限公司 一种自动修改目标下载文件信息的系统、装置及方法
CN101158981A (zh) * 2007-11-28 2008-04-09 深圳市迅雷网络技术有限公司 一种对下载资源进行分类的方法、系统和装置
CN101419614A (zh) * 2008-12-03 2009-04-29 深圳市迅雷网络技术有限公司 视频资源聚类方法和装置
CN102457584A (zh) * 2010-10-25 2012-05-16 腾讯科技(深圳)有限公司 下载时的媒体文件自动改名的方法以及下载系统

Also Published As

Publication number Publication date
CN103634342A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
US10334016B2 (en) System and method for context specific website optimization
US9183214B2 (en) Method and apparatus for data storage and downloading
CN102801697B (zh) 基于多url的恶意代码检测方法和系统
Abd Wahab et al. Data pre-processing on web server logs for generalized association rules mining algorithm
CN103984753B (zh) 一种网络爬虫去重特征值的提取方法和装置
CN101046806B (zh) 搜索引擎系统和方法
US20200204349A1 (en) Blockchain compression using summary and padding blocks
KR100916162B1 (ko) 핑거프린트 데이터베이스 관리 방법 및 시스템
CN102810089A (zh) 基于内容的短链接系统及实现方法
WO2011119438A2 (en) Detecting virality paths and supporting referral monetization
CN101826110B (zh) 一种BitTorrent种子文件爬取方法
CN102843271A (zh) 恶意url的形式化检测方法和系统
US20140359066A1 (en) System, method and device for offline downloading resource and computer storage medium
CN103530365A (zh) 获取资源的下载链接的方法及系统
CN105868234A (zh) 缓存数据的更新方法及装置
CN110377579A (zh) 文件存储方法、装置及服务器
EP2748718A2 (en) System to identify multiple copyright infringements
CN106331172A (zh) 一种应用于内容分发网络的资源检测方法及装置
US20180337930A1 (en) Method and apparatus for providing website authentication data for search engine
CN105074688B (zh) 使用对等节点图的基于流的数据去重复
Chitraa et al. An efficient path completion technique for web log mining
CN109145194A (zh) 用户行为数据的采集方法及装置
CN106528805A (zh) 基于用户的移动互联网恶意程序url智能分析挖掘方法
CN103634342B (zh) 获取下载资源的资源名称的方法及系统
CN104077422B (zh) 下载apk的去重方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant