CN102789494B - 一种互联网资源去重的处理方法及系统 - Google Patents
一种互联网资源去重的处理方法及系统 Download PDFInfo
- Publication number
- CN102789494B CN102789494B CN201210239076.0A CN201210239076A CN102789494B CN 102789494 B CN102789494 B CN 102789494B CN 201210239076 A CN201210239076 A CN 201210239076A CN 102789494 B CN102789494 B CN 102789494B
- Authority
- CN
- China
- Prior art keywords
- resource
- descriptor
- database
- name
- bag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种互联网资源去重的处理方法,包括,将资源和该资源的描述信息从互联网上进行下载;将资源的描述信息放入到数据库中,将资源包进行对应的存储,其中对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条描述信息;用提取程序将资源包中的描述信息提取出来,将提取出所述资源包的描述信息更新到数据库中;利用打分程序针对每条资源的信息度进行打分并给与相应的分数;用分组程序将资源包名和资源的名字相同的资源分成一组;用选优程序将相同的资源按照资源的评分进行选择提供给用户。本发明还提供了一种互联网资源去重的处理系统。采用该方案,降低了资源的重复度,防止用户下载错误资源。
Description
技术领域
本发明涉及网络搜索技术,特别地涉及一种互联网资源去重的处理方法及系统。
背景技术
目前全球共有3亿台Android设备,2010年12月中旬平均每天的激活设备还只有70万台,到了2011年,Android操作系统增长了250%,平均每天有85万台新设备被激活,其中圣诞节周激活设备数量就有370万台。同时Android应用平均每月下载量高达10亿次,Android市场里的应用数量已经超过45万,Android已经成为一个高速增长的生态系统。
随着应用的增加,搜索引擎会收录不同android厂家、不同android提供商的所有资源,包括android网站上的各种资源,这样会有海量的android资源安装包,但是这些海量的资源包中有大部分是重复的,如果直接提供给搜索的用户,因为用户不会知道安装后的资源信息的内容,用户就会不知道下载哪一个,有可能会下重复的资源。
网络上的android资源安装包的信息是由android开发者给出的,但是会经过部分编辑人员的改动,这样与其原本的名字有很大的偏差,为了解决这种偏差,目前采取的解决方式是从安装包中提取信息来进行信息的补充和校准。但海量信息的校准需要大量的人力,信息的准确度上无法保障。
发明内容
本发明解决的技术问题在于提供了一种互联网资源去重的处理方法及系统,以解决现有技术中海量信息校准需要大量人力并且准确度无法保障的问题。
为解决上述问题,本发明一种互联网资源去重的处理方法,包括,
将资源和该资源的描述信息从互联网上进行下载;
将资源的描述信息放入到数据库中,将资源包进行对应的存储,其中对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条描述信息;
用提取程序将资源包中的描述信息提取出来,将提取出所述资源包的描述信息更新到数据库中;
利用打分程序针对每条资源的信息度进行打分并给与相应的分数;
用分组程序将资源包名和资源的名字相同的资源分成一组;
用选优程序将相同的资源按照资源的评分进行选择提供给用户。
上述的方法中,其中,对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条描述信息具体为,
在放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询,如果发现已存在相同的描述信息,则不插入到数据库中。
上述的方法中,其中,所述将提取出所述资源包的描述信息更新到数据库中具体为,
在更新时,在数据库的表中加入字段,然后将对应一条资源包的描述信息提取出来,再更新到数据库的表中。
进一步地,在将资源的描述信息放入到数据库中,将资源包进行对应的存储后,还包括,
将整条资源的所有信息进行一次规整,包括资源包在硬盘下的存入目录。
上述的方法中,其中,所述资源是android资源安装包。
上述的方法中,其中,所述资源的描述信息包括资源名字、资源版本、安全信息、资源大小、资源ico图片、以及资源截图;
所述资源包的描述信息包括资源包名、版本、最低支持的操作系统、资源名字、资源的ico图片。
上述的方法,其中,所述数据库为mysql。
本发明还提供了一种互联网资源去重的处理系统,所述系统包括,
前台处理器,用于将资源和资源的描述信息从互联网上进行下载,以及用于将资源的描述信息放入到数据库中,对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条描述信息,将资源包存储到存储服务器中;
存储服务器,用于存储资源包;
数据库,存储所述资源的描述信息;
内容处理服务器,用于采用提取程序将资源包中的描述信息提取出来;以及将提取出的资源包的描述信息更新到数据库中;并且利用打分程序针对每条资源的信息度进行打分;以及用分组程序将资源包名和资源的名字相同的资源分成一组;用选优程序将相同的资源按照资源的评分进行选择提供给用户。
上述的系统,其中,所述前台处理器对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条描述信息具体为,
所述前台处理器在将资源的描述信息放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询,如果发现已存在相同的描述信息就不插入到数据库中;
所述前台处理器还用于将整条资源的所有信息进行一次规整,包括资源包在硬盘下的存入目录。
上述的系统,其中,所述内容处理服务器用于将提取出所述资源包的描述信息更新到数据库中具体为,
所述内容服务器,用于在更新时,在数据库的表中加入字段,然后将对应一条资源包的描述信息提取出来,再更新到数据库的表中。
采用上述技术方案,达到了将海量信息中相同的资源去掉,从而解决了相同资源安装包只留一个,大大的降低了资源的重复度;同时,也可以补充部分资源信息的完整度,使资源信息更完整,从而解决了信息不完整,使用户更加了解资源信息;最后,可以使资源信息更加精确,从而解决了因为信息错误而导致用户下载错误资源。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明第一实施例流程图;
图2是本发明第二实施例系统结构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明第一实施例流程图,提供了一种互联网资源去重的处理方法,本实施例中,所述互联网资源指android手机安装包,该方法运行在计算机上,运用计算机的高运运算功能和自动化的功能来完成,此方式还要网络的支持和数据库程序的支持,以及支持java语言的jdk。该方法具体包括,
步骤S101,将资源从互联网上下载下来,同时将互联网对该资源的描述信息下载下来;所述描述信息包括资源名字、资源版本、安全信息(是指此资源是否有病毒来侵害用户手机)、资源大小、资源ico图片(是指此资源的logo图片,也就是资源的图标)、以及资源截图等;
步骤S102,将资源的描述信息放入到数据库中,对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条,将资源包放到相应的硬盘目录下;
具体地,在放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询,如果发现已存在就不插入到库中。
所述数据库可以是mysql,也可以是其他数据库。
同时,将整条资源的所有信息进行一次规整,包括硬盘下的存入目录,具体地,将资源名称中带有的版本信息,将名称中的版本信息去掉,还有一些特殊字符比如“”’[]等这类字符去掉等。
步骤S103,用提取程序将资源包中的信息提取出来,包括资源包名、版本、最低支持的操作系统、资源名字、资源的ico图片;将提取出的信息更新到数据库中;
具体地,在更新时,在数据库中表中加入字段,比如“提取版本”“提取名字”“提取最低支持系统”,然后将对应一条资源包信息提取出来,再更新到数据库表中。
步骤S104,利用打分程序会针对每条资源的信息度不同打出一个分数;具体地,作为一个示例,一条资源的截图有3张,其来源于应用汇,具有logo图,那么可以根据这三项字段,第一项加20分,第二项加6分,第三项加100,这样一条资源下来,总共分数就是126分;其它的资源也是一样的规则(截图两张以上20分,一级站点加6分,二级站点加4分,三级站点加2分,其它0分,logo存在就100分,不存在为0分)。
步骤S105,用分组程序将资源包名和资源的名字相同的资源分成一组;若资源包名与资源的名字相同,则证明这两个资源是相同的;
步骤S106,用选优程序将相同的资源按照资源的评分选出一个最优的资源提供给用户。
上述方法中,所述互联网资源可以是android资源安装包,可以是其他应用程序。
如图2所示,是本发明第二实施例系统结构图,提供了一种互联网资源去重的处理系统,所述系统包括,
前台处理器,用于将资源从互联网上下载下来,同时将互联网对该资源的描述信息下载下来,所述描述信息包括资源名字、资源版本、安全信息(是指此资源是否有病毒来侵害用户手机)、资源大小、资源ico图片(是指此资源的logo图片,也就是资源的图标)、以及资源截图等;以及用于将资源的描述信息放入到数据库中,对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条,将资源包存储到存储服务器中;
具体地,在放入数据库之前会用来源网站完整域名、资源名字和资源版本到数据库中去查询,如果发现已存在就不插入到库中。
所述数据库可以是mysql,也可以是其他数据库。
同时,将整条资源的所有信息进行一次规整,包括硬盘下的存入目录,具体地,将资源名称中带有的版本信息,将名称中的版本信息去掉,还有一些特殊字符比如“”’[]等这类字符去掉等。
存储服务器,用于存储资源包;
数据库,存储所述资源的描述信息;
内容处理服务器,用于采用提取程序将资源包中的信息提取出来,包括资源包名、版本、最低支持的操作系统、资源名字、资源的ico图片;将提取出的信息更新到数据库中;利用打分程序会针对每条资源的信息度不同打出一个分数;用分组程序将资源包名和资源的名字相同的资源分成一组;若资源包名与资源的名字相同,则证明这两个资源是相同的;用选优程序将相同的资源按照资源的评分选出一个最优的资源提供给用户。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种互联网资源去重的处理方法,其特征在于,包括,
将资源和该资源的描述信息从互联网上进行下载;
将资源的描述信息放入到数据库中,将资源包进行对应的存储,其中对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条描述信息;
用提取程序将资源包中的描述信息提取出来,将提取出所述资源包的描述信息更新到数据库中;
利用打分程序针对每条资源的信息度进行打分并给与相应的分数;
用分组程序将资源包名和资源的名字相同的资源分成一组;
用选优程序将相同的资源按照资源的评分进行选择提供给用户。
2.根据权利要求1所述的处理方法,其特征在于,对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条描述信息具体为,
在放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询,如果发现已存在相同的描述信息,则不插入到数据库中。
3.根据权利要求1所述的处理方法,其特征在于,所述将提取出所述资源包的描述信息更新到数据库中具体为,
在更新时,在数据库的表中加入字段,然后将对应一条资源包的描述信息提取出来,再更新到数据库的表中。
4.根据权利要求1至3任一所述的处理方法,其特征在于,在将资源的描述信息放入到数据库中,将资源包进行对应的存储后,还包括,
将整条资源的所有信息进行一次规整,包括资源包在硬盘下的存入目录。
5.根据权利要求4所述的处理方法,其特征在于,所述资源是android资源安装包。
6.根据权利要求5所述的处理方法,其特征在于,所述资源的描述信息包括资源名字、资源版本、安全信息、资源大小、资源ico图片、以及资源截图;
所述资源包的描述信息包括资源包名、版本、最低支持的操作系统、资源名字、资源的ico图片。
7.根据权利要求1至3任一所述的处理方法,其特征在于,所述数据库为mysql。
8.一种互联网资源去重的处理系统,其特征在于,所述系统包括,
前台处理器,用于将资源和资源的描述信息从互联网上进行下载,以及用于将资源的描述信息放入到数据库中,对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条描述信息,将资源包存储到存储服务器中;
存储服务器,用于存储资源包;
数据库,存储所述资源的描述信息;
内容处理服务器,用于采用提取程序将资源包中的描述信息提取出来;以及将提取出的资源包的描述信息更新到数据库中;并且利用打分程序针对每条资源的信息度进行打分;以及用分组程序将资源包名和资源的名字相同的资源分成一组;用选优程序将相同的资源按照资源的评分进行选择提供给用户。
9.根据权利要求8所述的处理系统,其特征在于,所述前台处理器对于具有相同的来源网站,同时资源名字和资源版本相同的资源仅保存一条描述信息具体为,
所述前台处理器在将资源的描述信息放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询,如果发现已存在相同的描述信息就不插入到数据库中;
所述前台处理器还用于将整条资源的所有信息进行一次规整,包括资源包在硬盘下的存入目录。
10.根据权利要求8所述的处理系统,其特征在于,所述内容处理服务器用于将提取出所述资源包的描述信息更新到数据库中具体为,
所述内容服务器,用于在更新时,在数据库的表中加入字段,然后将对应一条资源包的描述信息提取出来,再更新到数据库的表中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210239076.0A CN102789494B (zh) | 2012-07-11 | 2012-07-11 | 一种互联网资源去重的处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210239076.0A CN102789494B (zh) | 2012-07-11 | 2012-07-11 | 一种互联网资源去重的处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102789494A CN102789494A (zh) | 2012-11-21 |
CN102789494B true CN102789494B (zh) | 2015-08-05 |
Family
ID=47154897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210239076.0A Active CN102789494B (zh) | 2012-07-11 | 2012-07-11 | 一种互联网资源去重的处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102789494B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020188A (zh) * | 2012-11-30 | 2013-04-03 | 北京网秦天下科技有限公司 | 多平台应用搜索方法和服务器 |
CN104714965B (zh) * | 2013-12-16 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 静态资源去重方法、静态资源管理方法及装置 |
CN105302425B (zh) * | 2014-05-30 | 2019-03-08 | 联想(北京)有限公司 | 一种应用对象的处理方法及电子设备 |
CN104077422B (zh) * | 2014-07-22 | 2018-05-01 | 百度在线网络技术(北京)有限公司 | 下载apk的去重方法及装置 |
WO2016015363A1 (zh) * | 2014-08-01 | 2016-02-04 | 苏州阔地网络科技有限公司 | 一种资源控制架构及应用该架构的方法 |
CN107229660A (zh) * | 2016-03-25 | 2017-10-03 | 阿里巴巴集团控股有限公司 | 一种数据去重的方法和设备 |
CN107707584B (zh) * | 2016-08-08 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 一种应用加载方法、终端及平台服务器 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007064174A1 (en) * | 2005-12-02 | 2007-06-07 | Sk Communications Corp. | System, apparatus and method for providing shared information by connecting a tag to the internet resource and computer readable medium processing the method |
CN102375869A (zh) * | 2010-08-04 | 2012-03-14 | 普瑞姆库马尔·朱娜拉 | 在设备上管理应用程序的系统,方法及装置 |
-
2012
- 2012-07-11 CN CN201210239076.0A patent/CN102789494B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007064174A1 (en) * | 2005-12-02 | 2007-06-07 | Sk Communications Corp. | System, apparatus and method for providing shared information by connecting a tag to the internet resource and computer readable medium processing the method |
CN102375869A (zh) * | 2010-08-04 | 2012-03-14 | 普瑞姆库马尔·朱娜拉 | 在设备上管理应用程序的系统,方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102789494A (zh) | 2012-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102789494B (zh) | 一种互联网资源去重的处理方法及系统 | |
CN104111944B (zh) | 页面处理方法和装置以及页面生成方法和装置 | |
US20160299977A1 (en) | Action-Based App Recommendation Engine | |
EP3432141A1 (en) | Mobile terminal application update method and device | |
CN105556545A (zh) | 用于众包领域特定情报的设备、系统和方法 | |
CN105760184A (zh) | 一种加载组件的方法和装置 | |
CN104794177A (zh) | 一种数据存储方法及装置 | |
CN105389315A (zh) | 一种动态网页更新方法及装置 | |
CN106354484A (zh) | 一种浏览器兼容方法及浏览器 | |
CN103714116A (zh) | 网页信息提取方法及设备 | |
CN109492176A (zh) | 一种页面信息更新方法及装置 | |
CN103345532A (zh) | 一种网页信息抽取方法及装置 | |
KR20110066520A (ko) | SaaS 환경에서의 워크플로우 맞춤화 방법 | |
US10606935B2 (en) | Transforming a website for dynamic web content management | |
CN106201591A (zh) | 一种云管理平台的配置文件升级方法及装置 | |
CN102156650B (zh) | 一种实现补丁自动分析的方法及装置 | |
CN105786836A (zh) | 一种对影视网页的结构化摘要生成方法与系统 | |
CN111045717B (zh) | 获取项目依赖包的方法、装置、计算机设备及存储介质 | |
CN109408176A (zh) | 应用程序资源文件编包的方法、装置、设备及存储介质 | |
CN104267921A (zh) | 一种页面显示控制方法及服务器 | |
CN105488198A (zh) | 一种应用程序的推荐方法及终端 | |
CN103678295A (zh) | 一种向用户提供文件的方法及装置 | |
CN111353808B (zh) | 一种媒体地域信息的确定方法及相关设备 | |
CN105183524A (zh) | 一种可选择应用字体的Android安装方法和装置 | |
CN102890704A (zh) | 一种在线更新兴趣信息的采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 518057 C Building 5, Nanshan District software industry base, Shenzhen, Guangdong 403-409, China Patentee after: Shenzhen easou world Polytron Technologies Inc Address before: 518026 Guangdong city of Shenzhen province Futian District Binhe Road and CaiTian Road Interchange Union Square Tower A, A5501-A Patentee before: Shenzhen Yisou Science & Technology Development Co., Ltd. |
|
CP03 | Change of name, title or address |