CN107463581A - 应用下载量获取方法、装置和终端设备 - Google Patents
应用下载量获取方法、装置和终端设备 Download PDFInfo
- Publication number
- CN107463581A CN107463581A CN201610395049.0A CN201610395049A CN107463581A CN 107463581 A CN107463581 A CN 107463581A CN 201610395049 A CN201610395049 A CN 201610395049A CN 107463581 A CN107463581 A CN 107463581A
- Authority
- CN
- China
- Prior art keywords
- download
- application
- string
- init string
- init
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种应用下载量获取方法,首先,获取表征应用下载量的初始字符串;然后,判断所述初始字符串的类别;其中,所述初始字符串的类别包括单边范围字符串、双边范围字符串和直接字符串;最后,根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量。相较于现有技术,本发明针对各应用商店中应用下载量数据格式不统一、数据不准确等问题,将获取的初始字符串分为三个类别分别进行数值化处理,从而获得格式统一、可用于直接统计的所述应用的下载量。通过本方法,即可实现统计各应用商店中的各个应用的下载量或各个应用在各应用商店中的下载量的目的。
Description
技术领域
本发明涉及数据处理领域,具体的说是一种应用下载量获取方法、一种应用下载量获取装置和一种应用下载量获取终端设备。
背景技术
随着智能手机、平板电脑等智能终端的迅速普及,基于IOS操作系统、android操作系统和windows操作系统的各种应用程序(简称:应用,英文缩写:App;英文全称:Application)已从社交、购物、交通、服务、医疗、通讯等各个领域深入消费者的生活中,应用程序的总数量呈爆发式增长,这些应用在互联网中的各大应用商店中上架,以供用户下载安装,目前,互联网中有很多应用商店,应用商店中提供各种种类的应用供用户下载,并各自统计各种应用的下载量。
为了获知应用的市场占有情况、应用的自身发展情况、应用在行业内的排名、各大应用商店的市场占有情况等信息,以便为政府的宏观调控、为企业的市场竞争以及为用户选择应用提供数据支持,需要获取各个应用在各个应用商店中的下载量,进而从各个角度进行应用下载量大数据分析。
但是,各应用商店因为各种原因,其公示的应用下载量存在格式不统一、数据精度不一致、数据不准确等情形,从而导致无法从各应用商店中获取有效、准确的应用下载量数据,或者从各应用商店中获取的应用下载量数据不能直接进行统计等问题,目前,现有技术还不能实现统计各应用商店中的各个应用的下载量或各个应用在各应用商店中的下载量。
发明内容
鉴于上述问题,迫切需要一种能够用于统计各应用商店中的各个应用的下载量或各个应用在各应用商店中的下载量的应用下载量获取方法,以及相应的一种应用下载量获取装置和一种应用下载量获取终端设备。
本发明采用的技术方案是:
本申请提供一种应用下载量获取方法,包括:
获取表征应用下载量的初始字符串;
判断所述初始字符串的类别;其中,所述初始字符串的类别包括单边范围字符串、双边范围字符串和直接字符串;
根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量。
可选的,在所述获取表征应用下载量的初始字符串的步骤后,还包括:
判断所述初始字符串的字符串类型,当判断结果是所述初始字符串的字符串类型为文本字符串时,执行判断所述初始字符串的类别的步骤。
可选的,所述判断所述初始字符串的类别,包括:
通过检索所述初始字符串中是否包含指定字符判断所述初始字符串的类别。
可选的,所述根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量,包括:
若所述初始字符串的类别为双边范围字符串或单边范围字符串,则在历史数据库中查询所述应用的多条历史下载量数据;
利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量。
可选的,若所述初始字符串的类别为双边范围字符串;
所述利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量,包括:
利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
从所述初始字符串中提取所述应用的下载量上限值和下载量下限值;
比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;
若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;
若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;
若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
可选的,若所述初始字符串的类别为单边范围字符串;
所述利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量,包括:
利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
根据所述初始字符串确定所述应用的下载量上限值和下载量下限值;
比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;
若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;
若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;
若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
可选的,所述根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量,包括:
若所述初始字符串的类别为直接字符串,则判断所述初始字符串中是否包含数字单位;
若有,则从所述初始字符串中提取出数字和数字单位,将所述数字乘以所述数字单位对应的数值,获得数值格式的所述应用的下载量;
若没有,则从所述初始字符串中提取出数字,将所述数字作为数值格式的所述应用的下载量。
可选的,所述获取表征应用下载量的初始字符串,包括:
采用网络爬取方法从应用商店中爬取表征应用下载量的初始字符串。
本申请还提供一种应用下载量获取装置,包括:
初始字符串获取模块,用于获取表征应用下载量的初始字符串;
初始字符串分类模块,用于判断所述初始字符串的类别;其中,所述初始字符串的类别包括单边范围字符串、双边范围字符串和直接字符串;
数值化处理模块,用于根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量。
可选的,所述应用下载量获取装置,还包括:
字符串类型判断模块,用于判断所述初始字符串的字符串类型,当判断结果是所述初始字符串的字符串类型为文本字符串时,执行判断所述初始字符串的类别的步骤。
可选的,所述初始字符串分类模块,包括:
初始字符串分类单元,用于通过检索所述初始字符串中是否包含指定字符判断所述初始字符串的类别。
可选的,所述数值化处理模块,包括:
历史数据查询单元,用于若所述初始字符串的类别为双边范围字符串或单边范围字符串,则在历史数据库中查询所述应用的多条历史下载量数据;
趋势外推单元,用于利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量。
可选的,若所述初始字符串的类别为双边范围字符串;
所述趋势外推单元,包括:
双边趋势外推子单元,用于利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
双边上下限提取子单元,用于从所述初始字符串中提取所述应用的下载量上限值和下载量下限值;
双边上下限比较子单元,用于比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
可选的,若所述初始字符串的类别为单边范围字符串;
所述趋势外推单元,包括:
单边趋势外推子单元,用于利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
单边上下限确定子单元,用于根据所述初始字符串确定所述应用的下载量上限值和下载量下限值;
单边上下限比较子单元,用于比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
可选的,所述数值化处理模块,包括:
直接字符串处理单元,用于若所述初始字符串的类别为直接字符串,则判断所述初始字符串中是否包含数字单位;若有,则从所述初始字符串中提取出数字和数字单位,将所述数字乘以所述数字单位对应的数值,获得数值格式的所述应用的下载量;若没有,则从所述初始字符串中提取出数字,将所述数字作为数值格式的所述应用的下载量。
可选的,所述初始字符串获取模块,包括:
初始字符串爬取单元,用于采用网络爬取方法从应用商店中爬取表征应用下载量的初始字符串。
本申请还提供一种应用下载量获取终端设备,包括:
中央处理器;
输入输出单元;
存储器;
所述存储器中存储有本申请提供的所述应用下载量获取方法;
所述应用下载量获取终端设备在启动后能够根据上述方法运行。
与现有技术相比,本发明具有以下优点:
本发明提供的一种应用下载量获取方法,首先,获取表征应用下载量的初始字符串;然后,判断所述初始字符串的类别;其中,所述初始字符串的类别包括单边范围字符串、双边范围字符串和直接字符串;最后,根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量。
相较于现有技术,本发明针对各应用商店中应用下载量数据格式不统一、数据精度不一致、数据不准确等问题,将从应用商店中获取的初始字符串分为三个类别分别进行数值化处理,从而获得格式统一、可用于直接统计的所述应用的下载量。通过本方法,即可实现统计各应用商店中的各个应用的下载量或各个应用在各应用商店中的下载量的目的,从而为应用下载量的大数据分析提供数据基础,进而为政府的宏观调控、为企业的市场竞争以及为用户选择应用提供数据支持。
其中,对于准确性较差的双边范围字符串和单边范围字符串,本方法调取所述应用的历史下载量数据,然后根据所述历史下载量数据进行趋势外推,从而获得所述应用的下载量,一方面实现了数据的可统计化,另一方面下载量数据更为准确,利用价值更高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明提供的一种应用下载量获取方法实施例的流程图;
图2是本发明提供的一种应用下载量获取装置实施例的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。用于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到目前各应用商店中应用下载量数据格式不统一、数据精度不一致、数据不准确,从而导致无法从各应用商店中获取有效、准确的应用下载量数据,或者从各应用商店中获取的应用下载量数据不能直接进行统计等问题,本发明实施例提供了一种应用下载量获取方法、一种应用下载量获取装置和一种应用下载量获取终端设备,下面依次结合附图对本发明的实施例进行详细说明。
请参考图1,其为本发明提供的一种应用下载量获取方法实施例的流程图,所述应用下载量获取方法包括如下步骤:
步骤S101:获取表征应用下载量的初始字符串。
本步骤,首先获取表征应用下载量的初始字符串,所述初始字符串可以是直接利用网络爬取方法从各大应用商店中爬取的,也可以是提前爬取完成后再进行整理、修改后获得的。
其中,所述网络爬取方法也称互联网数据采集方法,是一种自动的从互联网中发现并抓取网页,以及在网页中查询获得目标数据的方法,也叫做网络爬虫。从爬取原理来看,网络爬虫一般分为传统爬虫和聚焦爬虫,传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
一种典型的网络爬取方法是nutch爬虫,nutch爬虫包括crawler(爬虫)和searcher(查询)两部分,其中,Crawler主要用于从网络上抓取网页并为这些网页建立索引,Searcher主要利用这些索引检索用户的查找关键词来产生查找结果即目标数据。利用nutch爬虫即可根据应用商店的url,在所述应用商店内自动打开链接的应用页面,并从所述应用页面中查询获取应用的应用名称、应用编码、应用版本、应用开发者、应用下载量、应用描述等字符串。
以上仅示例性对网络爬虫进行了说明,现有技术中,根据编程语言、应用环境等,还有多种多样的网络爬虫,例如Java爬虫、Python爬虫、C++爬虫、C#爬虫、PHP爬虫、ErLang爬虫和Ruby爬虫等,此均为现有技术中的成熟基础,因此本文不再赘述,其均在本申请的保护范围之内。
步骤S102:判断所述初始字符串的类别;其中,所述初始字符串的类别包括单边范围字符串、双边范围字符串和直接字符串。
通过步骤S101,已获取表征应用下载量的初始字符串,接下来,判断所述初始字符串的类别;其中,所述初始字符串的类别包括单边范围字符串、双边范围字符串和直接字符串。
鉴于目前各应用商店公示的应用下载量存在格式不统一、数据精度不一致、数据不准确等情形,从不同应用商店中爬取的表征应用下载量的初始字符串可能是“5000+”、“5000-10000”、“7651”、“120万”、“100万-200万”、“>1000万”、“1亿+”等多种形式,其字符串类型一般均是文本字符串,是无法用来直接统计、计算的,因此,本方法针对上述情况,将所述初始字符串分为单边范围字符串、双边范围字符串和直接字符串三个类别。
其中,单边范围字符串一般由数字和单边范围表示字符组成,根据实际情况,还可能包含数字单位,例如,上述“5000+”、“>1000万”、“1亿+”等均为单边范围字符串,其中“5000”、“1000”、“1”为数字,“+”、“>”为单边范围表示字符,“万”、“亿”为数字单位;双边范围字符串一般由两组数字和双边范围表示字符组成,根据实际情况,还可能包含数字单位,例如,上述“5000-10000”和“100万-200万”均为双边范围字符串,其中“5000”、“10000”、“100”和“200”为数字,“-”为双边范围表示字符,“万”为数字单位;直接字符串一般为能够直接表征某一数值的数字,根据实际情况,还可能包含数字单位,例如,上述“7651”、“120万”均为直接字符串。
需要说明的是,以上仅举例对单边范围字符串、双边范围字符串和直接字符串进行了说明,实际应用中,还有多种变更的形式,例如:单边范围表示字符还可能是“超过”、“多于”等,双边范围表示字符还可能是“~”、“_”、“——”等,数字单位还可能是“千”、“百”、“十”等,本文不再一一赘述,只要所述字符串与本文所述单边范围字符串、双边范围字符串和直接字符串的含义相同或等同,其均在本申请的保护范围之内。
本步骤在实施时,可以通过检索所述初始字符串中是否包含指定字符判断所述初始字符串的类别,其中,所述指定字符包括上文所述的单边范围表示字符、双边范围表示字符、数字和数字单位等。例如,若所述初始字符串中包含双边范围表示字符“-”,则可以判断所述初始字符串为双边范围字符串;若所述初始字符串中包含单边范围表示字符“+”,则可以判断所述初始字符串为单边范围字符串;若所述初始字符串中不含有任何单边范围表示字符和双边范围表示字符,只有数字或只有数字和数字单位,则判断所述初始字符为直接字符串。
考虑到,上述实施例中所列举的初始字符串一般为文本字符串,但有的应用商店的初始字符串可能是数值字符串,例如“123000”、“216587”等,由于数值字符串是可以直接用来统计、计算的,在本申请提供的一个实施例中,在所述获取表征应用下载量的初始字符串的步骤后,还包括:
判断所述初始字符串的字符串类型;
当判断结果是所述初始字符串的字符串类型为文本字符串时,执行判断所述初始字符串的类别的步骤;
当判断结果是所述初始字符串的字符串类型为数值字符串时,则直接输出所述初始字符串为所述应用的下载量。
步骤S103:根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量。
通过步骤S102,已判断所述初始字符串的类别,接下来,根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量。
根据前文所述,对于初始字符串的字符串类型为数值字符串的情形,可以直接输出所述初始字符串为所述应用的下载量;但由于大部分初始字符串的字符串类型为文本字符串,因此,在进行步骤S102的分类后,需要针对不同类别的初始字符串进行处理,以获得数值格式的、更加精准的所述应用的下载量。
其中,若所述初始字符串为直接字符串,本步骤,可以直接将爬取的所述初始字符串的字符串类型转为数值字符串,即可作为所述应用的下载量;但考虑到所述初始字符串中可能会含有数字单位,如“120万”等情形,因此,在本申请提供的一个实施例中,所述根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量,包括:
若所述初始字符串的类别为直接字符串,则判断所述初始字符串中是否包含数字单位;
若有,则从所述初始字符串中提取出数字和数字单位,将所述数字乘以所述数字单位对应的数值,获得数值格式的所述应用的下载量;若没有,则从所述初始字符串中提取出数字,将所述数字作为数值格式的所述应用的下载量。
例如,所述初始字符串为“120万”,则提取其中的数字“120”和数字单位“万”,将所述数字“120”乘以所述数字单位“万”对应的数值“10000”,即可获得数值格式的所述应用的下载量“1200000”;又如,所述初始字符串为“350154”,其中不包含数字单位,则直接提取其中的数字“350154”作为所述应用的下载量。
若所述初始字符串为单边范围字符串或双边范围字符串,由于其本身仅表示一个范围,不是一个准确的数值,是不能直接用来统计或计算的,因此,本步骤对于此种情况,则从历史数据库中查询所述应用的多条历史下载量数据,然后利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量。
其中,所述历史数据库中存储有定期从网络上爬取获得的所述应用的历史下载量数据,由于每个应用的下载量都是累计形成的,因此,其历史下载量数据中较早的数据都是较为准确的数值。另一方面,通过对各个应用的下载量的统计分析,大部分应用下载量的增长是符合一定的增长模式的,一般是线性增长趋势。鉴于以上基础,本步骤中,即可利用所述应用的历史下载量数据做趋势外推,推算获得当前所述应用的下载量。
其中,趋势外推(Trend extrapolation)是根据过去和现在的发展趋势推断未来的一类方法的总称,其基本理论是:决定事物过去发展的因素,在很大程度上也决定该事物未来的发展,其变化,不会太大;事物发展过程一般都是渐进式的变化,而不是跳跃式的变化掌握事物的发展规律,依据这种规律推导,就可以预测出它的未来趋势和状态。根据不同的发展规律,趋势外推包括线性外推法、生长曲线外推法、指数外推法等多种,本方法中优选的使用线性外推法,但考虑到每个应用的发展模式不尽相同,在做趋势外推时,可以根据所述应用的发展模式选择相应的趋势外推方法,如线性外推法、生长曲线外推法等,此处不再一一赘述,其均在本申请的保护范围之内。
在本申请提供的一个实施例中,采用线性外推法进行趋势外推,其具体做法为,设x为月份,设y为应用下载量,y与x之间具有符合二项式的关系y=ax+b,因此,可以根据所述应用的多个历史下载项,推算a和b的值,从而确定y与x的线性关系,将当前月份代入x,即可计算获得当前月份所述应用的下载量y的值。
本步骤中,可以直接将趋势外推推算出的下载量推算值作为当前所述应用的下载量,但考虑到通过趋势外推推算出的下载量推算值有可能不在所述初始字符串所表征的范围内,因此,在本申请提供的一个实施例中,若所述初始字符串的类别为双边范围字符串;
所述利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量,包括:
利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
从所述初始字符串中提取所述应用的下载量上限值和下载量下限值;
比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;
若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;
若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;
若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
例如,某一应用A,其在8月份的下载量为100万-200万,则本步骤中,首先在历史数据库中找到所述应用A过去每月下载量的具体数据,再通过趋势外推的方法计算8月份的下载量推算值,若所述下载量推算值在本月提供的区间范围100万-200万内,则使用推算的结果当做本月下载量,若超过提供范围,不及则使用下限(100万),超过则使用上限(200万)作为本月下载量。
在本申请提供的一个实施例中,若所述初始字符串的类别为单边范围字符串;
所述利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量,包括:
利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
根据所述初始字符串确定所述应用的下载量上限值和下载量下限值;
比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;
若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;
若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;
若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
其中,所述根据所述初始字符串确定所述应用的下载量上限值和下载量下限值的步骤中,对于单边范围字符串,所述下载量下限值可以直接从所述单边范围字符串中提取,所述下载量上限值则可以根据应用商店内其他应用的下载量进行判断,例如,爬取的某一应用A的初始字符串为“100万+”,而同一应用商店中另一应用B的下载量标示为“110万+”,则可以判断所述应用A的下载量上限值为110万,然后再利用所述下载量上限值“110万”和下载量下限值“100万”对下载量推算值进行比较,进而确定所述应用的下载量,这样活得的下载量是较为准确的。
至此,通过步骤S101至步骤S103,完成了应用下载量获取流程。
相较于现有技术,本发明针对各应用商店中应用下载量数据格式不统一、数据精度不一致、数据不准确等问题,将从应用商店中获取的初始字符串分为三个类别分别进行数值化处理,从而获得格式统一、可用于直接统计的所述应用的下载量。通过本方法,即可实现统计各应用商店中的各个应用的下载量或各个应用在各应用商店中的下载量的目的,从而为应用下载量的大数据分析提供数据基础,进而为政府的宏观调控、为企业的市场竞争以及为用户选择应用提供数据支持。
其中,对于准确性较差的双边范围字符串和单边范围字符串,本方法调取所述应用的历史下载量数据,然后根据所述历史下载量数据进行趋势外推,从而获得所述应用的下载量,一方面实现了数据的可统计化,另一方面下载量数据更为准确,利用价值更高。
在上述的实施例中,提供了一种应用下载量获取方法,与之相对应的,本申请还提供一种应用下载量获取装置。请参考图2,其为本发明提供的一种应用下载量获取装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供的一种应用下载量获取装置,包括:初始字符串获取模块101,用于获取表征应用下载量的初始字符串;
初始字符串分类模块102,用于判断所述初始字符串的类别;其中,所述初始字符串的类别包括单边范围字符串、双边范围字符串和直接字符串;
数值化处理模块103,用于根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量。
在本申请提供的一个实施例中,所述应用下载量获取装置,还包括:
字符串类型判断模块,用于判断所述初始字符串的字符串类型,当判断结果是所述初始字符串的字符串类型为文本字符串时,执行判断所述初始字符串的类别的步骤。
在本申请提供的一个实施例中,所述初始字符串分类模块102,包括:
初始字符串分类单元,用于通过检索所述初始字符串中是否包含指定字符判断所述初始字符串的类别。
在本申请提供的一个实施例中,所述数值化处理模块103,包括:
历史数据查询单元,用于若所述初始字符串的类别为双边范围字符串或单边范围字符串,则在历史数据库中查询所述应用的多条历史下载量数据;
趋势外推单元,用于利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量。
在本申请提供的一个实施例中,若所述初始字符串的类别为双边范围字符串;
所述趋势外推单元,包括:
双边趋势外推子单元,用于利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
双边上下限提取子单元,用于从所述初始字符串中提取所述应用的下载量上限值和下载量下限值;
双边上下限比较子单元,用于比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
在本申请提供的一个实施例中,若所述初始字符串的类别为单边范围字符串;
所述趋势外推单元,包括:
单边趋势外推子单元,用于利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
单边上下限确定子单元,用于根据所述初始字符串确定所述应用的下载量上限值和下载量下限值;
单边上下限比较子单元,用于比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
在本申请提供的一个实施例中,所述数值化处理模块103,包括:
直接字符串处理单元,用于若所述初始字符串的类别为直接字符串,则判断所述初始字符串中是否包含数字单位;若有,则从所述初始字符串中提取出数字和数字单位,将所述数字乘以所述数字单位对应的数值,获得数值格式的所述应用的下载量;若没有,则从所述初始字符串中提取出数字,将所述数字作为数值格式的所述应用的下载量。
在本申请提供的一个实施例中,所述初始字符串获取模块101,包括:
初始字符串爬取单元,用于采用网络爬取方法从应用商店中爬取表征应用下载量的初始字符串。
以上,为本发明提供的一种应用下载量获取装置的实施例。
本申请还提供一种应用下载量获取终端设备,包括:
中央处理器;
输入输出单元;
存储器;
所述存储器中存储有本申请提供的应用下载量获取方法;
所述应用下载量获取终端设备在启动后能够根据上述方法运行。
由于本应用下载量获取终端设备使用上述应用下载量获取方法,相关之处请参见上述应用下载量获取方法的实施例说明,此处不再赘述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (10)
1.一种应用下载量获取方法,其特征在于,包括:
获取表征应用下载量的初始字符串;
判断所述初始字符串的类别;其中,所述初始字符串的类别包括单边范围字符串、双边范围字符串和直接字符串;
根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量。
2.根据权利要求1所述的应用下载量获取方法,其特征在于,在所述获取表征应用下载量的初始字符串的步骤后,还包括:
判断所述初始字符串的字符串类型,当判断结果是所述初始字符串的字符串类型为文本字符串时,执行判断所述初始字符串的类别的步骤。
3.根据权利要求1所述的应用下载量获取方法,其特征在于,所述判断所述初始字符串的类别,包括:
通过检索所述初始字符串中是否包含指定字符判断所述初始字符串的类别。
4.根据权利要求1所述的应用下载量获取方法,其特征在于,所述根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量,包括:
若所述初始字符串的类别为双边范围字符串或单边范围字符串,则在历史数据库中查询所述应用的多条历史下载量数据;
利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量。
5.根据权利要求4所述的应用下载量获取方法,其特征在于,若所述初始字符串的类别为双边范围字符串;
所述利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量,包括:
利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
从所述初始字符串中提取所述应用的下载量上限值和下载量下限值;
比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;
若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;
若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;
若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
6.根据权利要求4所述的应用下载量获取方法,其特征在于,若所述初始字符串的类别为单边范围字符串;
所述利用所述多条历史下载量数据进行趋势外推,推算获得当前所述应用的下载量,包括:
利用所述多条历史下载量数据进行趋势外推,获得下载量推算值;
根据所述初始字符串确定所述应用的下载量上限值和下载量下限值;
比较所述下载量推算值与所述下载量上限值和所述下载量下限值的大小;
若所述下载量推算值大于所述下载量上限值,则将所述下载量上限值作为当前所述应用的下载量;
若所述下载量推算值小于所述下载量下限值,则将所述下载量下限值作为当前所述应用的下载量;
若所述下载量推算值介于所述下载量下限值与所述下载量上限值之间,则将所述下载量推算值作为当前所述应用的下载量。
7.根据权利要求1所述的应用下载量获取方法,其特征在于,所述根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量,包括:
若所述初始字符串的类别为直接字符串,则判断所述初始字符串中是否包含数字单位;
若有,则从所述初始字符串中提取出数字和数字单位,将所述数字乘以所述数字单位对应的数值,获得数值格式的所述应用的下载量;
若没有,则从所述初始字符串中提取出数字,将所述数字作为数值格式的所述应用的下载量。
8.根据权利要求1所述的应用下载量获取方法,其特征在于,所述获取表征应用下载量的初始字符串,包括:
采用网络爬取方法从应用商店中爬取表征应用下载量的初始字符串。
9.一种应用下载量获取装置,其特征在于,包括:
初始字符串获取模块,用于获取表征应用下载量的初始字符串;
初始字符串分类模块,用于判断所述初始字符串的类别;其中,所述初始字符串的类别包括单边范围字符串、双边范围字符串和直接字符串;
数值化处理模块,用于根据所述初始字符串的类别对所述初始字符串进行数值化处理,获得数值格式的所述应用的下载量。
10.一种应用下载量获取终端设备,其特征在于,包括:
中央处理器;
输入输出单元;
存储器;
所述存储器中存储有权利要求1至权利要求8所述的应用下载量获取方法;
所述应用下载量获取终端设备在启动后能够根据上述方法运行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610395049.0A CN107463581B (zh) | 2016-06-02 | 2016-06-02 | 应用下载量获取方法、装置和终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610395049.0A CN107463581B (zh) | 2016-06-02 | 2016-06-02 | 应用下载量获取方法、装置和终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107463581A true CN107463581A (zh) | 2017-12-12 |
CN107463581B CN107463581B (zh) | 2020-09-08 |
Family
ID=60545418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610395049.0A Active CN107463581B (zh) | 2016-06-02 | 2016-06-02 | 应用下载量获取方法、装置和终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463581B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110830820A (zh) * | 2018-08-08 | 2020-02-21 | 北京国双科技有限公司 | 应急数据的处理方法及装置 |
CN111428117A (zh) * | 2019-01-09 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 应用程序的数据获取方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101072122A (zh) * | 2007-03-30 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 获取访问量统计数据的方法、系统和用户端设备 |
CN101295251A (zh) * | 2008-06-19 | 2008-10-29 | 腾讯科技(深圳)有限公司 | 一种界面发布方法和装置 |
CN101446962A (zh) * | 2008-12-31 | 2009-06-03 | 中国建设银行股份有限公司 | 一种数据转换方法、装置及数据处理系统 |
CN102740341A (zh) * | 2011-04-02 | 2012-10-17 | 中国联合网络通信集团有限公司 | 网络业务量的预测方法及设备 |
CN104156830A (zh) * | 2014-08-19 | 2014-11-19 | 东南大学 | 基于s曲线的小型汽车驾驶培训量预测方法 |
-
2016
- 2016-06-02 CN CN201610395049.0A patent/CN107463581B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101072122A (zh) * | 2007-03-30 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 获取访问量统计数据的方法、系统和用户端设备 |
CN101295251A (zh) * | 2008-06-19 | 2008-10-29 | 腾讯科技(深圳)有限公司 | 一种界面发布方法和装置 |
CN101446962A (zh) * | 2008-12-31 | 2009-06-03 | 中国建设银行股份有限公司 | 一种数据转换方法、装置及数据处理系统 |
CN102740341A (zh) * | 2011-04-02 | 2012-10-17 | 中国联合网络通信集团有限公司 | 网络业务量的预测方法及设备 |
CN104156830A (zh) * | 2014-08-19 | 2014-11-19 | 东南大学 | 基于s曲线的小型汽车驾驶培训量预测方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110830820A (zh) * | 2018-08-08 | 2020-02-21 | 北京国双科技有限公司 | 应急数据的处理方法及装置 |
CN111428117A (zh) * | 2019-01-09 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 应用程序的数据获取方法和装置 |
CN111428117B (zh) * | 2019-01-09 | 2023-05-16 | 百度在线网络技术(北京)有限公司 | 应用程序的数据获取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107463581B (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107105031A (zh) | 信息推送方法和装置 | |
CN108536650A (zh) | 生成梯度提升树模型的方法和装置 | |
CN110516910A (zh) | 基于大数据的保单核保模型训练方法和核保风险评估方法 | |
CN107463935A (zh) | 应用分类方法和应用分类装置 | |
CN109492222A (zh) | 基于概念树的意图识别方法、装置及计算机设备 | |
CN110442689A (zh) | 一种问答关系排序方法、装置、计算机设备及存储介质 | |
CN105426759A (zh) | Url的合法性识别方法及装置 | |
CN104850546A (zh) | 移动媒介信息的展示方法和系统 | |
CN106095939B (zh) | 账户权限的获取方法和装置 | |
US11836331B2 (en) | Mathematical models of graphical user interfaces | |
CN110069676A (zh) | 关键词推荐方法和装置 | |
CN106649347A (zh) | 一种兴趣信息的识别方法及装置 | |
CN112016793B (zh) | 基于目标用户群的资源分配方法、装置及电子设备 | |
CN110689211A (zh) | 网站服务能力的评估方法及装置 | |
CN109308475A (zh) | 一种字体识别方法及装置 | |
CN114996486A (zh) | 一种数据推荐方法、装置、服务器以及存储介质 | |
CN110555713A (zh) | 一种确定销量预测模型的方法和装置 | |
CN107463581A (zh) | 应用下载量获取方法、装置和终端设备 | |
CN108874379A (zh) | 页面的处理方法及装置 | |
CN109919677A (zh) | 广告策略优化迭代的方法、装置及智能终端 | |
CN114693011A (zh) | 一种政策匹配方法、装置、设备和介质 | |
CN110147473A (zh) | 一种爬虫的爬取方法及装置 | |
CN107463578A (zh) | 应用下载量统计数据去重方法、装置和终端设备 | |
CN108595395B (zh) | 一种昵称的生成方法、装置及设备 | |
CN110765393A (zh) | 基于向量化和逻辑回归识别有害url的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |