CN112905191B - 数据处理方法、装置、计算机可读存储介质和计算机设备 - Google Patents

数据处理方法、装置、计算机可读存储介质和计算机设备 Download PDF

Info

Publication number
CN112905191B
CN112905191B CN201911133532.1A CN201911133532A CN112905191B CN 112905191 B CN112905191 B CN 112905191B CN 201911133532 A CN201911133532 A CN 201911133532A CN 112905191 B CN112905191 B CN 112905191B
Authority
CN
China
Prior art keywords
installation package
target
candidate
similarity
name information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911133532.1A
Other languages
English (en)
Other versions
CN112905191A (zh
Inventor
周远远
张燕
吴春成
邱泰生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911133532.1A priority Critical patent/CN112905191B/zh
Publication of CN112905191A publication Critical patent/CN112905191A/zh
Application granted granted Critical
Publication of CN112905191B publication Critical patent/CN112905191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Stored Programmes (AREA)

Abstract

本申请涉及一种数据处理方法、装置、计算机可读存储介质和计算机设备,该方法包括:根据应用程序数据处理指令得到目标名称信息和目标安装包证书,根据目标名称信息和目标安装包证书从应用数据库的各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度;根据相似度从候选安装包标识集合中确定第二目标安装包标识集合;根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识。本申请提供的方案可以精确得到目标名称信息对应的各个目标安装包标识。

Description

数据处理方法、装置、计算机可读存储介质和计算机设备
技术领域
本申请涉及互联网技术领域,特别是涉及一种数据处理方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着互联网技术的发展,目前,对应用程序安装量的监测,通常是采集用户终端中应用程序的名称或者应用程序安装包的名称来对应用程序安装量数据的监测。然而,相同应用程序安装包的名称可能会存在不同的应用程序的名称。比如,美团外卖应用,在一段时间内的某些版本的名称是“美团外卖-团购支付”,在一段时间以后,新版本的名称可能改为“美团外卖-美食品质外卖”。或者同一款应用程序的名称可能会存在不同应用程序安装包的名称。比如,不同的发布者的应用程序可能出现相同的应用名称,但是安装包名称不同。比如,应用程序在不同的渠道中会有不同的应用程序渠道安装包。比如,“荒野行动”这款软件在“vivo”应用市场发布的安装包的名称是“com.netease.hyxd.vivo”,在“华为”应用市场发布的安装包的名称是“com.netease.hyxd.huawei”。由于应用程序的名称或者应用程序安装包的名称无法精确对应,导致无法精确的对应用程序的安装量进行监测。
发明内容
基于此,有必要针对应用程序的名称或者应用程序安装包的名称无法精确对应,导致无法精确的对应用程序的安装量进行监测的技术问题,提供一种数据处理方法、装置、计算机可读存储介质和计算机设备。
一种数据处理方法,包括:
接收应用程序数据处理指令,应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书;
根据应用程序数据处理指令从应用数据库中查找与目标名称信息一致的各个安装包标识,获取各个安装包标识对应的安装包证书,根据安装包证书和目标安装包证书从各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;第一目标安装包标识集合是指安装包证书与目标安装包证书一致的安装包标识的集合,候选安装包标识集合是指安装包证书与目标安装包证书未一致的安装包标识的集合;
获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和候选安装包标识集合中候选安装包标识对应的候选安装包特征;
遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合;第二目标安装包标识集合是指相似度符合预设条件的候选安装包标识的集合;
根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识;目标名称信息对应的各个目标安装包标识用于查找目标名称信息对应的目标应用程序的安装量。
一种数据处理装置,包括:
指令接收模块,用于接收应用程序数据处理指令,应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书;
第一集合确定模块,用于根据应用程序数据处理指令从应用数据库中查找与目标名称信息一致的各个安装包标识,获取各个安装包标识对应的安装包证书,根据安装包证书和目标安装包证书从各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;第一目标安装包标识集合是指安装包证书与目标安装包证书一致的安装包标识的集合,候选安装包标识集合是指安装包证书与目标安装包证书未一致的安装包标识的集合;
特征获取模块,用于获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和候选安装包标识集合中候选安装包标识对应的候选安装包特征;
第二集合确定模块,用于遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合;第二目标安装包标识集合是指相似度符合预设条件的候选安装包标识的集合;
标识得到模块,用于根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识;目标名称信息对应的各个目标安装包标识用于目标名称信息查找对应的目标应用程序的安装量。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行程序时实现以下步骤:
接收应用程序数据处理指令,应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书;
根据应用程序数据处理指令从应用数据库中查找与目标名称信息一致的各个安装包标识,获取各个安装包标识对应的安装包证书,根据安装包证书和目标安装包证书从各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;第一目标安装包标识集合是指安装包证书与目标安装包证书一致的安装包标识的集合,候选安装包标识集合是指安装包证书与目标安装包证书未一致的安装包标识的集合;
获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和候选安装包标识集合中候选安装包标识对应的候选安装包特征;
遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合;第二目标安装包标识集合是指相似度符合预设条件的候选安装包标识的集合;
根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识;目标名称信息对应的各个目标安装包标识用于查找目标名称信息对应的目标应用程序的安装量
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
接收应用程序数据处理指令,应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书;
根据应用程序数据处理指令从应用数据库中查找与目标名称信息一致的各个安装包标识,获取各个安装包标识对应的安装包证书,根据安装包证书和目标安装包证书从各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;第一目标安装包标识集合是指安装包证书与目标安装包证书一致的安装包标识的集合,候选安装包标识集合是指安装包证书与目标安装包证书未一致的安装包标识的集合;
获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和候选安装包标识集合中候选安装包标识对应的候选安装包特征;
遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合;第二目标安装包标识集合是指相似度符合预设条件的候选安装包标识的集合;
根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识;目标名称信息对应的各个目标安装包标识用于查找目标名称信息对应的目标应用程序的安装量。
上述数据处理方法、装置、计算机可读存储介质和计算机设备,通过根据目标名称信息和目标安装包证书从应用数据库中查找到第一目标安装包标识集合和候选安装包标识集合,并遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合,根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识。能够精确得到目标名称信息对应的各个目标安装包标识,进而能够使用各个目标安装包标识精确监测目标名称信息对应的应用程序的安装量。
附图说明
图1为一个实施例中数据处理方法的应用环境图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中确定目标名称信息和目标安装包证书的流程示意图;
图4为一个实施例中得到目标名称信息的流程示意图;
图5为一个实施例中得到第二目标安装包标识集合的流程示意图;
图6为一个实施例中得到确定文件相似度的流程示意图;
图7为一个实施例中得到确定证书相似度的流程示意图;
图8为一个实施例中得到确定版本相似度的流程示意图;
图9为一个具体实施例中召回目标名称信息对应的各个目标安装包标识的流程示意图;
图10为一个实施例中数据处理装置的结构框图;
图11为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中数据处理方法的应用环境图。该数据处理方法应用于数据处理系统。该数据处理系统包括管理终端102和服务器104。终端102和服务器104通过网络连接。管理终端102具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地:服务器104接收到管理终端102发送的应用程序数据处理指令,应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书。服务器104根据应用程序数据处理指令从应用数据库中查找与目标名称信息一致的各个安装包标识,获取各个安装包标识对应的安装包证书,根据安装包证书和目标安装包证书从各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;第一目标安装包标识集合是指安装包证书与目标安装包证书一致的安装包标识的集合,候选安装包标识集合是指安装包证书与目标安装包证书未一致的安装包标识的集合。服务器104获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和候选安装包标识集合中候选安装包标识对应的候选安装包特征。服务器104遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合;第二目标安装包标识集合是指相似度符合预设条件的候选安装包标识的集合;服务器104根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识;目标名称信息对应的各个目标安装包标识用于查找目标名称信息对应的目标应用程序的安装量。服务器104可以将目标名称信息对应的各个目标安装包标识返回到管理终端102进行显示。
如图2所示,在一个实施例中,提供了一种数据处理方法。本实施例主要以该方法应用于上述图1中的服务器104来举例说明。参照图2,该数据处理方法具体包括如下步骤:
S202,接收应用程序数据处理指令,应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书。
其中,应用程序是指用户终端上安装的应用,比如,微信应用、支付宝应用、百度地图应用等。目标名称信息是指应用程序的唯一化名称,即应用程序对应的唯一化后的应用名称。比如,百度外卖应用在一段时间中的应用名为“百度外卖-美食品质外卖”经过修正后得到的该应用的唯一化的名称为“百度外卖”。安装包证书是指应用程序安装包的证书指纹MD5值。可以通过解压应用程序安装包,使用keytool工具(一个JAVA环境下的安全钥匙与证书的管理工具)打印得到。同一个应用程序的安装包证书大部分是相同。目标安装包证书是指该应用程序的大部分安装包对应的相同的证书。
具体地,服务器可以接收到管理终端发送的应用程序数据处理指令,应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书。其中,管理终端可以是对服务器进行管理的终端。
S204,根据应用程序数据处理指令从应用数据库中查找与目标名称信息一致的各个安装包标识,获取各个安装包标识对应的安装包证书,根据安装包证书和目标安装包证书从各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;第一目标安装包标识集合是指安装包证书与目标安装包证书一致的安装包标识的集合,候选安装包标识集合是指安装包证书与目标安装包证书未一致的安装包标识的集合。
其中,安装包标识用于唯一标识安装包,可以是安装包的名称。同一软件可能有不同名称的软件安装包。比如,腾讯视频软件的安装包名称可以是“com.tencent.qqlive”和“com.tencent.qqlivexiaomi”等。应用数据库中指用于存储用户在终端已安装的应用程序的相关信息,可以包括应用名、安装包名、证书、版本名、版本号、安装包大小、MainActivity(程序入口信息,一个应用程序在打开时最先启动的Activity的名称)、MainClass(主类信息,应用程序所实现的Application子类的全名,当应用程序进程开始时,该类在所有应用程序组件之前被实例化)、是否为内置应用以及安装应用的设备信息等。服务器可以通过用户终端的应用管理软件比如手机管家等采集用户终端中各个应用的相关信息,然后存储到应用数据库中。在一个实施例中,目标安装包证书可以是应用数据库中该相同应用名中对应的证书中相同数量最多的证书。
具体地,服务器根据应用程序数据处理指令从应用数据库中查找目标名称信息对应的各个安装包标识。该各个安装包标识对应的目标名称信息是相同的。然后再从应用数据库中获取到各个安装包标识对应的安装包证书。服务器比较各个安装包标识对应的安装包证书是否与目标安装包证书一致,当安装包标识对应的安装包证书与目标安装包证书一致时,将安装包证书对应的安装包标识作为第一目标安装包标识,当安装包标识对应的安装包证书与目标安装包证书不一致时,将安装包证书对应的安装包标识作为候选安装包标识。将各个安装包标识都进行比较,得到各个第一目标安装包标识组成第一目标安装包标识集合,得到各个候选安装包标识组成候选安装包标识集合。其中,第一目标安装包标识是指已确定为目标名称信息对应的安装包标识。候选安装包标识是指经过安装包证书筛选后还未确定为目标名称信息对应的安装包标识,需要进一步进行筛选。
在一个具体的实施例中,确定目标名称信息为“荒野行动”应用的第一目标安装包标识集合和候选安装包标识集合。该“荒野行动”应用的目标安装包证书为“30950E4051CD2EE239EF6F28DA9F8E20”。得到的结果如表1所示:
表1
S206,获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和候选安装包标识集合中候选安装包标识对应的候选安装包特征。
其中,安装包特征是指安装包的特征信息,包括证书特征,清单文件特征和版本特征。该清单文件特征中包括MainClass特征和MainActivity特征。版本特征包括版本名特征、版本号特征和安装包大小特征。目标安装包特征是第一目标安装包标识对应的安装包的特征信息。候选安装包特征是候选安装包标识对应的安装包的特征信息。
具体地,服务器从应用数据库中获取第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征和候选安装包标识集合中每个候选安装包标识对应的候选安装包特征。
S208,遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合;第二目标安装包标识集合是指相似度符合预设条件的候选安装包标识的集合。
其中,第二目标安装包标识是指已确定为目标名称信息对应的安装包标识,该安装包标识是相似度符合预设条件的候选安装包标识。第二目标安装包标识集合是指已确定为目标名称信息对应的安装包标识的集合。预设条件是指相似度满足预先设置好的条件。
具体地,服务器将候选安装包标识集合中每个候选安装包标识对应的候选安装包特征与第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征进行相似度计算。当相似度符合预设条件时,将符合预设条件的相似度对应的候选安装包标识作为第二目标安装包标识,选取出所有相似度符合预设条件的候选安装包标识,将选取的所有候选安装包标识作为第二目标安装包标识,得到第二目标安装包标识集合。
在一个具体实施例中,候选安装包标识集合中有A、B和C三个候选安装包标识。第一目标安装包标识集合中有a、b和c三个第一目标安装包标识。计算a的安装包特征分别与A、B和C的安装包特征的相似度。再计算b的安装包特征分别与A、B和C的安装包特征的相似度,最后计算c的安装包特征分别与A、B和C的安装包特征的相似度。当a和b的相似度符合预设条件时,将a和b作为第二目标安装包标识,得到第二目标安装包标识集合(a,b)。
S210,根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识;目标名称信息对应的各个目标安装包标识用于查找目标名称信息对应的目标应用程序的安装量。
其中,目标应用程序是指目标名称信息对应的应用。比如,“荒野行动”应用。目标安装包标识是已确定的目标名称信息对应的安装包标识。
具体地,服务器将第一目标安装包标识集合中的各个第一目标安装包标识和第二目标安装包标识集合中各个第二安装包标识作为目标名称信息对应的各个目标安装包标识。服务器可以查找各个目标安装包标识对应的目标安装包在用户终端的安装量,得到目标名称信息对应的应用的安装量。比如,可以根据“荒野行动”对应的各个安装包名查找安装量,得到“荒野行动”应用在用户终端中的安装量。也可以确定各个目标安装包标识对应安装包的安装量占比。
在一个实施例中,还可以根据各个目标安装包标识得到安装目标名称信息对应应用的用户数,然后可以向所有安装目标名称信息对应应用的用户终端发送该应用的相关推荐信息,避免由于应用程序的名称或者应用程序安装包的名称无法精确对应,导致无法精确推荐该应用的推荐信息的问题。
在一个实施例中,还可以根据各个目标安装包标识精确确定对应安装用户的用户标签,避免由于应用程序的名称或者应用程序安装包的名称无法精确对应,导致用户未能够确定对应的标签。比如,用户安装了游戏类的应用比如“荒野行动”,则该用户具有“游戏”标签。若无法准确的确定所有安装“荒野行动”的用户,则部分用户可能会缺失该“游戏”标签,导致用户标签不够精确。
在上述数据处理方法,通过根据目标名称信息和目标安装包证书从应用数据库中查找到第一目标安装包标识集合和候选安装包标识集合,并遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合,根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识。能够精确得到目标名称信息对应的各个目标安装包标识,进而能够使用各个目标安装包标识精确监测目标名称信息对应的应用程序的安装量。
在一个实施例中,服务器可以同时确定多个不同的目标名称信息对应的应用的各个目标安装包标识。比如,如图表2所示,为不同目标名称信息对应的应用的各个目标安装包标识。
表2
在一个实施例中,如图3所示,在步骤S202之前,即在接收应用程序数据处理指令,应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书之前,还包括步骤:
S302,获取待处理应用程序安装包标识,根据待处理应用程序安装包标识从应用数据库中查找对应的各个名称信息。
其中,待处理应用程序安装包标识用于标识需要进行应用程序的名称确定的安装包。该安装包标识是在应用数据库中对应各个安装包的安装量进行统计之后得到的,比如,可以是安装量占比最多的安装包标识。名称信息是指该应用程序的应用名称。同一应用程序可能有不同的应用名称。
具体地,服务器获取到待处理应用程序安装包标识,根据应用程序安装包标识从应用数据库中查找对应的各个名称信息。比如,在一个具体的实施例中,得到待处理应用程序安装包标识为“com.baidu.lbs.waimai”的各个名称信息如表3所示。
表3
S304,根据各个名称信息从应用数据库中获取对应的安装量,根据安装量从各个名称信息中确定初始名称信息,将初始名称信息修正,得到目标名称信息。
其中,初始名称信息是指初步确定的该应用程序的名称信息。
具体地,服务器从应用数据库中进行统计得到各个名称信息的安装包标识对应的安装量,然后根据安装量的大小对各个名称信息进行排序,得到最大安装量对应的名称信息,将该名称信息作为初始名称信息。也可以统计各个名称信息的安装包标识对应的安装量的占比,根据占比的大小对各个名称信息的安装包标识对应的安装量,将最大占比对应的名称信息作为初始名称信息。如表3所示中,该应用安装量占比最多的为53.57%,其对应的名称为“百度外卖-美食品质外卖”,则将“百度外卖-美食品质外卖”作为该应用的初始名称信息。然后将初始名称信息安卓预设规则进行修正,得到目标名称信息。预设规则是指预先设置好的对初始名称信息进行修正的规则。比如,可以是过滤非中文数字字母的特殊字符,可以是过滤掉规则规定符号后的信息。将“百度外卖-美食品质外卖”中“-”后面的信息过滤,得到该应用唯一化的名称为“百度外卖”。
S306,根据目标名称信息从应用数据库中确定对应的目标安装包证书。
具体地,服务器根据目标名称信息从应用数据库中查找对应的安装包证书,当安装包证书对应的安装包安装量为最多时,将该安装包证书作为目标安装包证书。在上述实施例中,可以预先通过应用数据库确定目标名称信息和目标安装包证书,方便后续直接进行使用。
在一个实施例中,如图4所示,步骤S304,将初始名称信息修正,得到目标名称信息,包括步骤:
S402,将初始名称信息正则化,得到正则化名称信息,当正则化名称信息为外置应用的名称信息时,将正则化名称信息作为目标名称信息。
其中,正则化名称信息是指按照正则化逻辑对初始名称信息进行修正后得到的名称。该正则化逻辑包括首先过滤非中文数字字母的特殊字符然后过滤()、()、-、【】等以及中间的字符。最后过滤小米版、华为版等厂商版结尾的字符。外置应用是指不是设备系统自带的内置应用和设备厂商嵌入设备的内置应用的应用。
具体地,使用正则化逻辑对初始名称信息进行修正,得到正则化名称信息,判断该名称信息对应的应用是否外置应用,当该正则化名称信息为外置应用的名称信息时,直接将正则化名称信息作为目标名称信息。
S406,当正则化名称信息为内置应用的名称信息时,获取内置应用的名称信息对应的开发者名称信息,根据开发者名称信息和内置应用的名称信息得到目标名称信息。
其中,内置应用是指设备系统自带的应用或者是设备厂商嵌入设备的应用。比如,安卓系统自带的安卓类应用。华为手机设备自带的华为应用等等。开发者名称信息是指开发该名称信息对应的应用的厂商名称信息或者系统名称。
具体地,当正则化名称信息为内置应用的名称信息时,服务器获取内置应用的名称信息对应的开发者名称信息,根据开发者名称信息和内置应用的名称信息组合得到目标名称信息。比如,可以将开发者名称放置在内置应用的名称信息之前,得到目标名称信息。也可以放置在内置应用的名称信息之后,得到目标名称信息。
在一个实施例中,可以根据应用数据库中的设备信息来判断该应用是否为厂商内置应用。统计应用数据库中该应用对应的安装包安装在厂商设备的数量和所有安装该应用对应的安装包的设备数量,当安装在厂商设备的数量超过一定占比时,该应用为厂商开发的内置应用。比如,安装该“计算机”应用的“华为”厂商设备数量超过所有安装该应用的设备数量的80%,则该应用“计算机”为该“华为”厂商开发的内置应用。此时,获取到“华为”的名称信息和内置应用的名称信息“计算机”组合得到目标名称信息可以是“华为计算机”。
在一个实施例中,根据应用对应的安装包标识和预设规则来判断是否为系统自带的内置应用。比如,安装包标识中以“org.codeaurora.”、“com.qti.”、“android.”、“com.android.”、“com.android1.”、“com.androidwasabi.”、“com.androidesk.”、“com.google.android.”、“com.androidsys.”、“com.sys.android.”、“com.sys.androidi.”、“systemes.android”等字符串开头的应用为安卓系统自带的内置应用。则开发者名称信息为“安卓”,若应用名称为“文件管理”,则得到目标名称信息可以是“安卓文件管理”。
在上述实施例中,通过区分内外置应用,根据内外置应用分别得到对应的目标名称信息,能够得到准确的目标名称信息。
在一个实施例中,如图5所示,步骤S208,即遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合,包括步骤:
S502,获取候选安装包标识集合中候选安装包标识对应的候选安装包特征。
S504,计算候选安装包特征与第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征的相似度,得到相似度结果。
具体地,具体地服务器从候选安装包标识集合随机不放回的选取候选安装包标识,并从应用数据库中获取到选取的候选安装包标识对应的候选安装包特征。此时服务器从应用数据库中获取到第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征。服务器分别计算候选安装包特征与候选安装包特征的相似度,得到各个相似度,然后从各个相似度中选择得到相似度结果。比如,可以选取其中相似度最大的值作为相似度结果。
S506,当相似度结果符合预设条件时,将候选安装包特征对应的候选安装包标识作为第二目标安装包标识。
具体地,当相似度结果符合预设条件时,服务器将候选安装包特征对应的候选安装包标识作为第二目标安装包标识。其中,预设条件可以是相似度结果超过预设阈值或者等于设定的值。
S508,判断是否遍历完成候选安装包标识集合中每个候选安装包标识,当未遍历完成候选安装包标识集合中每个候选安装包标识时,返回步骤S502进行执行,当遍历完成候选安装包标识集合中每个候选安装包标识时,执行步骤S510。
S510,得到各个第二目标安装包标识组成的第二目标安装包标识集合。
具体地,服务器可以直接判断候选安装包标识集合是否为空,当候选安装包标识集合不为空时,说明候选安装包标识集合中还有候选安装包标识,即未遍历完成候选安装包标识集合中每个候选安装包标识。当候选安装包标识集合为空时,将从步骤S506中得到的各个第二目标安装包标识组成第二目标安装包标识集合。
在上述实施例中,计算候选安装包特征分别与第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征的相似度,从而得到相似度结果,可以提高得到相似度结果的准确性。然后根据相似度结果判断候选安装包特征对应的候选安装包标识是否为第二目标安装包标识,提高了得到第二目标安装包标识的准确性,进而提高了得到的第二目标安装包标识集合的准确性。
在一个实施例中,如图6所示,步骤S504,即计算候选安装包特征与第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征的相似度,得到相似度结果,包括步骤:
S602,获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标清单文件特征。
其中,目标清单文件特征是指根据安装包清单文件中的信息得到的特征。包括MainActivity特征和MainClass特征。该清单文件是应用程序安装包中的AndroidManifest.xml文件,可以通过apktoo(APK编译工具,能够反编译及回编译apk)工具解压APK(Android应用程序包)文件获得。比如,在一个具体的实施例中,清单文件特征中的MainActivity特征可以是“com.tencent.qqmusic.activity.AppStarterActivity”。MainClass特征可以是“com.tencent.qqmusic.Musicapplication”。
具体地,服务器从第一目标安装包标识集合中随机不放回选取第一目标安装包标识,并从应用数据库中获取到目标安装包特征中的目标清单文件特征信息。
S604,获取候选安装包特征中的候选清单文件特征,将候选清单文件特征和目标清单文件特征按照预设分词规则分词,得到候选分词结果和目标分词结果。
其中,预设分词规则是指预先设置好的对清单文件特征的分词规则,比如,可以使用下述公式(1)对清单文件特征进行分隔,得到分词结果。
W=split(清单文件特征) 公式(1)其中,split是指对清单文件特征按照“.”分隔,得到分词结果。W表示分词结果。该清单文件通知可以是MainActivity特征,也可以是MainClass特征。
具体地,服务器从应用数据库中获取候选安装包特征中的候选清单文件特征。将候选清单文件特征和目标清单文件特征按照预设分词规则分词,得到候选分词结果和目标分词结果。
S606,根据候选分词结果和目标分词结果确定相同词数和词总数,根据相同词数和词总数确定候选清单文件特征和目标清单文件特征的清单文件相似度。
具体地,比较候选分词结果和目标分词结果,得到相同词,并计算得到相同词数和候选分词结果和目标分词结果中的词总数。根据相同词数和词总数的比值确定候选清单文件特征和目标清单文件特征的清单文件相似度。在一个实施例中,可以使用下述公式(2)计算候选清单文件特征和目标清单文件特征的清单文件相似度
其中,Similarity表示清单文件特征的相似度。W1是指候选清单文件特征的分词结果。W1是指目标清单文件特征的分词结果,(W1∩W2).size表示W1和W2中相同词个数。W1.size表示对候选清单文件特征分词结果中词的个数,W2.size表示对目标清单文件特征的分词结果中词的个数。
S608,判断是否遍历完成第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标清单文件特征。当遍历完成时,执行步骤S610.当未遍历完成时,返回步骤S602继续执行。
S610,得到各个清单文件相似度,从各个清单文件相似度中确定相似度结果。
具体地,服务器可以直接判断第一目标安装包标识集合是否为空,当第一目标安装包标识集合不为空时,说明候第一目标安装包标识集合中还有第一目标安装包标识,即未遍历完成第一目标安装包标识集合中每个第一目标安装包标识。当第一目标安装包标识集合为空时,说明遍历完成,则执行步骤S610,得到候选清单文件特征与各个目标清单文件特征之间的清单文件相似度,然后从各个清单文件相似度选取目标清单文件相似度作为清单文件特征的相似度结果。比如,可以选择最大的清单文件相似度作为相似度结果。
举例来说:候选清单文件特征中的MainActivity特征为“a.b.d”,目标清单文件特征的MainActivity特征为“a.b.c”和“c.d.e”,则先选取“a.b.c”与“a.b.d”计算相似度,则对“a.b.d进行分词,得到分词结果a,b和d。对“a.b.c”进行分词,得到分词结果a,b和c。比较分词结果,得到相同词为a和b,则相同词数量为2,分词结果的词总数为3+3=6,则该相似度为3/6=1/3。然后选取“c.d.e”与“a.b.d”计算相似度,则对“a.b.d进行分词,得到分词结果a,b和d。对“c.d.e”进行分词,得到分词结果c,d和e。比较分词结果,得到相同词为c,则相同词数量为1,分词结果的词总数为3+3=6,则该相似度为1/6。由于相似度1/3大于1/6,则确定1/6为该MainActivity特征的相似度结果。清单文件特征中的MainClass特征与MainActivity特征关于相似度的计算逻辑相同,在此不再赘述。
在上述实施例中,通过计算候选清单文件特征和各个目标清单文件特征之间的相似度,最后从各个清单文件相似度确定相似度结果,提高了得到的相似度结果的准确性。
在一个实施例中,如图7所示,步骤S504,计算候选安装包特征与第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征的相似度,得到相似度结果,包括步骤:
S702,获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标证书特征。
S704,获取候选安装包特征中的候选证书特征,比较目标证书特征和候选证书特征,根据比较结果确定证书相似度。
其中,目标证书特征是指第一目标安装包标识对应的安装包的证书。候选证书特征是指候选安装包标识对应的候选安装包的证书。
具体地,服务器从第一目标安装包标识集合中随机无放回选取第一目标安装包标识并获取到选取的第一目标安装包标识对应的目标安装包特征中的目标证书特征。此时,获取候选安装包特征中的候选证书特征。比较目标证书特征和候选证书特征,得到比较结果,根据比较结果确定证书相似度。比如,当比较结果为目标证书特征和候选证书特征一致时,得到证书相似度为1。当比较结果为目标证书特征和候选证书特征不一致时,得到证书相似度为0。
S706,判断是否遍历完成第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标证书特征。当遍历完成时,执行步骤S708。当未遍历完成时,返回步骤S702继续执行。
S708,得到各个证书相似度;从各个证书相似度中确定相似度结果。
具体地,服务器可以直接判断第一目标安装包标识集合是否为空,当第一目标安装包标识集合不为空时,说明候第一目标安装包标识集合中还有第一目标安装包标识,即未遍历完成第一目标安装包标识集合中每个第一目标安装包标识。当第一目标安装包标识集合为空时,说明遍历完成,则执行步骤S710。得到候选证书特征和各个目标证书特征之间的相似度,得到各个证书相似度,然后从各个证书相似度中确定相似度结果。比如,可以将最大的证书相似度确定为相似度结果。
在上述实施例中,通过计算候选证书特征和各个目标证书特征之间的证书相似度,从各个证书相似度中确定相似度结果,能够提高得到的相似度结果的准确性。
在一个实施例中,如图8所示,步骤S504,即计算候选安装包特征与第一目标安装包标识集合中每个目标安装包标识对应的目标安装包特征的相似度,得到相似度结果,包括步骤:
S802,获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标版本特征。
S804,获取候选安装包特征中的候选版本特征。
其中,候选版本特征是指候选安装包标识对应的候选安装包的版本特征,可以包括版本号、版本名和版本安装包体积大小等等。目标版本特征是指目标安装包标识对应的目标安装包的版本特征。例如,版本号是用一个数字表示应用程序的版本,比如“1”版本名是指应用程序的版本名称,比如,“第一版”。一般情况下版本名和版本号一一对应。
具体地,服务器从第一目标安装包标识集合中随机不放会选取第一目标安装包标识,然后获取到第一目标安装包标识对应的目标安装包特征中的目标版本特征。并获取到候选安装包特征中的候选版本特征。
S806,当目标版本特征和候选版本特征符合预设版本条件时,根据目标版本特征中版本安装包体积特征和候选版本特征中版本安装包体积特征确定版本相似度。
其中,预设版本条件是指目标版本特征和候选版本特征中的版本号和版本名相同。
具体地,服务器判断目标版本特征中的目标版本号和目标版本名是否与候选版本特征中的候选版本号和候选版本名是否相同,当不相同时,可以直接得到版本相似度为0。当相同时,即符合预设版本条件。此时获取目标版本特征中版本安装包体积特征和候选版本特征中版本安装包体积特征,比较目标版本特征中版本安装包体积特征和候选版本特征中版本安装包体积特征,根据比较结果得到版本相似度。在一个实施例中,可以根据公式(3)得到版本相似度。
其中,similarity是指版本相似度。A.size是指候选版本特征中版本安装包体积特征。B.size是指目标版本特征中版本安装包体积特征。min(A.size,B.size)是指候选版本特征中版本安装包体积特征和目标版本特征中版本安装包体积特征的最小值。max(A.size,B.size)是指候选版本特征中版本安装包体积特征和目标版本特征中版本安装包体积特征的最大值。
S808,判断是否遍历完成第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标版本特征,当遍历完成时,继续执行步骤S810,当遍历未完成时,返回步骤S802继续执行。
S810,得到各个版本相似度,从各个版本相似度中确定相似度结果。
具体地,服务器可以直接判断第一目标安装包标识集合是否为空,当第一目标安装包标识集合不为空时,说明候第一目标安装包标识集合中还有第一目标安装包标识,即未遍历完成第一目标安装包标识集合中每个第一目标安装包标识,则返回步骤S802继续执行。当第一目标安装包标识集合为空时,说明遍历完成,则执行步骤S810。得到候选版本特征中版本安装包体积特征和各个目标版本特征中版本安装包体积特征的相似度,得到各个版本相似度,然后从各个版本相似度中确定相似度结果。比如,可以将最大的版本相似度确定为相似度结果。比如,可以将超过预设阈值的版本相似度确定为相似度结果。
在上述实施例中,通过当目标版本特征和候选版本特征符合预设版本条件时,计算候选版本特征中版本安装包体积特征和各个目标版本特征中版本安装包体积特征的相似度,从而根据各个版本相似度确定相似度结果,提高了相似度结果的准确性。
在一个实施例中,服务器通过遍历计算得到第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,包括:MainActivity特征相似度,MainClass特征相似度、证书相似度和版本相似度。当相似度满足下列预设条件之一时,将对应的候选安装包标识作为目标安装包标识。
预设条件包括
1、MainActivity特征相似度等于100%。
2、MainClass特征相似度等于100%。
3、证书相似度等于100%。
4、版本相似度大于等于90%且MainActivity特征相似度大于等于30%或者版本相似度大于等于90%且MainClass特征相似度大于等于30%。
遍历候选安装包标识集合中各个候选安装包标识,找到候选安装包标识集合中包括的目标安装包标识,能够提高得到的目标安装包标识的准确性。
在一个具体的实施例中,如图9所示,为召回目标名称信息对应的各个目标安装包标识的流程示意图,具体来说:
服务器预先采集到APK(Android应用程序包)的相关信息包括软件名、包名、证书、MainClass信息、版本大小、版本名、版本号、MainActivity信息、是否内置和设备信息等等。获取到安装量最多的包名对应的软件名比如“com.baidu.lbs.waimai”包括安装量最多,其对应的软件名为“百度外卖-美食品质外卖”。服务器对得到的软件名唯一化。即对软件名正则化后得到的软件名为“百度外卖”。获取到该软件为外置软件,则唯一化的软件名为就为“百度外面”。如果是内置软件时,根据包名的开头判断是否为安卓系统软件或者根据该软件的设备信息判断设备的厂商的安装量是否超过所有安装量的80%,若是,将安卓或者厂商名作为软件名的开头,得到唯一化的软件名比如“安卓文件管理”、“vivo天气”、“华为天气”等。然后根据唯一化的软件名进行第一轮包名的召回。即获取到相同软件名中安装量最多的证书作为主证书。通过唯一化的软件名相同且主证书相同的条件从应用数据库中召回第一批包名。同时获取到唯一化的软件名相同且主证书不同的待召回包名。此时进行第二轮召回,即获取到第一批包名对应的APK特征,包括MainClass、MainActivity、证书、版本(版本名、版本号、大小)。并获取到待召回包名对应的APK特征。计算待召回包名对应的APK特征和第一批包名对应的APK特征的相似度,根据该相似度从待召回包名中确定第二批召回的包名,根据第一批召回的包名和第二批召回的包名得到该软件名对应的召回的所有包名。
应该理解的是,虽然图2-图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种数据处理装置1000,包括:指令接收模块1002、第一集合确定模块1004、特征获取模块1006、第二集合确定模块1008和标识得到模块1010,其中,
指令接收模块1002,用于接收应用程序数据处理指令,应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书;
第一集合确定模块1004,用于根据应用程序数据处理指令从应用数据库中查找与目标名称信息一致的各个安装包标识,获取各个安装包标识对应的安装包证书,根据安装包证书和目标安装包证书从各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;第一目标安装包标识集合是指安装包证书与目标安装包证书一致的安装包标识的集合,候选安装包标识集合是指安装包证书与目标安装包证书未一致的安装包标识的集合;
特征获取模块1006,用于获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和候选安装包标识集合中候选安装包标识对应的候选安装包特征;
第二集合确定模块1008,用于遍历计算第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据相似度从候选安装包标识集合中确定第二目标安装包标识集合;第二目标安装包标识集合是指相似度符合预设条件的候选安装包标识的集合;
标识得到模块1010,用于根据第一目标安装包标识集合和第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识;目标名称信息对应的各个目标安装包标识用于查找目标名称信息对应的目标应用程序的安装量。
在一个实施例中,数据处理装置1000,还包括:
名称查找模块,用于获取待处理应用程序安装包标识,根据待处理应用程序安装包标识从应用数据库中查找对应的各个名称信息;
目标名称得到模块,用于根据各个名称信息从应用数据库中获取对应的安装量,根据安装量从各个名称信息中确定初始名称信息,将初始名称信息修正,得到目标名称信息;
目标证书确定模块,用于根据目标名称信息从应用数据库中确定对应的目标安装包证书。
在一个实施例中,目标名称得到模块,包括:
正则化单元,用于将初始名称信息正则化,得到正则化名称信息,当正则化名称信息为外置应用的名称信息时,将正则化名称信息作为目标名称信息;
内置单元,用于当正则化名称信息为内置应用的名称信息时,获取内置应用的名称信息对应的开发者名称信息,根据开发者名称信息和内置应用的名称信息得到目标名称信息。
在一个实施例中,第二集合确定模块1008,包括:
候选特征获取模块,用于获取候选安装包标识集合中候选安装包标识对应的候选安装包特征;
相似度计算模块,用于计算候选安装包特征与第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征的相似度,得到相似度结果;
标识确定模块,用于当相似度结果符合预设条件时,将候选安装包特征对应的候选安装包标识作为第二目标安装包标识;
第二集合组成模块,用于返回获取候选安装包标识集合中候选安装包标识对应的候选安装包特征执行,直到遍历完成候选安装包标识集合中每个候选安装包标识,得到各个第二目标安装包标识组成的第二目标安装包标识集合。
在一个实施例中,相似度计算模块,包括:
清单文件通知获取单元,用于获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标清单文件特征;
分词单元,用于获取候选安装包特征中的候选清单文件特征,将候选清单文件特征和目标清单文件特征按照预设分词规则分词,得到候选分词结果和目标分词结果;
清单文件相似度确定单元,用于根据候选分词结果和目标分词结果确定相同词数和词总数,根据相同词数和词总数确定候选清单文件特征和目标清单文件特征的清单文件相似度;
第一相似度结果确定单元,用于返回获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标清单文件特征的步骤执行,直到遍历完成第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标清单文件特征,得到各个清单文件相似度;从各个清单文件相似度中确定相似度结果。
在一个实施例中,相似度计算模块,包括:
证书特征获取单元,用于获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标证书特征;
比较单元,用于获取候选安装包特征中的候选证书特征,比较目标证书特征和候选证书特征,根据比较结果确定证书相似度;
第二相似度结果确定单元,用于返回获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标证书特征的步骤执行,直到遍历完成第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标证书特征,得到各个证书相似度;从各个证书相似度中确定相似度结果。
在一个实施例中,相似度计算模块,包括:
版本特征获取单元,用于获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标版本特征;获取候选安装包特征中的候选版本特征;
版本相似度确定单元,用于当目标版本特征和候选版本特征符合预设版本条件时,根据目标版本特征中版本安装包体积特征和候选版本特征中版本安装包体积特征确定版本相似度;
第三相似度结果确定单元,用于返回获取第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标版本特征的步骤执行,直到遍历完成第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标版本特征,得到各个版本相似度;从各个版本相似度中确定所述相似度结果。
图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器104。如图11所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储虚拟产品相关信息等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的数据处理装置可以实现为一种计算机程序的形式,计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据处理装置的各个程序模块,比如,图10所示的指令接收模块1002、第一集合确定模块1004、特征获取模块1006、第二集合确定模块1008和标识得到模块1010。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据处理方法中的步骤。
例如,图11所示的计算机设备可以通过如图10所示的数据处理装置中的指令接收模块1002执行步骤S202、第一集合确定模块1004执行步骤S204、特征获取模块1006执行步骤S206、第二集合确定模块1008执行步骤S208。标识得到模块1010执行步骤S210.
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据处理方法的步骤。此处数据处理方法的步骤可以是上述各个实施例的数据处理方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据处理方法的步骤。此处数据处理方法的步骤可以是上述各个实施例的数据处理方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种数据处理方法,包括:
接收应用程序数据处理指令,所述应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书;
根据所述应用程序数据处理指令从应用数据库中查找与所述目标名称信息一致的各个安装包标识,获取各个安装包标识对应的安装包证书,根据所述安装包证书和所述目标安装包证书从所述各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;所述第一目标安装包标识集合是指所述安装包证书与所述目标安装包证书一致的安装包标识的集合,所述候选安装包标识集合是指所述安装包证书与所述目标安装包证书未一致的安装包标识的集合;
获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和所述候选安装包标识集合中候选安装包标识对应的候选安装包特征;
遍历计算所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与所述候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据所述相似度从所述候选安装包标识集合中确定第二目标安装包标识集合;所述第二目标安装包标识集合是指相似度符合预设条件的候选安装包标识的集合;
根据所述第一目标安装包标识集合和所述第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识;所述目标名称信息对应的各个目标安装包标识用于查找所述目标名称信息对应的目标应用程序的安装量。
2.根据权利要求1所述的方法,其特征在于,在所述接收应用程序数据处理指令,所述应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书之前,还包括:
获取待处理应用程序安装包标识,根据所述待处理应用程序安装包标识从所述应用数据库中查找对应的各个名称信息;
根据所述各个名称信息从所述应用数据库中获取对应的安装量,根据所述安装量从所述各个名称信息中确定初始名称信息,将所述初始名称信息修正,得到目标名称信息;
根据目标名称信息从所述应用数据库中确定对应的目标安装包证书。
3.根据权利要求2所述的方法,其特征在于,所述将所述初始名称信息修正,得到目标名称信息,包括:
将所述初始名称信息正则化,得到正则化名称信息,当所述正则化名称信息为外置应用的名称信息时,将所述正则化名称信息作为目标名称信息;
当所述正则化名称信息为内置应用的名称信息时,获取所述内置应用的名称信息对应的开发者名称信息,根据开发者名称信息和内置应用的名称信息得到目标名称信息。
4.根据权利要求1所述的方法,其特征在于,所述遍历计算所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与所述候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据所述相似度从所述候选安装包标识集合中确定第二目标安装包标识集合,包括:
获取所述候选安装包标识集合中候选安装包标识对应的候选安装包特征;
计算所述候选安装包特征与所述第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征的相似度,得到相似度结果;
当所述相似度结果符合预设条件时,将所述候选安装包特征对应的候选安装包标识作为第二目标安装包标识;
返回获取所述候选安装包标识集合中候选安装包标识对应的候选安装包特征执行,直到遍历完成所述候选安装包标识集合中每个候选安装包标识,得到各个第二目标安装包标识组成的第二目标安装包标识集合。
5.根据权利要求4所述的方法,其特征在于,所述计算所述候选安装包特征与所述第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征的相似度,得到相似度结果,包括:
获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标清单文件特征;
获取所述候选安装包特征中的候选清单文件特征,将所述候选清单文件特征和所述目标清单文件特征按照预设分词规则分词,得到候选分词结果和目标分词结果;
根据所述候选分词结果和所述目标分词结果确定相同词数和词总数,根据所述相同词数和词总数确定所述候选清单文件特征和所述目标清单文件特征的清单文件相似度;
返回获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标清单文件特征的步骤执行,直到遍历完成所述第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标清单文件特征,得到各个清单文件相似度;
从所述各个清单文件相似度中确定所述相似度结果。
6.根据权利要求4所述的方法,其特征在于,所述计算所述候选安装包特征与所述第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征的相似度,得到相似度结果,包括:
获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标证书特征;
获取所述候选安装包特征中的候选证书特征,比较所述目标证书特征和所述候选证书特征,根据比较结果确定证书相似度;
返回获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标证书特征的步骤执行,直到遍历完成所述第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标证书特征,得到各个证书相似度;
从所述各个证书相似度中确定所述相似度结果。
7.根据权利要求4所述的方法,其特征在于,所述计算所述候选安装包特征与所述第一目标安装包标识集合中每个目标安装包标识对应的目标安装包特征的相似度,得到相似度结果,包括:
获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标版本特征;
获取所述候选安装包特征中的候选版本特征;
当所述目标版本特征和所述候选版本特征符合预设版本条件时,根据所述目标版本特征中版本安装包体积特征和所述候选版本特征中版本安装包体积特征确定版本相似度;
返回获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标版本特征的步骤执行,直到遍历完成所述第一目标安装包标识集合中每个目标安装包标识对应的目标安装包特征中的目标版本特征,得到各个版本相似度;
从所述各个版本相似度中确定所述相似度结果。
8.一种数据处理装置,其特征在于,所述装置包括:
指令接收模块,用于接收应用程序数据处理指令,所述应用程序数据处理指令中携带有应用程序的目标名称信息和目标安装包证书;
第一集合确定模块,用于根据所述应用程序数据处理指令从应用数据库中查找与所述目标名称信息一致的各个安装包标识,获取各个安装包标识对应的安装包证书,根据所述安装包证书和所述目标安装包证书从所述各个安装包标识中确定第一目标安装包标识集合和候选安装包标识集合;所述第一目标安装包标识集合是指所述安装包证书与所述目标安装包证书一致的安装包标识的集合,所述候选安装包标识集合是指所述安装包证书与所述目标安装包证书未一致的安装包标识的集合;
特征获取模块,用于获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征和所述候选安装包标识集合中候选安装包标识对应的候选安装包特征;
第二集合确定模块,用于遍历计算所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征与所述候选安装包标识集合中候选安装包标识对应的候选安装包特征的相似度,根据所述相似度从所述候选安装包标识集合中确定第二目标安装包标识集合;所述第二目标安装包标识集合是指相似度符合预设条件的候选安装包标识的集合;
标识得到模块,用于根据所述第一目标安装包标识集合和所述第二目标安装包标识集合得到目标名称信息对应的各个目标安装包标识;所述目标名称信息对应的各个目标安装包标识用于查找所述目标名称信息对应的目标应用程序的安装量。
9.根据权利要求8所述的装置,其特征在于,所述装置,还包括:
名称查找模块,用于获取待处理应用程序安装包标识,根据所述待处理应用程序安装包标识从所述应用数据库中查找对应的各个名称信息;
目标名称得到模块,用于根据所述各个名称信息从所述应用数据库中获取对应的安装量,根据所述安装量从所述各个名称信息中确定初始名称信息,将所述初始名称信息修正,得到目标名称信息;
目标证书确定模块,用于根据目标名称信息从所述应用数据库中确定对应的目标安装包证书。
10.根据权利要求9所述的装置,其特征在于,所述目标名称得到模块,包括:
正则化单元,用于将所述初始名称信息正则化,得到正则化名称信息,当所述正则化名称信息为外置应用的名称信息时,将所述正则化名称信息作为目标名称信息;
内置单元,用于当所述正则化名称信息为内置应用的名称信息时,获取所述内置应用的名称信息对应的开发者名称信息,根据开发者名称信息和内置应用的名称信息得到目标名称信息。
11.根据权利要求8所述的装置,其特征在于,所述第二集合确定模块,包括:
候选特征获取模块,用于获取所述候选安装包标识集合中候选安装包标识对应的候选安装包特征;
相似度计算模块,用于计算所述候选安装包特征与所述第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征的相似度,得到相似度结果;
标识确定模块,用于当所述相似度结果符合预设条件时,将所述候选安装包特征对应的候选安装包标识作为第二目标安装包标识;
第二集合组成模块,用于返回获取所述候选安装包标识集合中候选安装包标识对应的候选安装包特征执行,直到遍历完成所述候选安装包标识集合中每个候选安装包标识,得到各个第二目标安装包标识组成的第二目标安装包标识集合。
12.根据权利要求11所述的装置,其特征在于,所述相似度计算模块,包括:
清单文件通知获取单元,用于获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标清单文件特征;
分词单元,用于获取所述候选安装包特征中的候选清单文件特征,将所述候选清单文件特征和所述目标清单文件特征按照预设分词规则分词,得到候选分词结果和目标分词结果;
清单文件相似度确定单元,用于根据所述候选分词结果和所述目标分词结果确定相同词数和词总数,根据所述相同词数和词总数确定所述候选清单文件特征和所述目标清单文件特征的清单文件相似度;
第一相似度结果确定单元,用于返回获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标清单文件特征的步骤执行,直到遍历完成所述第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标清单文件特征,得到各个清单文件相似度;从所述各个清单文件相似度中确定所述相似度结果。
13.根据权利要求11所述的装置,其特征在于,所述相似度计算模块,包括:
证书特征获取单元,用于获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标证书特征;
比较单元,用于获取所述候选安装包特征中的候选证书特征,比较所述目标证书特征和所述候选证书特征,根据比较结果确定证书相似度;
第二相似度结果确定单元,用于返回获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标证书特征的步骤执行,直到遍历完成所述第一目标安装包标识集合中每个第一目标安装包标识对应的目标安装包特征中的目标证书特征,得到各个证书相似度;从所述各个证书相似度中确定所述相似度结果。
14.根据权利要求11所述的装置,其特征在于,所述相似度计算模块,包括:
版本特征获取单元,用于获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标版本特征;获取所述候选安装包特征中的候选版本特征;
版本相似度确定单元,用于当所述目标版本特征和所述候选版本特征符合预设版本条件时,根据所述目标版本特征中版本安装包体积特征和所述候选版本特征中版本安装包体积特征确定版本相似度;
第三相似度结果确定单元,用于返回获取所述第一目标安装包标识集合中第一目标安装包标识对应的目标安装包特征中的目标版本特征的步骤执行,直到遍历完成所述第一目标安装包标识集合中每个目标安装包标识对应的目标安装包特征中的目标版本特征,得到各个版本相似度;从所述各个版本相似度中确定所述相似度结果。
15.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
16.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
CN201911133532.1A 2019-11-19 2019-11-19 数据处理方法、装置、计算机可读存储介质和计算机设备 Active CN112905191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911133532.1A CN112905191B (zh) 2019-11-19 2019-11-19 数据处理方法、装置、计算机可读存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911133532.1A CN112905191B (zh) 2019-11-19 2019-11-19 数据处理方法、装置、计算机可读存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN112905191A CN112905191A (zh) 2021-06-04
CN112905191B true CN112905191B (zh) 2023-11-07

Family

ID=76103368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911133532.1A Active CN112905191B (zh) 2019-11-19 2019-11-19 数据处理方法、装置、计算机可读存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN112905191B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1821208A2 (en) * 2006-02-09 2007-08-22 Canon Kabushiki Kaisha Install apparatus, install method, program, and storage medium
CN105608145A (zh) * 2015-12-17 2016-05-25 北京奇虎科技有限公司 基于下载渠道统计应用软件的下载量的方法及装置
CN106845722A (zh) * 2017-02-06 2017-06-13 腾讯科技(深圳)有限公司 一种预测用户量的方法和装置
CN108416212A (zh) * 2018-03-01 2018-08-17 腾讯科技(深圳)有限公司 应用程序识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1821208A2 (en) * 2006-02-09 2007-08-22 Canon Kabushiki Kaisha Install apparatus, install method, program, and storage medium
CN105608145A (zh) * 2015-12-17 2016-05-25 北京奇虎科技有限公司 基于下载渠道统计应用软件的下载量的方法及装置
CN106845722A (zh) * 2017-02-06 2017-06-13 腾讯科技(深圳)有限公司 一种预测用户量的方法和装置
CN108416212A (zh) * 2018-03-01 2018-08-17 腾讯科技(深圳)有限公司 应用程序识别方法和装置

Also Published As

Publication number Publication date
CN112905191A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN106446816B (zh) 人脸识别方法及装置
CN109614238B (zh) 一种目标对象识别方法、装置、系统及可读存储介质
US10650274B2 (en) Image clustering method, image clustering system, and image clustering server
CN109949154B (zh) 客户信息分类方法、装置、计算机设备和存储介质
US20120303624A1 (en) Dynamic rule reordering for message classification
WO2019148712A1 (zh) 钓鱼网站检测方法、装置、计算机设备和存储介质
WO2019153589A1 (zh) 消息数据处理方法、装置、计算机设备和存储介质
CN111159413A (zh) 日志聚类方法、装置、设备及存储介质
US20230205755A1 (en) Methods and systems for improved search for data loss prevention
CN111209490A (zh) 基于用户信息的交友推荐方法、电子装置及存储介质
US11080427B2 (en) Method and apparatus for detecting label data leakage channel
CN110765760B (zh) 一种法律案件分配方法、装置、存储介质和服务器
CN111163072A (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN110555165B (zh) 信息识别方法、装置、计算机设备和存储介质
CN113282921B (zh) 一种文件检测方法、装置、设备及存储介质
CN111414528B (zh) 确定设备标识的方法、装置、存储介质及电子设备
US11544276B2 (en) Search device, method and program recording medium
CN112905191B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN110503504B (zh) 网络产品的信息识别方法、装置及设备
CN108596647B (zh) 一种广告投放方法、装置及电子设备
CN111191235A (zh) 可疑文件分析方法、装置和计算机可读存储介质
CN114257427B (zh) 目标用户的识别方法、装置、电子设备及存储介质
CN112328779B (zh) 训练样本构建方法、装置、终端设备及存储介质
CN111382343B (zh) 一种标签体系生成方法及装置
CN110659347B (zh) 关联文书确定方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant